O problemach z koreferencją
PDF

Słowa kluczowe

referencja
koreferencja
korpus
anotacja

Abstrakt

Celem niniejszego artykułu jest omówienie niektórych problemów, które występują podczas określania koreferencji w tekście. Analizy takie były prowadzone na potrzeby projektu CORE – Komputerowe metody identyfikacji nawiązań w tekstach polskich (kierowanego przez Macieja Ogrodniczuka). Głównym celem projektu było stworzenie nowatorskich metod i narzędzi informatycznych służących do automatycznego wykrywania anafor i koreferencji w tekstach pisanych w języku polskim.

Główny problem z wyznaczaniem faz koreferencji w języku polskim wyłonił się w efekcie kilku czynników. Na poziomie pragmatycznym i semantycznym nie było proste zadecydować czy zachodziła identyczność, czy tylko podobieństwem między dwoma obiektami. Dodatkowym utrudnieniem był brak specjalistycznej wiedzy, który sprawił, że wyznaczenie faz koreferencji było szczególnie trudne między frazami w wyjątkowo specjalistycznych tekstach. Na poziomie gramatycznym, niektóre cechy języka polskiego utrudniły anotację. Ze względu na brak rodzajników określonych i nieokreślonych bardzo trudno było określić, czy nadawca zawsze miał na myśli ten sam obiekt, czy różne obiekty należące do tej samej klasy. Wreszcie, długie zdania bez podmiotu spowodowały pewne problemy przy wyznaczaniu łańcuchów koreferencyjnych między analizowanymi frazami.

PDF