Bank drzew

Struktura drzewiasta dla zdania Janek widzi Marysię
S – Sentence (zdanie)
N – Noun (rzeczownik)
VP – Verb Phrase (fraza czasownikowa)
V – Verb (czasownik)
N – Noun (rzeczownik)

Bank drzew – korpus, w którym każde zdanie zostało sparsowane. Struktura zdania jest zazwyczaj reprezentowana w postaci drzewa – stąd też pochodzi nazwa. Zdania w banku powinny być autentyczne, nie zaś spreparowane sztucznie.

Banki drzew mogą być tworzone ręcznie, gdzie lingwiści oznaczają każde zdanie strukturą syntaktyczną, lub półautomatycznie, gdzie analizator składniowy oznacza każde zdanie, a lingwiści sprawdzają i ewentualnie je poprawiają. W praktyce budowa banku drzew jest zadaniem bardzo pracochłonnym i może zająć wiele lat.

Bank drzew jest językowym zasobem, który dostarcza przypisów do języka naturalnego na różnych poziomach strukturalnych: na poziomie słowa, frazy, zdania, a czasami także na poziomie struktury funkcja-argument.

Zastosowania banków drzew

Banki drzew mogą służyć między innymi do analizy zjawisk syntaktycznych i do testowania parserów. Na jego podstawie można analizować częstość występowania różnych form gramatycznych, a także odkrywać nowe.

Można wymienić kilka różnych podejść do zastosowań banków drzew:

  • źródła danych dla narzędzi automatycznego przetwarzania języków naturalnych
  • źródła danych dla porównywania parserów
  • źródła danych do syntaktycznej analizy złożonego tekstu
  • dowód poprawności twierdzeń[1]

Mimo że twórcy większości banków drzew deklarują, że ich banki drzew będą używane do prawie wszystkich wymienionych wyżej celów, głęboka analiza pokazuje, że jest to wyjątkowo trudne, jeśli nie niemożliwe.

Polski Bank Drzew

Pomoc:Ponadczasowość
Ta sekcja od 2017-03 wymaga modyfikacji na podstawie najświeższych informacji.
Niektóre treści są na pewno lub najprawdopodobniej nieaktualne. Artykuł należy zweryfikować, wskazując w przypisach źródła informacji.
Dokładniejsze informacje o tym, co należy poprawić, być może znajdują się w dyskusji tej sekcji.
Po wyeliminowaniu niedoskonałości należy usunąć szablon {{Dopracować}} z tej sekcji.

Obecnie[kiedy?] polski bank drzew jest w trakcie tworzenia. Jego tworzeniem zajmuje się Instytut Podstaw Informatyki PAN. Zakończenie projektu planowane jest na 2011 rok.[2]

Zobacz też

Przypisy

  1. Takie zastosowanie jest rzadko stwierdzone jawnie, ale często stanowi dodatkową motywację do budowania banków drzew.
    Zobacz: http://www.linguateca.pt/documentos/SantosPROPOR2003Timber.rtf (en)
  2. IPI PAN – Projekty badawcze finansowane z krajowych środków publicznych. [dostęp 2009-01-17]. [zarchiwizowane z tego adresu (2011-01-30)].

Bibliografia

  • "M. Marciniak, A. Mykowiecka, A. Przepiórkowski & A. Kupść, An HPSG-Annotated test Suite for Polish LREC 2000"