Czwartkowe spotkania lingwistyczne

Kategoria: Aktualności
Serdecznie zapraszamy na czwartkowe spotkanie lingwistyczne organizowane przez Instytut Języka Polskiego.
10 marca referat pt. „Korpus Czterech Wieszczów jako narzędzie do badania idiolektu pisarzy. Założenia i pierwszy etap projektu” wygłoszą Tomasz Korpysz (UKSW) oraz Anna Mędrzycka-Stefańska (IBL PAN).
Spotkanie odbędzie się o 13.15 na platformie Zoom: https://uw-edu-pl.zoom.us/j/96472813076.
Streszczenie:
Wystąpienie służy prezentacji projektu „Korpus Czterech Wieszczów”, mającego na celu stworzenie kompletnego korpusu dzieł najważniejszych polskich pisarzy romantycznych: Adama Mickiewicza, Juliusza Słowackiego, Zygmunta Krasińskiego i Cypriana Norwida. Ich dorobek zostanie przekształcony w wielowarstwowe repozytorium tekstów, składające się z czterech naukowo opracowanych podkorpusów, obejmujących nie tylko teksty literackie, ale także wszystkie inne istotne dokumenty (notatki, marginalia, inskrypcje na rysunkach itp.).
W dobie coraz szerszego zastosowania metod cyfrowych w badaniach języka i literatury tym bardziej dojmujący staje się brak dostępności kompletnego korpusu dzieł wymienionych twórców, których wpływ na rozwój polskiego języka literackiego jest niepodważalny. Projekt ma na celu wypełnienie luki, którą stanowi brak takiej bazy.
Projekt „Korpusu Czterech Wieszczów” ma spełnić przewidywane potrzeby użytkownika końcowego, takie jak wyszukiwanie wszystkich użyć danego słowa w wybranym idiolekcie, badanie dystrybucji danego słowa lub grupy słów, śledzenie chronologii konkretnych słów, śledzenie zmienności idiolektu w czasie itp. Główne cele powstającego korpusu to: 1. zapewnienie elektronicznych, naukowo opracowanych wersji tekstów wszystkich czterech autorów; 2. umożliwienie – dzięki metadanym i anotacjom oraz zastosowaniu odpowiednich narzędzi – kompleksowych badanń w całym korpusie lub jego komponentach (poszczególni autorzy, gatunki, zakresy dat itp.).
Podczas prezentacji zostanie przedstawiony proces przetwarzania materiałów składających się na korpus, w tym: standaryzacja tekstu (modernizacja, korekta), a także system anotacji, który umożliwia sprawną nawigację w korpusie i wyszukiwanie danych interesujących badacza. Omówiony zostanie również specjalistyczny system metadanych, zaprojektowany specjalnie dla korpusu.
Do tej pory stworzono korpus tekstów poetyckich i pilotażowy korpus tekstów z innych gatunków. Na tej podstawie można już prowadzić wstępne badania, demonstrujące wartość przyszłego korpusu. Badania te zostały przeprowadzone z wykorzystaniem infrastruktury badawczej udostępnionej przez CLARIN-PL i opierają się na metodach przetwarzania języka naturalnego.
Ważnym elementem prezentacji jest podkreślenie różnic między podejściem ściśle edytorskim a koncepcją korpusu. Na różnych etapach przygotowania korpusu konieczne jest podejmowanie fundamentalnych decyzji edytorskich; jednak sposób prezentacji i wykorzystania uzyskanego materiału, a także styl przyjętych anotacji, znacznie różni się od tradycyjnej edycji. Jednocześnie jednak opracowane korpusy mogą być wykorzystywane w przygotowaniu nowych edycji prezentowanych tekstów.