Osoby pracujące z językiem z pewnością zetknęły się, lub zetkną się w przyszłości, z pojęciem korpusu jako zbioru tekstów. Słownik języka polskiego PWN pod dziewiątym, ostatnim punktem wyjaśniającym znaczenie słowa korpus, podaje definicję:  «teksty, dane itp. zgromadzone ze względu na swą reprezentatywność, stanowiące podstawę do analizy naukowej». Przyjrzyjmy się bliżej temu zagadnieniu, ze szczególnym uwzględnieniem korpusu języka polskiego.

 

Zadanie korpusu ogólnego to odzwierciedlenie codziennego użycia języka przez jego przeciętnego użytkownika, dlatego bardzo ważne jest, by taki zbiór był odpowiednio zrównoważony.  Źródłem przykładów będą fragmenty książek, czasopism, portali internetowych poświęconych różnym dziedzinom wiedzy, czasem transkrypcje rozmów, fragmenty czatów. Aby korpus uznać za reprezentatywny dla danej grupy użytkowników czy dla konkretnego okresu, należy stworzyć go zgodnie z wcześniej ustalonymi założeniami – można przeprowadzić dobór próbek z wzięciem pod uwagę konkretnych lat, ze względu na płeć, wiek czy pochodzenie użytkowników, w zależności od potrzeb badawczych.

 

 

Komu potrzebny jest korpus?

Korpusy tekstów to autentyczny materiał językowy, dzięki któremu można bliżej przyjrzeć się, w jakich formach funkcjonuje słowo pisane. Pozwala to na wyodrębnienie typowych użyć słów i konstrukcji, badanie ich znaczenia i funkcji, zaobserwowanie ewolucji języka. Korpusy są niezbędne do prowadzenia badań językoznawczych, tworzenia i aktualizowania słowników, opracowywania podręczników języków obcych. Stanowią cenne źródło wiedzy nie tylko dla językoznawców, ale też, między innymi, dla historyków, literaturo- i kulturoznawców, bibliotekarzy. Wykorzystują je również informatycy, np. do tworzenia translatorów komputerowych czy innych programów wspomagających pracę z językiem – narzędzi bezcennych w pracy tłumacza.

Korpusy języka polskiego

Wśród najważniejszych zbiorów tekstów z zakresu użycia języka polskiego należy wymienić dwa: Narodowy Korpus Języka Polskiego oraz Korpus Języka Polskiego PWN. Ten ostatni pełni bardzo praktyczną funkcję: stanowi wsparcie dla specjalistów z Poradni Językowej PWN w rozwiązywaniu problemów Polaków z ich mową ojczystą, opisywaniu znaczenia słów i konstrukcji. Ponadto pojedyncze zdania z próbek zgromadzonych  w korpusie podawane są jako przykłady ilustrujące znaczenia poszukiwanych słów.

Narodowy Korpus Języka Polskiego

„Internetowy skarbiec polszczyzny” – tak nazywają go twórcy projektu. W ciągu kilku lat zbudowali korpus wielkości  ponad półtora miliarda słów, wyposażony w bardzo zaawansowane narzędzia pozwalające na uzyskanie precyzyjnych wyników wyszukiwania z uwzględnieniem odmiany polskich wyrazów. Ponadto na bazie korpusu opracowywany jest Wielki słownik języka polskiego PAN, realizowany przez zespół językoznawców z całej Polski.

 

 

Korpus a słownik, czyli co z poprawnością?

Pytanie o poprawność w przypadku korpusów jest uzasadnione. Przeciętne użycie języka często będzie dalekie od normatywnego. Twórcy WSJP PAN, bazującego na korpusie, rozwiązali ten problem rozsądnie. Zaznaczają, że ich słownik nie jest normatywny,  „ma on na celu przede wszystkim zanotowanie i opisanie tego, jak się języka polskiego rzeczywiście używa”. Dlatego w poszczególnych hasłach zostały uwzględnione również zjawiska językowe poświadczone w tekstach NKJP, ale uznawane za niepoprawne. W analizie pominięto próbki zawierające ewidentne błędy językowe, jednak wiele przypadków oznaczono adnotacją „w tym znaczeniu uznawane za błędne” / „uważane za niepoprawne” itp. Z korpusów należy zatem korzystać rozważnie, wiedząc, jak są zbudowane i czemu służą. Korpus to nie słownik, ale cenne źródło wiedzy o użyciu języka.