Kontynuujemy nasze zestawienia narzędzi przydatnych w pracy humanisty. Tym razem wybraliśmy i opisaliśmy dla Was narzędzia do analizy i wizualizacji danych tekstowych.
Korpusomat
Prosta, darmowa aplikacja webowa służąca do tworzenia przeszukiwalnych korpusów językowych, automatycznie anotowanych m.in. w warstwie morfosyntaktycznej i na poziomie jednostek nazewniczych. Korpus można utworzyć z dowolnego zbioru własnych tekstów (aplikacja przetwarza większość formatów służących do przechowywania danych tekstowych) albo z zasobów internetowych. Oprócz możliwości przeszukiwania dokumentów (wyszukiwarka korpusowa MTAS) Korpusomat umożliwia tworzenie podsumowań statystycznych (m.in. lista frekwencyjna, słownictwo charakterystyczne, rozkład słów kluczowych, prosta wizualizacja stylometryczna), a także automatyczne porównywanie korpusów, polegające na wydobyciu cech gramatycznych, stylistycznych i leksykalnych, które najbardziej różnicują porównywane zbiory lub pod względem których są one do siebie najbardziej podobne.
Dla kogo?
Dla użytkowników początkujących i średnio zaawansowanych. Jest to świetne narzędzie do wstępnej eksploracji zbioru tekstów i zarazem punkt wyjścia do bardziej złożonych analiz. Obsługa aplikacji nie wymaga specjalistycznej wiedzy, jednak aby w pełni wykorzystać możliwości wyszukiwarki, warto zapoznać się z podstawami Corpus Query Language.
Mocne strony:
- łatwość i intuicyjność użycia
- wielowarstwowy opis tekstu (informacja fleksyjna, informacja składniowa, jednostki nazewnicze, wydźwięk) umożliwiający precyzyjne przeszukiwanie dokumentów ze względu na ich cechy językowe
- możliwość łączenia w jednym zapytaniu różnych kryteriów przeszukiwania korpusu i odnoszenia się do różnych warstw opisu
- możliwość pozyskiwania danych ze źródeł internetowych
- automatyczne rozpoznawanie metadanych na podstawie nazw plików i możliwość ich ręcznej edycji, a następnie filtrowania wyników i tworzenia prostych statystyk w oparciu o metadane
- możliwość współdzielenia korpusów z innymi użytkownikami
Słabe strony:
- nie oferuje pełnowartościowej analizy kwantytatywnej
- w obecnej wersji pracować można tylko na tekstach w języku polskim
- w obecnej wersji nie ma możliwości korekty tekstów i wyłączenia z analizy niechcianych elementów, co jest szczególnie istotne w przypadku danych pozyskiwanych ze źródeł internetowych
- automatyczne rozpoznawanie metadanych bywa zawodne
- nie umożliwia sortowania wyników wyszukiwania, a kontekst jest stosunkowo wąski
- zdarza się, że działa dość wolno, szczególnie, jeśli wybierzemy dodatkowe warstwy przetwarzania
Przykładowe zastosowania:
- Sceptycyzm wobec szczepień przeciwko COVID-19
- Tematyka koronawirusa w polskiej prasie online – badanie korpusowe
- Korpusomat i jego zastosowanie w analizie i rozwoju Zintegrowanego Rejestru Kwalifikacji
Literacki Eksplorator Maszynowy LEM
Bezpłatna aplikacja webowa służąca do przetwarzania tekstów w języku polskim w celu wydobywania z nich informacji statystycznych, opracowana przez CLARIN-PL we współpracy z Instytutem Badań Literackich PAN. LEM zbiera poszczególne narzędzia CLARIN-PL w jedną usługę, dostosowaną do celów badawczych. Ma strukturę modularną – umożliwia wykonanie zróżnicowanych zadań, począwszy od lematyzacji, a skończywszy na analizie stylometrycznej. Ta formuła jest bardzo pojemna i przez to otwarta na nowe grupy użytkowników i nowe zastosowania. LEM jest stale rozwijany. W obecnej wersji pozwala m.in. na przetworzenie tekstów (podobnie jak Korpusomat obsługuje większość formatów służących do przechowywania danych tekstowych), utworzenie listy frekwencyjnej, utworzenie listy nazw własnych, wyznaczenie i utworzenie statystyk części mowy, scharakteryzowanie użytych w dokumentach czasowników, analizę relacji między bytami nazwanymi, przeprowadzenie modelowania tematycznego i analizy wydźwięku. Wyniki prezentowane są w formie interaktywnej wizualizacji lub jako pliki do pobrania w formatach kompatybilnych z zewnętrznymi aplikacjami. Istnieje również wersja wielojęzyczna usługi (InterLem), ale ma ona obecnie ograniczony zakres funkcjonalności.
Dla kogo?
LEM ma charakter bardzo uniwersalny i może być używany do analizy różnego typu tekstów w ramach różnych dyscyplin. Mogą z niego korzystać zarówno osoby nieposiadające wcześniejszego doświadczenia w cyfrowej analizie tekstów, zainteresowane przetwarzaniem niewielkiej liczby dokumentów i jakościową eksploracją wyników, jak i użytkownicy bardziej zaawansowani, zainteresowani przetwarzaniem większych korpusów i planujących dalsze analizy przy użyciu innych narzędzi. Uwaga: warto założyć indywidualne konto użytkownika. Zapewnia ono dostęp do usług CLARIN-PL, a także do repozytorium i dysku internetowego CLARINCloud.
Mocne strony:
- szeroki wachlarz narzędzi, technik badawczych i wizualizacji
- prosty, trzyetapowy przepływ pracy (wgranie tekstów, wybór zadania i jego parametrów, przeglądanie lub pobieranie wyników) i przyjazny interfejs
- narzędzia CLARIN-PL dostępne w formie uproszczonej, łatwej do obsługi również przez mniej zaawansowanych użytkowników
- możliwość skorzystania z domyślnych ustawień parametrów lub ich dostosowania do własnych potrzeb
- dostosowanie do pracy z tekstami współczesnymi i XIX-wiecznymi
- możliwość wgrania własnej stoplisty
Słabe strony:
- rozmiar plików do przetworzenia jest ograniczony i uzależniony od obciążenia systemu – w przypadku plików powyżej 20 MB mogą pojawić się problemy (użytkownicy zainteresowani przetwarzaniem większych korpusów powinni skontaktować się z CLARIN-PL)
- rozwój dokumentacji nie nadąża za rozwojem usługi, w efekcie niektóre funkcjonalności nie są dobrze opisane
- ze względu na rosnące zainteresowanie użytkowników usługami CLARIN-PL czas przetwarzania tekstów może się wydłużać
Przykładowe zastosowania:
- Tekstów świat. Przyczynek do makroanalitycznej monografii czasopisma literaturoznawczego
- Mniejszość ukraińska i migranci z Ukrainy w Polsce
AntConc
Darmowy program desktopowy do analiz danych językowych opracowany przez Laurence’a Anthony’ego 20 lat temu i nadal aktualizowany. Jest to jedna z najpopularniejszych i najbardziej przystępnych dla użytkownika aplikacji do badań korpusowych. Zawiera zestaw podstawowych narzędzi wykorzystywanych w lingwistyce korpusowej: tworzenie konkordancji (KWIC), obliczanie list frekwencyjnych, analizę kolokacji i analizę słów kluczowych. Pozwala na wykonanie prostych obliczeń statystycznych i eksport wyników analiz do innych programów. Na uwagę zasługuje także wizualizacja konkordancji – prezentacja, jak częste jest użycie wyszukiwanych słów w kolejnych fragmentach tekstu. AntConc umożliwia pracę na korpusach z polskimi znakami diakrytycznymi, nie oferuje jednak dodatkowego wsparcia dla języka polskiego. Jeśli chcemy pracować na danych w postaci zlematyzowanej, możemy wgrać słownik języka polskiego zawierający formy podstawowe i słowa w różnych formach fleksyjnych. Możemy także zlematyzować teksty w narzędziach zewnętrznych, np. w usłudze LEM. Dużą zaletą AntConc jest powiązanie z innymi programami do przetwarzania i analizy danych językowych, m.in. FireAnt (narzędzie do pobieranie tweetów) czy AntPConc (narzędzie do wizualizacji korpusów równoległych).
Dla kogo?
Chociaż program został zaprojektowany przez i dla lingwistów, jest z powodzeniem stosowany przez przedstawicieli różnych dyscyplin. Jest to doskonałe narzędzie dla użytkowników średnio zaawansowanych, posiadających podstawową wiedzę z zakresu analizy korpusowej. AntConc często wykorzystywany jest do analizy dyskursu zarówno w badaniach językoznawczych, jak i społecznych.
Mocne strony:
- prostota i intuicyjność użycia
- łatwe poruszanie się pomiędzy różnymi narzędziami
- pełen zestaw podstawowych narzędzi do analizy korpusowej, a dodatkowo wizualizacja konkordancji i wyszukiwanie pełnotekstowe
- duża elastyczność w zakresie zmiany ustawień
- możliwość wgrania własnych słowników i stoplist
- obszerna dokumentacja i tutoriale wideo dostępne na stronie internetowej programu
Słabe strony:
- obsługuje proste pliki tekstowe – przed przystąpieniem do analizy konieczna jest zwykle konwersja dokumentów do formatu TXT
- nie pozwala na jednoczesne wykonywanie wielu analiz i wgranie kilku korpusów
- nie zapewnia wsparcia dla języka polskiego
- dla użytkowników bardziej zaawansowanych oferowany zestaw narzędzi może okazać się niewystarczający
Przykładowe zastosowania:
- In times of crisis: a corpus approach to the construction of the global financial crisis in annual reports
- Fighting words: a corpus analysis of gender representations in sports reportage
- Komputerowe narzędzia w pracy historyka języka na przykładzie badania partykuł wzmacniających
- Metaforyczna konceptualizacja pojęcia GOSPODARKA w internetowych analizach, raportach i komentarzach rynkowych
Inne polecane narzędzia
Voyant – darmowe środowisko webowe do analizy tekstu, przyjazne dla początkujących użytkowników. Pozwala na łatwe przechodzenie pomiędzy tzw. czytaniem na odległość a czytaniem z bliska. Oferuje zestaw 29 narzędzi, od prostych do bardziej złożonych, oraz szeroką gamę wizualizacji. Pozwala na przetwarzanie dokumentów zapisanych w różnych formatach. Nie jest przystosowane do pracy z tekstami w języku polskim.
#LancsBox – darmowy program desktopowy do analiz korpusowych zawierający ten sam zestaw narzędzi, co AntConc, ale w nieco zmodyfikowanej wersji. Na uwagę zasługuje przede wszystkim wizualizacja kolokacji w postaci grafu oraz możliwość skorzystania z wbudowanych korpusów. #LancsBox obsługuje większość formatów tekstowych i pozwala na pracę z tekstami w różnych językach, ale nie zapewnia dodatkowego wsparcia dla języka polskiego.
Sketch Engine – platforma korpusowa pozwalająca na pracę z tekstami w różnych językach, również w języku polskim. Oferuje szeroki zestaw narzędzi, w tym rozwiązania unikatowe w aplikacjach tego typu, takie jak Word Sketch czy automatyczne tworzenie tezaurusów. Zapewnia dostęp do bardzo dużej liczby korpusów w ponad 90 językach. Korzystanie z platformy jest płatne, ale wiele europejskich uczelni ma do niej obecnie darmowy dostęp.
Opracowanie: Agnieszka Karlińska, Laboratorium Infrastruktury Badawczej Literaturoznawstwa IBL PAN