Polecamy cyfrowe narzędzia do analizy danych tekstowych

Kontynuujemy nasze zestawienia narzędzi przydatnych w pracy humanisty. Tym razem wybraliśmy i opisaliśmy dla Was narzędzia do analizy i wizualizacji danych tekstowych.

Korpusomat

Prosta, darmowa aplikacja webowa służąca do tworzenia przeszukiwalnych korpusów językowych, automatycznie anotowanych m.in. w warstwie morfosyntaktycznej i na poziomie jednostek nazewniczych. Korpus można utworzyć z dowolnego zbioru własnych tekstów (aplikacja przetwarza większość formatów służących do przechowywania danych tekstowych) albo z zasobów internetowych. Oprócz możliwości przeszukiwania dokumentów (wyszukiwarka korpusowa MTAS) Korpusomat umożliwia tworzenie podsumowań statystycznych (m.in. lista frekwencyjna, słownictwo charakterystyczne, rozkład słów kluczowych, prosta wizualizacja stylometryczna), a także automatyczne porównywanie korpusów, polegające na wydobyciu cech gramatycznych, stylistycznych i leksykalnych, które najbardziej różnicują porównywane zbiory lub pod względem których są one do siebie najbardziej podobne.

Dla kogo?

Dla użytkowników początkujących i średnio zaawansowanych. Jest to świetne narzędzie do wstępnej eksploracji zbioru tekstów i zarazem punkt wyjścia do bardziej złożonych analiz. Obsługa aplikacji nie wymaga specjalistycznej wiedzy, jednak aby w pełni wykorzystać możliwości wyszukiwarki, warto zapoznać się z podstawami Corpus Query Language.

Mocne strony:

łatwość i intuicyjność użycia
wielowarstwowy opis tekstu (informacja fleksyjna, informacja składniowa, jednostki nazewnicze, wydźwięk) umożliwiający precyzyjne przeszukiwanie dokumentów ze względu na ich cechy językowe
możliwość łączenia w jednym zapytaniu różnych kryteriów przeszukiwania korpusu i odnoszenia się do różnych warstw opisu
możliwość pozyskiwania danych ze źródeł internetowych
automatyczne rozpoznawanie metadanych na podstawie nazw plików i możliwość ich ręcznej edycji, a następnie filtrowania wyników i tworzenia prostych statystyk w oparciu o metadane
możliwość współdzielenia korpusów z innymi użytkownikami

Słabe strony:

nie oferuje pełnowartościowej analizy kwantytatywnej
w obecnej wersji pracować można tylko na tekstach w języku polskim
w obecnej wersji nie ma możliwości korekty tekstów i wyłączenia z analizy niechcianych elementów, co jest szczególnie istotne w przypadku danych pozyskiwanych ze źródeł internetowych
automatyczne rozpoznawanie metadanych bywa zawodne
nie umożliwia sortowania wyników wyszukiwania, a kontekst jest stosunkowo wąski
zdarza się, że działa dość wolno, szczególnie, jeśli wybierzemy dodatkowe warstwy przetwarzania

Przykładowe zastosowania:

Literacki Eksplorator Maszynowy LEM

Bezpłatna aplikacja webowa służąca do przetwarzania tekstów w języku polskim w celu wydobywania z nich informacji statystycznych, opracowana przez CLARIN-PL we współpracy z Instytutem Badań Literackich PAN. LEM zbiera poszczególne narzędzia CLARIN-PL w jedną usługę, dostosowaną do celów badawczych. Ma strukturę modularną – umożliwia wykonanie zróżnicowanych zadań, począwszy od lematyzacji, a skończywszy na analizie stylometrycznej. Ta formuła jest bardzo pojemna i przez to otwarta na nowe grupy użytkowników i nowe zastosowania. LEM jest stale rozwijany. W obecnej wersji pozwala m.in. na przetworzenie tekstów (podobnie jak Korpusomat obsługuje większość formatów służących do przechowywania danych tekstowych), utworzenie listy frekwencyjnej, utworzenie listy nazw własnych, wyznaczenie i utworzenie statystyk części mowy, scharakteryzowanie użytych w dokumentach czasowników, analizę relacji między bytami nazwanymi, przeprowadzenie modelowania tematycznego i analizy wydźwięku. Wyniki prezentowane są w formie interaktywnej wizualizacji lub jako pliki do pobrania w formatach kompatybilnych z zewnętrznymi aplikacjami. Istnieje również wersja wielojęzyczna usługi (InterLem), ale ma ona obecnie ograniczony zakres funkcjonalności.

Dla kogo?

LEM ma charakter bardzo uniwersalny i może być używany do analizy różnego typu tekstów w ramach różnych dyscyplin. Mogą z niego korzystać zarówno osoby nieposiadające wcześniejszego doświadczenia w cyfrowej analizie tekstów, zainteresowane przetwarzaniem niewielkiej liczby dokumentów i jakościową eksploracją wyników, jak i użytkownicy bardziej zaawansowani, zainteresowani przetwarzaniem większych korpusów i planujących dalsze analizy przy użyciu innych narzędzi. Uwaga: warto założyć indywidualne konto użytkownika. Zapewnia ono dostęp do usług CLARIN-PL, a także do repozytorium i dysku internetowego CLARINCloud.

Mocne strony:

szeroki wachlarz narzędzi, technik badawczych i wizualizacji
prosty, trzyetapowy przepływ pracy (wgranie tekstów, wybór zadania i jego parametrów, przeglądanie lub pobieranie wyników) i przyjazny interfejs
narzędzia CLARIN-PL dostępne w formie uproszczonej, łatwej do obsługi również przez mniej zaawansowanych użytkowników
możliwość skorzystania z domyślnych ustawień parametrów lub ich dostosowania do własnych potrzeb
dostosowanie do pracy z tekstami współczesnymi i XIX-wiecznymi
możliwość wgrania własnej stoplisty

Słabe strony:

rozmiar plików do przetworzenia jest ograniczony i uzależniony od obciążenia systemu – w przypadku plików powyżej 20 MB mogą pojawić się problemy (użytkownicy zainteresowani przetwarzaniem większych korpusów powinni skontaktować się z CLARIN-PL)
rozwój dokumentacji nie nadąża za rozwojem usługi, w efekcie niektóre funkcjonalności nie są dobrze opisane
ze względu na rosnące zainteresowanie użytkowników usługami CLARIN-PL czas przetwarzania tekstów może się wydłużać

Przykładowe zastosowania:

AntConc

Darmowy program desktopowy do analiz danych językowych opracowany przez Laurence’a Anthony’ego 20 lat temu i nadal aktualizowany. Jest to jedna z najpopularniejszych i najbardziej przystępnych dla użytkownika aplikacji do badań korpusowych. Zawiera zestaw podstawowych narzędzi wykorzystywanych w lingwistyce korpusowej: tworzenie konkordancji (KWIC), obliczanie list frekwencyjnych, analizę kolokacji i analizę słów kluczowych. Pozwala na wykonanie prostych obliczeń statystycznych i eksport wyników analiz do innych programów. Na uwagę zasługuje także wizualizacja konkordancji – prezentacja, jak częste jest użycie wyszukiwanych słów w kolejnych fragmentach tekstu. AntConc umożliwia pracę na korpusach z polskimi znakami diakrytycznymi, nie oferuje jednak dodatkowego wsparcia dla języka polskiego. Jeśli chcemy pracować na danych w postaci zlematyzowanej, możemy wgrać słownik języka polskiego zawierający formy podstawowe i słowa w różnych formach fleksyjnych. Możemy także zlematyzować teksty w narzędziach zewnętrznych, np. w usłudze LEM. Dużą zaletą AntConc jest powiązanie z innymi programami do przetwarzania i analizy danych językowych, m.in. FireAnt (narzędzie do pobieranie tweetów) czy AntPConc (narzędzie do wizualizacji korpusów równoległych).

Dla kogo?

Chociaż program został zaprojektowany przez i dla lingwistów, jest z powodzeniem stosowany przez przedstawicieli różnych dyscyplin. Jest to doskonałe narzędzie dla użytkowników średnio zaawansowanych, posiadających podstawową wiedzę z zakresu analizy korpusowej. AntConc często wykorzystywany jest do analizy dyskursu zarówno w badaniach językoznawczych, jak i społecznych.

Mocne strony:

prostota i intuicyjność użycia
łatwe poruszanie się pomiędzy różnymi narzędziami
pełen zestaw podstawowych narzędzi do analizy korpusowej, a dodatkowo wizualizacja konkordancji i wyszukiwanie pełnotekstowe
duża elastyczność w zakresie zmiany ustawień
możliwość wgrania własnych słowników i stoplist
obszerna dokumentacja i tutoriale wideo dostępne na stronie internetowej programu

Słabe strony:

obsługuje proste pliki tekstowe – przed przystąpieniem do analizy konieczna jest zwykle konwersja dokumentów do formatu TXT
nie pozwala na jednoczesne wykonywanie wielu analiz i wgranie kilku korpusów
nie zapewnia wsparcia dla języka polskiego
dla użytkowników bardziej zaawansowanych oferowany zestaw narzędzi może okazać się niewystarczający

Przykładowe zastosowania:

Inne polecane narzędzia

Voyant – darmowe środowisko webowe do analizy tekstu, przyjazne dla początkujących użytkowników. Pozwala na łatwe przechodzenie pomiędzy tzw. czytaniem na odległość a czytaniem z bliska. Oferuje zestaw 29 narzędzi, od prostych do bardziej złożonych, oraz szeroką gamę wizualizacji. Pozwala na przetwarzanie dokumentów zapisanych w różnych formatach. Nie jest przystosowane do pracy z tekstami w języku polskim.

#LancsBox – darmowy program desktopowy do analiz korpusowych zawierający ten sam zestaw narzędzi, co AntConc, ale w nieco zmodyfikowanej wersji. Na uwagę zasługuje przede wszystkim wizualizacja kolokacji w postaci grafu oraz możliwość skorzystania z wbudowanych korpusów. #LancsBox obsługuje większość formatów tekstowych i pozwala na pracę z tekstami w różnych językach, ale nie zapewnia dodatkowego wsparcia dla języka polskiego.

Sketch Engine – platforma korpusowa pozwalająca na pracę z tekstami w różnych językach, również w języku polskim. Oferuje szeroki zestaw narzędzi, w tym rozwiązania unikatowe w aplikacjach tego typu, takie jak Word Sketch czy automatyczne tworzenie tezaurusów. Zapewnia dostęp do bardzo dużej liczby korpusów w ponad 90 językach. Korzystanie z platformy jest płatne, ale wiele europejskich uczelni ma do niej obecnie darmowy dostęp.

Opracowanie: Agnieszka Karlińska, Laboratorium Infrastruktury Badawczej Literaturoznawstwa IBL PAN