Granice fantastyki w Wikipedii: analiza danych ujawnia trudności w klasyfikacji

Nowe badania analizują, w jaki sposób struktura Wikipedii może pomóc automatycznie identyfikować treści związane z fantastyką naukową oraz fantasy. Wyniki pokazują, że choć Wikipedia zawiera ogromne ilości danych możliwych do analizy maszynowej, ich interpretacja nie jest prosta.

Na pierwszy rzut oka odpowiedź na pytanie „które artykuły w Wikipedii dotyczą science fiction lub fantasy?” wydaje się prosta. W praktyce okazuje się jednak znacznie trudniejsza. Granice między tymi gatunkami są płynne, a wiele utworów łączy elementy różnych konwencji – od mitologii i horroru po dystopię czy realizm magiczny.

Wikipedia to nie tylko tekst artykułów. To także złożony ekosystem powiązań i metadanych, które można analizować na dużą skalę. Do najważniejszych należą:

  • kategorie przypisane do artykułów (np. „science fiction novels”),
  • wikilinki, czyli wewnętrzne linki między hasłami,
  • dane strukturalne z Wikidanych, które opisują typ obiektu (np. powieść, film, postać fikcyjna),
  • tagi WikiProjektów, czyli oznaczenia tworzone przez społeczności użytkowników Wikipedii.

W ramach publikacji pt. „Science Fiction and Fantasy in Wikipedia: Exploring Structural and Semantic Cues” zostały wykorzystane publiczne zrzuty danych Wikipedii w celu sprawdzenia różnych sygnałów, które mogą wskazywać na związki artykułów z fantastyką. Rezultaty badań mogą być użyteczne dla wielu środowisk. Na przykład, badacze humanistyki cyfrowej mogą analizować rozwój gatunków literackich i kultury popularnej w skali globalnej. Dodatkowo, społeczność Wikipedii może wykorzystać wyniki do identyfikacji braków w oznaczaniu artykułów lub strukturze kategorii.

Badania nad strukturą Wikipedii mają znaczenie wykraczające poza analizę fantastyki. Automatyczne rozpoznawanie tematów w artykułach może pomóc w badaniach kulturoznawczych i literaturoznawczych, analizie dużych zbiorów danych o kulturze popularnej, rozwoju narzędzi sztucznej inteligencji, lepszym wyszukiwaniu oraz rekomendowaniu treści w projektach cyfrowych.

Polski
English
Русский