Wikipedia od lat opiera się na jednej z najważniejszych zasad – neutralnym punkcie widzenia. W teorii oznacza to, że każdy artykuł powinien przedstawiać fakty bez stronniczości. W praktyce jednak osiągnięcie pełnej neutralności jest ogromnym wyzwaniem, zwłaszcza przy milionach artykułów tworzonych przez ludzi z całego świata.
Niedawno opublikowana praca naukowa pt. „Cross-Topic Sentiment Analysis of Wikipedia Articles: A Comparative Study of AI Models” pokazuje, jak sztuczna inteligencja może pomóc w analizie tego problemu. Autorzy publikacji: Włodzimierz Lewoniewski, Milena Stróżyna, Izabela Czumałowska, Aleksandra Wojewoda, Krzysztof Węcel. Naukowcy przyjrzeli się aż około 7 milionom artykułów z anglojęzycznej Wikipedii, próbując odpowiedzieć na pytanie: czy język używany w tych tekstach rzeczywiście jest neutralny?
Na pierwszy rzut oka można by pomyśleć, że wystarczy sprawdzić, czy tekst zawiera pozytywne lub negatywne słowa. Problem jest jednak dużo bardziej złożony, ponieważ artykuły Wikipedii są długie i wielowątkowe, różnią się stylem w zależności od dziedziny (np. polityka, fizyka kwantowa), czasem opisują kontrowersyjne tematy. To oznacza, że subtelne różnice w sformułowaniach mogą sugerować stronniczość, nawet jeśli nie ma w nich oczywistych emocjonalnych słów.
W ramach badań naukowych zostały wykorzystane kilka różnych podejść do analizy języka:
- modele słownikowe, takie jak TextBlob czy VADER, które bazują na gotowych listach słów,
- nowoczesne modele językowe oparte na architekturze transformerów, jak RoBERTa i DistilBERT.
Wyniki pokazują, że neutralność Wikipedii nie jest jednolita – różni się między dziedzinami. Wybór modelu może znacząco zmienić ocenę tekstu, a w przypadku długich i złożonych artykułów konieczne jest łączenie ocen z mniejszych fragmentów. Wyniki również mogą mieć praktyczne zastosowanie. Na przykład, lepsza kontrola jakości Wikipedii: automatyczne systemy mogłyby wskazywać fragmenty, które odbiegają od neutralności, pomagając redaktorom szybciej je poprawiać. Innym zastosowaniem jest walka z dezinformacją: podobne metody można wykorzystać do analizy artykułów w internecie i wykrywania stronniczych lub manipulacyjnych treści. Takie technologie mogą pomóc użytkownikom internetu lepiej rozumieć, kiedy tekst jest obiektywny, a kiedy próbuje wpływać na ich opinię.
Jednym z najważniejszych rezultatów badań jest publicznie dostępny zbiór danych, udostępniony na platformie Hugging Face, który zawiera oceny wydźwięku przypisane przez różne modele dla około 7 milionów artykułów anglojęzycznej Wikipedii. Zostały również udostępnione materiały dodatkowe, które pozwalają lepiej zrozumieć, jak dokładnie przebiegała analiza.
Praca naukowa została zaprezentowana podczas konferencji IJCAI 2025. Publikacja jest dostępna pod numerem DOI: 10.1007/978-3-032-18920-2_34.
Artykuł powstał w ramach projektu OpenFact, finansowanego przez Narodowe Centrum Badań i Rozwoju w ramach programu INFOSTRATEG I „Zaawansowane technologie informacyjne, telekomunikacyjne i mechatroniczne”.