Na konferencji Wiki Workshop 2025 zaprezentowano wyniki badania naukowego, w ramach którego dokonano kompleksowej analizy artykułów Wikipedii w 55 wersjach językowych z podziałem na 18 kategorii tematycznych. W badaniu zastosowano autorskie podejście oparte na indeksie cytowań oraz syntetycznej mierze jakości artykułów.

W celu wyznaczenia indeksu cytowań, przeanalizowano 6,6 miliarda powiązań (wikilinków) między stronami Wikipedii, co umożliwiło wskazanie najważniejszych artykułów w poszczególnych wersjach językowych oraz tematach. Artykuły przyporządkowano do kategorii tematycznych na podstawie powiązań z otwartą semantyczną bazą wiedzy Wikidane. To pozwoliło na wydzielenie 18 tematów oraz wyłonienie najbardziej cytowanych treści w każdej z nich. Na tej podstawie zidentyfikowano i oceniono zestawienia najczęściej cytowanych artykułów – w grupach Top 10, Top 25 oraz Top 100, w każdym języku oraz temacie.

Nagranie z prezentacji:

Równocześnie oceniono jakość ponad 47 milionów artykułów Wikipedii przy wykorzystaniu syntetycznej miary jakości, integrującej takie cechy jak długość artykułu, liczba oraz gęstość przypisów, liczba ilustracji i sekcji, a także obecność szablonów wskazujących na problemy jakościowe. Zastosowana metoda umożliwiła porównanie jakości artykułów nawet między wersjami językowymi o odmiennych standardach jakości. Opracowane i zastosowane wskaźniki zostały udostępnione publicznie w formie otwartych zbiorów danych: zawierające obliczone indeksy cytowań dla artykułów Wikipedii na platformie Hugging Face oraz oceny jakości artykułów na platformie Kaggle.

Przeprowadzone analizy wykazały różnice w zakresie jakości i pokrycia tematycznego pomiędzy poszczególnymi wersjami językowymi Wikipedii. Najwyższe wskaźniki cytowań oraz jakości zaobserwowano w największych edycjach, takich jak Wikipedia w wersji angielskiej oraz niemieckiej, zwłaszcza w kategoriach takich jak miasta, filmy, postaci ludzkie czy uczelnie. Wysokie wskaźniki jakości odnotowano również w edycjach katalońskiej, hiszpańskiej, koreańskiej i chińskiej. W przypadku mniej rozwiniętych wersji językowych zaobserwowano znaczny spadek średniej jakości po rozszerzeniu analizowanej grupy artykułów – co wskazuje na koncentrację wysokiej jakości głównie wśród najbardziej cytowanych treści.

Wyniki badania mogą dostarczyć społeczności Wikipedii oraz środowisku naukowemu wartościowych informacji na temat mocnych i słabych stron poszczególnych edycji językowych. Pozyskane dane i wnioski mogą służyć do planowania ukierunkowanych działań na rzecz rozwoju mniej rozwiniętych wersji językowych, optymalizacji procesów redakcyjnych oraz lepszego monitorowania postępów w zakresie jakości treści. Ponadto, przedstawione podejście i udostępnione narzędzia stanowią punkt wyjścia dla dalszych, jeszcze bardziej szczegółowych badań porównawczych Wikipedii na skalę globalną.

W kolejnych etapach planuje się rozszerzenie analizy o dodatkowe tematy, kolejne wersje językowe oraz nowe wskaźniki, takie jak statystyki odsłon czy liczba unikalnych redaktorów, co umożliwi jeszcze pełniejsze zrozumienie zróżnicowania, trendów i wyzwań stojących przed wielojęzyczną Wikipedią.

Praca pt. „Utilizing citation index and synthetic quality measure to compare Wikipedia languages across various topics” została opublikowana w otwartym dostępie. Autorzy publikacji: dr Włodzimierz Lewoniewski, dr hab. Krzysztof Węcel, prof. UEP, prof. dr hab. Witold Abramowicz.

Wiki Workshop to coroczna międzynarodowa konferencja naukowa organizowana przez środowiska akademickie i ekspertów zajmujących się badaniami nad Wikipedią oraz innymi projektami fundacji Wikimedia. Celem wydarzenia jest wymiana wiedzy, doświadczeń oraz wyników badań, które mogą wspierać dalszy rozwój Wikipedii i poprawę jakości publikowanych treści. Tegoroczna edycja konferencji odbyła się w dniach 21-22 maja w formie zdalnej. Więcej informacji można znaleźć na stronie Wiki Workshop: wikiworkshop.org.

Źródła: kie.ue.poznan.pl, ue.poznan.pl