Na platformie Hugging Face opublikowano obszerny zbiór danych zawierający wyniki automatycznej oceny jakości dla 47 milionów artykułów Wikipedii w 55 wersjach językowych. Oceny tych artykułów zostały przeprowadzone według algorytmów stosowanych w serwisie WikiRank.net – narzędziu, które porównuje jakość haseł Wikipedii w różnych językach.
Serwis WikiRank przypisuje każdemu artykułowi syntetyczną ocenę w skali 0–100 na podstawie różnych miar, m.in. długości tekstu, liczby źródeł (referencji), sekcji i ilustracji. W efekcie każdy artykuł otrzymuje jednolity wynik jakości, co upraszcza porównania między wersjami językowymi mającymi odmienne kryteria ocen.
Publikacja tego zbioru wyników oceny jakości niesie ze sobą wiele potencjalnych zastosowań i korzyści.
Porównanie jakości treści w różnych językach
Ujednolicona skala ocen 0–100 umożliwia bezpośrednie porównanie jakości artykułów między różnymi wersjami językowymi. Dzięki temu można identyfikować języki, w których dane hasło jest najlepiej opracowane, oraz te, gdzie artykuł wymaga jeszcze dopracowania. To pierwsza tak szeroka możliwość analizy jakości Wikipedii w ujęciu wielojęzycznym.
Badania nad jakością informacji i NLP
Zbiór stanowi cenne źródło danych dla badaczy informacji i specjalistów od przetwarzania języka naturalnego. Pozwala on analizować trendy jakościowe w olbrzymiej skali oraz trenować modele sztucznej inteligencji do przewidywania jakości tekstu. Już wcześniejsze prace naukowe wykorzystywały podobne dane WikiRank do badania, które tematy są najlepiej przedstawione w różnych językach Wikipedii, co dowodzi przydatności takich ocen w analizach porównawczych. Teraz te badania będą łatwiejsze dzięki publicznie dostępnemu zbiorowi danych.
Wsparcie dla edytorów Wikipedii
Automatyczne oceny mogą pomóc redaktorom Wikipedii w identyfikacji artykułów wymagających poprawy. Większość haseł we wszystkich językach nie posiada żadnej oceny jakości nadanej przez społeczność (w niektórych wersjach nawet ponad 99% artykułów pozostaje nieocenionych przez ludzi). Dzięki danym WikiRank edytorzy mogą łatwo wyłonić słabsze jakościowo hasła – np. te z małą liczbą źródeł lub krótkie – i skoncentrować wysiłki na ich ulepszeniu. To narzędzie może wskazać luki i priorytety edycyjne w każdej wersji językowej.
Rozwój algorytmów AI do analizy jakości treści
Udostępnienie tak dużego i zróżnicowanego zbioru ułatwi tworzenie algorytmów sztucznej inteligencji do oceny jakości tekstów w Internecie. Modelom AI można dostarczyć miliony przykładów artykułów wraz z ich ocenami, co pozwoli im uczyć się odróżniać treści rzetelne od słabych merytorycznie. Takie systemy automatycznej oceny mogą znaleźć zastosowanie nie tylko w Wikipedii, ale i przy filtrowaniu informacji w sieci – od wykrywania nierzetelnych artykułów po ulepszanie wyników wyszukiwarek pod kątem jakości informacji.
Pełny zbiór danych jest dostępny do pobrania na platformie Hugging Face.