Automatyczna ocena jakości artykułów wielojęzycznej Wikipedii oraz identyfikacja istotnych źródeł jej informacji w różnych tematach

Na Uniwersytecie Ekonomicznym w Poznaniu odbyło się otwarte seminarium naukowe Instytutu Informatyki i Ekonomii Ilościowej pt. „Automatyczna ocena jakości artykułów wielojęzycznej Wikipedii oraz identyfikacja istotnych źródeł jej informacji w różnych tematach”. Podczas seminarium zostały omówione metody oraz narzędzia wykorzystywane do analizy i oceny treści w popularnej wielojęzycznej encyklopedii oraz sposobów identyfikacji i oceny źródeł informacji.

Wikipedia, jako największa i najbardziej popularna ogólnodostępna encyklopedia internetowa, odgrywa ważną rolę w globalnym dostępie do wiedzy i informacji. Ta platforma oferuje szybki dostęp do ogromnej ilości informacji na niemal każdy temat, co czyni ją cennym zasobem dla uczniów, studentów, nauczycieli i naukowców. Wikipedia umożliwia równy dostęp do informacji dla osób z różnych środowisk i regionów świata, przyczyniając się do zacierania różnic w dostępie do wiedzy. Obecnie ona posiada ponad 62 milionów artykułów w ponad 300 wersjach językowych.

Wolność edytowania Wikipedii jest zarówno jej wielkim atutem, jak i wyzwaniem. O ile wolność w dodawaniu i modyfikacji artykułów w tej encyklopedii umożliwia demokratyzację dostępu do wiedzy i wspiera globalną współpracę, o tyle wymaga także skutecznych mechanizmów kontroli jakości i moderacji. Wolność edytowania Wikipedii pozwala każdemu, niezależnie od poziomu wykształcenia czy pozycji społecznej, przyczynić się do budowania i rozwijania ogólnodostępnego zasobu wiedzy. Umożliwia to szeroki dostęp do tworzenia i udostępniania informacji. W porównaniu do tradycyjnych encyklopedii, Wikipedia może być aktualizowana niemal natychmiast po pojawieniu się nowych informacji czy wydarzeń. Jednak należy również wziąć pod uwagę, że ta wolność edytowania Wikipedii może prowadzić do celowego wprowadzania fałszywych informacji, usunięcia wartościowych treści lub innych form wandalizmu, co podważa wiarygodność i jakość encyklopedii. Ponadto, różne punkty widzenia i przekonania edytorów mogą prowadzić do stronniczości w artykułach, co może wpłynąć na neutralność i obiektywność prezentowanych informacji. Poza tym, częste edycje i rewizje mogą prowadzić do nadmiernej zmienności niektórych artykułów, co utrudnia utrzymanie spójności i jakości informacji. W związku z tym, zapewnienie wysokiej jakości wszystkich artykułów w różnych wersjach językowych w obliczu wolności edytowania stanowi znaczące wyzwanie.

W Katedrze Informatyki Ekonomicznej prowadzone są badania naukowe w obszarze tworzenia modeli do automatycznej oceny jakości artykułów Wikipedii w różnych językach. W ramach tych badań zostały opracowane setki miar. Niektóre z nich zostały zaimplementowane w ramach narzędzia WikiRank, które pozwala na ocenę jakości z użyciem miary syntetycznej jakości w skali ciągłej od 0 do 100. Poniższy rysunek przedstawia jeden z wykresów, przedstawionych podczas seminarium, gzie są pokazane wartości średnie jakości artykułów Wikipedii w różnych językach i tematach z użyciem tej miary (dane na luty 2024 roku, dostępna jest również wersja interaktywna tego wykresu):

Badania naukowe skupiają się również na ocenie źródeł informacji podawanych w ramach artykułów Wikipedii. Obecnie w artykułach tej encyklopedii można znaleźć ponad 330 milionów przypisów (odnośników lub referencji) do źródeł. Stosując różne miary można ocenić istotność poszczególnych witryn internetowych jako źródeł informacji. Niektóre z opracowanych modeli zostały zaimplementowane w ramach narzędzia BestRef, które zawiera informacje na temat ocen milionów witryn internetowych.

Automatyczna ocena jakości artykułów Wikipedii ma na celu zidentyfikowanie, w jakim stopniu poszczególne artykuły spełniają określone kryteria jakości, takie jak kompletność, neutralność, wiarygodność źródeł oraz styl. Proces ten jest szczególnie istotny w kontekście wielojęzyczności Wikipedii, gdzie zróżnicowanie językowe i kulturowe wprowadza dodatkowe wyzwania. Algorytmy uczenia maszynowego, w tym klasyfikacja nadzorowana i nienadzorowana, mogą być używane do identyfikacji wzorców jakościowych w artykułach, na podstawie wcześniej oznakowanych danych.

Szczególną rolę w procesie tworzenia modeli oceny jakości mogą odrywać otwarte semantyczne bazy wiedzy, takie jak DBpedia oraz Wikidane. Te zasoby są istotnymi elementami ekosystemu otwartych danych oraz semantycznego Internetu. One umożliwiają zorganizowany i łatwy dostęp do ogromnych zbiorów wiedzy. Dzięki strukturyzacji i semantycznej organizacji danych, DBpedia oraz Wikidane mogą być cennym źródłem dla badaczy i naukowców. Umożliwiają one przeprowadzanie zaawansowanych analiz w wielu dziedzinach, od nauk społecznych, przez lingwistykę, aż po biologię i medycynę, otwierając nowe możliwości dla odkryć naukowych i innowacji. Podobnie jak Wikipedia, te projekty wspierają wielojęzyczne przetwarzanie danych, co jest kluczowe w kontekście globalnego dostępu do wiedzy.

Warto wspomnieć o tym, że lepsza jakość Wikipedii może się przyczynić do poprawy innych popularnych serwisów i narzędzi. Na przykład, wyszukiwarki internetowe (np. Google, Bing) korzystają z danych z Wikipedii do wzbogacania swoich wyników wyszukiwania poprzez tzw. „pudełka wiedzy” (knowledge boxes), które pojawiają się obok wyników wyszukiwania, dostarczając krótkich streszczeń i podstawowych informacji na temat szukanych terminów lub osobistości. Te podsumowania często czerpią treści bezpośrednio z Wikipedii, zapewniając użytkownikom szybki dostęp do zwięzłych informacji. Inny przykład – narzędzia oparte o generatywną sztuczną inteligencję (np. ChatGPT) wykorzystują dane z Wikipedii jako część swojego procesu uczenia. Wiedza zgromadzona w Wikipedii pomaga w trenowaniu modeli na różnorodnych danych, co pozwala na tworzenie bardziej dokładnych i bogatych w treść generowanych materiałów.

Seminarium Instytutu Informatyki i Ekonomii Ilościowej odbyło się w dniu 16 lutego 2024 roku.

Źródła: kie.ue.poznan.pl, ue.poznan.pl

Polski
English
Русский