Jakość danych w Wikipedii: automatyczna ocena infoboksów w różnych językach

Infoboks zawiera podsumowanie najważniejszych informacji dotyczących konkretnego obiektu opisanego w artykule Wikipedii. Innymi słowy – infoboks Wikipedii podsumowuje wiedzę o faktach.

Infoboks wygląda jak tabela i zwykle dodawana w prawym górnym rogu artykułu w Wikipedii. W zależności od tematu, taki infoboks składa się z różnych parametrów. Na przykład, jeśli opisuje osobę, często ma datę i miejsce urodzenia, wykształcenie, obywatelstwo itp. Inny przykład – infoboks na temat miesta, który często pokazuje ludność, prezydenta, kod pocztowy, kraj oraz inne.

Ze względu na niezależność procesu redakcyjnego w różnych wersjach językowych Wikipedii, informacje w infoboksach na ten sam temat mogą się różnić. Na przykład, jeśli ktoś poda aktualne informacje o liczbie ludności w artykule o Londynie w angielskiej Wikipedii, nie oznacza to, że inne (ponad 200) języki będą miały taką aktualizację – często inni użytkownicy Wikipedii muszą wprowadzić odpowiednie zmiany w każdym języku.

Jeżeli chcemy porównać jakość informacji w infoboksach Wikipedii w różnych wersjach językowych, często musimy rozumieć te języki. Na szczęście możemy zautomatyzować ten proces, wykorzystując techniki uczenia maszynowego do oceny jakości informacji wielojęzycznych. Jedna z aplikacji do tych celów – niedawno wydane rozszerzenie Chrome, które pomaga porównać jakość infoboksów między wersjami językowymi Wikipedii. Ten krótki film pokazuje jak to działa:

Najlepsze wersje językowe mogą pomóc w poprawie jakości artykułów w mniej rozbudowanych edycjach językowych Wikipedii, a także wzbogacić inne popularne otwarte bazy wiedzy: DBpedia, Wikidane, YAGO oraz inne.

Kod źródłowy rozszerzenia jest dostępny na GitHubie.

Źródło: infoboxes.medium.com

Polski
English
Русский