Wiarygodne źródła informacji o firmach w Wikipedii

Artykuł naukowy na temat automatycznej identyfikacji wiarygodnych źródeł informacji o firmach w wielojęzycznej Wikipedii został opublikowany na stronie wydawnictwa IEEE. Przedstawione w ramach pracy naukowej modele oceny źródeł informacji mogą pomóc użytkownikom Internetu w poszukiwaniu wartościowych źródeł informacji na temat firm za pomocą otwartych danych z Wikipedii, Wikidanych oraz DBpedii.

Na początku zostały zidentyfikowane przypisy (lub referencje) w każdej z rozpatrywanych wersji językowych Wikipedii. Na przykład, dla polskojęzycznej Wikipedii liczba otrzymanych przypisów wyniosła około 7,7 mln (w tym 5,2 mln unikatowych), dla anglojęzycznej Wikipedii – około 70,3 mln (w tym 52 mln unikatowych). Następnie zostały dobrane artykuły Wikipedii o firmach z ponad 40 różnych wersji językowych z wykorzystaniem takich semantycznych baz wiedzy jak DBpedia oraz Wikidane. Z tych artykułów zostały wybrane i ocenione źródła informacji w oparciu o 5 opisanych modeli.

Wikidane

Semantyczna baza wiedzy Wikidane działa na podobnych zasadach, co Wikipedia, z jedną istotną różnicą – tutaj możemy umieszczać fakty dotyczące obiektów za pomocą stwierdzeń o właściwościach i wartościach, a nie zdań w języku naturalnym. Każdy element Wikidanych zawiera zbiór różnych stwierdzeń ułożonych w formie „Podmiot-Orzeczenie-Obiekt” (w przypadku Wikidanych to „Element-Właściwość-Wartość”). Na przykład, informacje na temat przedsiębiorstwa PKN Orlen możemy znaleźć na osobnej stronie w Wikidanych:

W ramach powyższej strony możemy znaleźć stwierdzenia, które są opisane przy użyciu różnych właściwości. Na przykład poniższe stwierdzenia wynikają ze stwierdzeń połączonych właściwością P31 („jest to”) z innymi objektami (w nawiasach podany jest identyfikator obiektu):

  • PKN Orlen – jest to – przediębiorstwo (Q6881511)
  • PKN Orlen – jest to – biznes (Q4830453)
  • PKN Orlen – jest to – spółka publiczna (Q891723)
  • (oraz inne…)

Wikidane są również uważane za centralną platformę zarządzania danymi dla Wikipedii i większości jej siostrzanych projektów. To oznacza, że za pośrednictwem Wikidanych, możemy znaleźć odwołania do artykułów Wikipedii w różnych językach opisujących ten sam obiekt. Zatem posiadając listę elementów Wikidanych określonego typu (np. firmy) możemy znaleźć również odpowiednie nazwy artykułów Wikipedii.

Obecnie Wikidane posiadają ponad 100 milionów elementów (opisanych obiektów), podczas gdy liczba artykułów Wikipedii we wszystkich wersjach językowych wynosi około 60 milionów. To oznacza, że nie każdy element Wikidanych musi posiadać odwołanie do osobnego artykułu Wikipedii na określony temat.

Jeżeli zostawimy tylko te elementy Wikidanych, które są połączone z co najmniej jednym artykułem Wikipedii, to najczęściej używane wartości w ramach właściwości P31 („jest to”) można przedstawić w postaci poniższej chmury wartości (obliczenia własne w 2022 roku):

W ramach powyższej ilustracji zostały wykluczone następujące wartości: Q4167410 („strona ujednoznaczniająca w projekcie Wikimedia”), Q13406463 („lista w projekcie Wikimedia”), Q22808320 („strona ujednoznaczniająca dla osób”), Q18340514 („artykuł o wydarzeniach w określonym roku lub okresie”).

DBpedia

Semantyczna baza wiedzy DBpedia jest automatycznie wzbogacana przy użyciu ustrukturyzowanych informacji z artykułów Wikipedii w różnych językach. Uzyskana wiedza na dany temat jest dostępna na osobnej stronie. Na przykład takie semantyczne dane dotyczące przedsiębiorstwa PKN Orlen jako zasób DBpedii wydobyte z angielskojęzycznej Wikipedii możemy znaleźć na stronie:

Na takich stronach DBpedii, wśród różnych właściwości, możemy również znaleźć informacje o typie (typach) opisywanego obiektu. Dla naszego przykładu DBpedia wskazuje na przynależność obiektu do takich klas jak: dbo:Organisation, dbo:Company oraz innych. Posiadając nazwy interesujących nas klas, możemy znaleźć wszystkie obiekty określonego typu w ramach DBpedii.

Najczęściej używane klasy z ontologii DBpedii przedstawia poniższa ilustracja (obliczenia własne w 2022 roku):

Wyniki badań naukowych zostały przedstawione podczas konferencji FedCSIS 2022. Publikację naukową można znaleźć na stronię wydawnictwa IEEE oraz ACSIS.

Polski
English
Русский