Wyniki oceny milionów źródeł informacji w Wikipedii

Zasada weryfikowalności w Wikipedii stanowi, że cała treść musi być możliwa do zweryfikowania przez czytelników za pośrednictwem wiarygodnych źródeł. Wikipedia nalega, aby informacje opierały się na tym, co zostało wcześniej podane w renomowanych publikacjach, a nie na osobistych przekonaniach lub niepublikowanych pracach jej autorów. Jeśli w wiarygodnych źródłach istnieją sprzeczne poglądy, Wikipedia zachowuje bezstronne stanowisko, przedstawiając każdy punkt widzenia proporcjonalnie.

Cała treść artykułów w Wikipedii musi być poparta wiarygodnymi źródłami. Bezpośrednie odwołania są wymagane w przypadku wszystkich cytatów i wszelkich treści, które mogą być kwestionowane lub są podatne na kwestionowanie. Bez odpowiednich cytatów wbudowanych taka treść może zostać usunięta.

Wikipedia podkreśla znaczenie oparcia swoich artykułów na wiarygodnych, autonomicznych źródłach, znanych ze swojej staranności w sprawdzaniu faktów i dokładności. Źródła takie powinny być publikowane, co w kontekście Wikipedii oznacza, że powinny być publicznie dostępne w dowolnym formacie. Wikipedia nie uważa materiałów niepublikowanych za wiarygodne. Ważne jest, aby korzystać ze źródeł, które odpowiednio wspierają treść i są odpowiednie do formułowanych stwierdzeń, zwłaszcza gdy dotyczą drażliwych tematów, takich jak biografie żyjących osób lub informacje medyczne.

Biorąc pod uwagę ogrom Internetu, w którym znajduje się ponad miliard witryn internetowych, indywidualna ocena wiarygodności każdego źródła staje się trudnym zadaniem dla użytkowników Wikipedii. W niektórych wersjach językowych Wikipedii istnieją szczegółowe wytyczne, które określają jakie źródła można uznać za wiarygodne. Nie ma jednak pełnej listy stron internetowych, które można wykorzystać w Wikipedii jako wiarygodne źródło informacji. Ponadto wiarygodność i reputacja witryny internetowej może zmieniać się w czasie, w zależności od języka i tematyki, co powoduje konieczność częstych aktualizacji tych list. Dlatego bardziej wszechstronna i aktualna kompilacja takich zaufanych źródeł byłaby korzystna nie tylko dla redaktorów, którzy opiekują się treścią Wikipedii, ale także dla jej czytelników, którzy polegają na encyklopedii w celu uzyskania dokładnych informacji.

BestRef służy jako narzędzie do oceny ważności źródeł informacji wykorzystywanych w Wikipedii. Oferuje wgląd w najważniejsze źródła informacji w różnych wersjach językowych Wikipedii, ułatwiając ocenę jakości i wiarygodności treści prezentowanych w tej ogromnej encyklopedii internetowej. Pomaga to zapewnić, że Wikipedia pozostanie godnym zaufania repozytorium wiedzy.

Obecnie baza BestRef zawiera wyniki oceny 3,8 mln stron internetowych w ponad 300 wersjach językowych Wikipedii. Na podstawie analizy ponad 60 milionów artykułów w Wikipedii w październiku 2023 roku udało się wyodrębnić informacje o ponad 330 milionach przypisów (referencji czy odwołań do źródeł informacji). Pozwoliło to na identyfikację najlepszych źródeł informacji Wikipedii przy wykorzystaniu różnych modeli oceny. Poniższa tabela przedstawia wyniki ekstrakcji przypisów dla wybranych wersji językowych oraz liczbę unikalnych stron internetowych (linki prowadzą do rankingów najlepszych źródeł informacji w wybranych wersjach językowych):

Wiki Wersja językowa Liczba artykułów Liczba przypisów Unikatowych wytryn
ar Arabska 1.219.168 6.355.164 294.089
ca Katalońska 735.551 3.895.389 197.470
cs Czeska 532.602 2.752.877 119.313
de Niemiecka 2.839.878 14.473.501 622.551
en Angielska 6.722.214 79.687.819 1.942.579
es Hiszpańska 1.833.749 12.558.623 509.313
fa Perska 975.931 2.477.763 133.634
fi Fińska 559.931 3.371.084 138.320
fr Francuska 2.557.559 19.455.752 576.523
he Hebrajska 342.285 1.867.068 103.848
hi Hindi 162.954 496.057 47.617
hu Węgierska 530.977 2.545.152 124.536
id Indonezyjska 661.844 2.672.604 162.924
it Włoska 1.829.095 8.856.574 278.232
ja Japońska 1.388.532 14.684.917 359.446
ko Koreańska 646.717 1.885.878 91.918
nl Holenderska 2.133.536 3.010.002 112.318
no Norweska 616.624 2.102.507 107.343
pl Polska 1.583.919 8.847.928 242.835
pt Portugalska 1.110.209 7.692.600 319.534
ru Rosyjska 1.940.113 15.461.960 454.351
sv Szwedzka 2.572.575 11.791.609 134.081
th Tajska 158.905 1.010.438 70.395
tr Turecka 533.201 2.773.455 146.854
uk Ukraińska 1.289.727 5.455.954 217.787
vi Wietnamska 1.288.093 3.796.577 147.041
zh Chińska 1.379.496 8.130.187 283.516

Modeli

  1. Model F: oparty na częstotliwości wykorzystania źródła.
  2. Model PR: oparty na skumulowanych odsłonach artykułu, w którym pojawia się źródło, podzielonych przez liczbę przypisów w tym artykule.
  3. Model AR: oparty na liczbie autorów artykułu, w którym pojawia się źródło, podzielonej przez liczbę przypisów w tym artykule.

Częstotliwość wykorzystania źródła w modelu F oznacza, ile przipisów zawiera analizowaną domenę w adresie URL. Metoda ta była powszechnie stosowana w różnych pracach badawczych. Zatem model F uwzględnia całkowitą liczbę wystąpień takiego odniesienia, tj. jeśli to samo źródło zostanie zacytowane 3 razy, to częstotliwość będzie równa 3. Równanie [1] pokazuje obliczenia dla modelu F, gdzie s to źródło, n to liczba uwzględnionych artykułów Wikipedii, Cs(i) to liczba przypisów wykorzystujących źródło s (np. domenę w adresie URL) w artykule i.

Model PR wykorzystuje skumulowane odsłony podzielone przez całkowitą liczbę przypisów w rozważanym artykule. W porównaniu do poprzedniego modelu, tutaj dodatkowo wzięto pod uwagę popularność artykułu w Wikipedii oraz widoczność przypisów, które korzystały z analizowanego źródła. Zabawny jest ten model, że generalnie im więcej przypisów w artykule, tym mniej widoczne jest konkretne odniesienie. Równanie [2] pokazuje obliczenie miary przy użyciu modelu PR, gdzie s jest źródłem, n to liczba uwzględnionych artykułów w Wikipedii, C(i) to całkowita liczba przypisów w artykule i , Cs(i) to liczba przypisów korzystających ze źródła s (np. domena w adresie URL) w artykule i, V(i) to skumulowana wartość odsłon artykułu i. Należy pamiętać, że „podkręcone” wartości odsłon niektórych artykułów Wikipedii zostały zmniejszone.

Ponieważ wartość odsłon artykułu jest bardziej powiązana z czytelnikami, istnieje również inny ważny miernik popularności wśród autorów, tj. liczba użytkowników, którzy zdecydowali się dodać treść lub wprowadzić zmiany w artykule. Biorąc pod uwagę założenia poprzedniego modelu, model AR jest powiązany z autorami. Opisuje to równanie [3], gdzie s jest źródłem, n jest liczbą uwzględnionych artykułów Wikipedii, C(i) to całkowita liczba przypisów w artykule i, Cs(i) to liczba przypisów wykorzystujących źródło s (np. domena w adresie URL) w artykule i, E(i) to łączna liczba zarejestrowanych autorów (innych niż boty) artykułu i.

Bardziej szczegółowe informacje na temat stosowania tych i innych modeli można znaleźć w odpowiednich publikacjach naukowych:

Źródło: blog.wikirank.net

Polski
English
Русский