Zasada weryfikowalności w Wikipedii stanowi, że cała treść musi być możliwa do zweryfikowania przez czytelników za pośrednictwem wiarygodnych źródeł. Wikipedia nalega, aby informacje opierały się na tym, co zostało wcześniej podane w renomowanych publikacjach, a nie na osobistych przekonaniach lub niepublikowanych pracach jej autorów. Jeśli w wiarygodnych źródłach istnieją sprzeczne poglądy, Wikipedia zachowuje bezstronne stanowisko, przedstawiając każdy punkt widzenia proporcjonalnie.
Cała treść artykułów w Wikipedii musi być poparta wiarygodnymi źródłami. Bezpośrednie odwołania są wymagane w przypadku wszystkich cytatów i wszelkich treści, które mogą być kwestionowane lub są podatne na kwestionowanie. Bez odpowiednich cytatów wbudowanych taka treść może zostać usunięta.
Wikipedia podkreśla znaczenie oparcia swoich artykułów na wiarygodnych, autonomicznych źródłach, znanych ze swojej staranności w sprawdzaniu faktów i dokładności. Źródła takie powinny być publikowane, co w kontekście Wikipedii oznacza, że powinny być publicznie dostępne w dowolnym formacie. Wikipedia nie uważa materiałów niepublikowanych za wiarygodne. Ważne jest, aby korzystać ze źródeł, które odpowiednio wspierają treść i są odpowiednie do formułowanych stwierdzeń, zwłaszcza gdy dotyczą drażliwych tematów, takich jak biografie żyjących osób lub informacje medyczne.
Biorąc pod uwagę ogrom Internetu, w którym znajduje się ponad miliard witryn internetowych, indywidualna ocena wiarygodności każdego źródła staje się trudnym zadaniem dla użytkowników Wikipedii. W niektórych wersjach językowych Wikipedii istnieją szczegółowe wytyczne, które określają jakie źródła można uznać za wiarygodne. Nie ma jednak pełnej listy stron internetowych, które można wykorzystać w Wikipedii jako wiarygodne źródło informacji. Ponadto wiarygodność i reputacja witryny internetowej może zmieniać się w czasie, w zależności od języka i tematyki, co powoduje konieczność częstych aktualizacji tych list. Dlatego bardziej wszechstronna i aktualna kompilacja takich zaufanych źródeł byłaby korzystna nie tylko dla redaktorów, którzy opiekują się treścią Wikipedii, ale także dla jej czytelników, którzy polegają na encyklopedii w celu uzyskania dokładnych informacji.
BestRef służy jako narzędzie do oceny ważności źródeł informacji wykorzystywanych w Wikipedii. Oferuje wgląd w najważniejsze źródła informacji w różnych wersjach językowych Wikipedii, ułatwiając ocenę jakości i wiarygodności treści prezentowanych w tej ogromnej encyklopedii internetowej. Pomaga to zapewnić, że Wikipedia pozostanie godnym zaufania repozytorium wiedzy.
Obecnie baza BestRef zawiera wyniki oceny 3,8 mln stron internetowych w ponad 300 wersjach językowych Wikipedii. Na podstawie analizy ponad 60 milionów artykułów w Wikipedii w październiku 2023 roku udało się wyodrębnić informacje o ponad 330 milionach przypisów (referencji czy odwołań do źródeł informacji). Pozwoliło to na identyfikację najlepszych źródeł informacji Wikipedii przy wykorzystaniu różnych modeli oceny. Poniższa tabela przedstawia wyniki ekstrakcji przypisów dla wybranych wersji językowych oraz liczbę unikalnych stron internetowych (linki prowadzą do rankingów najlepszych źródeł informacji w wybranych wersjach językowych):
Wiki | Wersja językowa | Liczba artykułów | Liczba przypisów | Unikatowych wytryn |
---|---|---|---|---|
ar | Arabska | 1.219.168 | 6.355.164 | 294.089 |
ca | Katalońska | 735.551 | 3.895.389 | 197.470 |
cs | Czeska | 532.602 | 2.752.877 | 119.313 |
de | Niemiecka | 2.839.878 | 14.473.501 | 622.551 |
en | Angielska | 6.722.214 | 79.687.819 | 1.942.579 |
es | Hiszpańska | 1.833.749 | 12.558.623 | 509.313 |
fa | Perska | 975.931 | 2.477.763 | 133.634 |
fi | Fińska | 559.931 | 3.371.084 | 138.320 |
fr | Francuska | 2.557.559 | 19.455.752 | 576.523 |
he | Hebrajska | 342.285 | 1.867.068 | 103.848 |
hi | Hindi | 162.954 | 496.057 | 47.617 |
hu | Węgierska | 530.977 | 2.545.152 | 124.536 |
id | Indonezyjska | 661.844 | 2.672.604 | 162.924 |
it | Włoska | 1.829.095 | 8.856.574 | 278.232 |
ja | Japońska | 1.388.532 | 14.684.917 | 359.446 |
ko | Koreańska | 646.717 | 1.885.878 | 91.918 |
nl | Holenderska | 2.133.536 | 3.010.002 | 112.318 |
no | Norweska | 616.624 | 2.102.507 | 107.343 |
pl | Polska | 1.583.919 | 8.847.928 | 242.835 |
pt | Portugalska | 1.110.209 | 7.692.600 | 319.534 |
ru | Rosyjska | 1.940.113 | 15.461.960 | 454.351 |
sv | Szwedzka | 2.572.575 | 11.791.609 | 134.081 |
th | Tajska | 158.905 | 1.010.438 | 70.395 |
tr | Turecka | 533.201 | 2.773.455 | 146.854 |
uk | Ukraińska | 1.289.727 | 5.455.954 | 217.787 |
vi | Wietnamska | 1.288.093 | 3.796.577 | 147.041 |
zh | Chińska | 1.379.496 | 8.130.187 | 283.516 |
Modeli
- Model F: oparty na częstotliwości wykorzystania źródła.
- Model PR: oparty na skumulowanych odsłonach artykułu, w którym pojawia się źródło, podzielonych przez liczbę przypisów w tym artykule.
- Model AR: oparty na liczbie autorów artykułu, w którym pojawia się źródło, podzielonej przez liczbę przypisów w tym artykule.
Częstotliwość wykorzystania źródła w modelu F oznacza, ile przipisów zawiera analizowaną domenę w adresie URL. Metoda ta była powszechnie stosowana w różnych pracach badawczych. Zatem model F uwzględnia całkowitą liczbę wystąpień takiego odniesienia, tj. jeśli to samo źródło zostanie zacytowane 3 razy, to częstotliwość będzie równa 3. Równanie [1] pokazuje obliczenia dla modelu F, gdzie s to źródło, n to liczba uwzględnionych artykułów Wikipedii, Cs(i) to liczba przypisów wykorzystujących źródło s (np. domenę w adresie URL) w artykule i.
Model PR wykorzystuje skumulowane odsłony podzielone przez całkowitą liczbę przypisów w rozważanym artykule. W porównaniu do poprzedniego modelu, tutaj dodatkowo wzięto pod uwagę popularność artykułu w Wikipedii oraz widoczność przypisów, które korzystały z analizowanego źródła. Zabawny jest ten model, że generalnie im więcej przypisów w artykule, tym mniej widoczne jest konkretne odniesienie. Równanie [2] pokazuje obliczenie miary przy użyciu modelu PR, gdzie s jest źródłem, n to liczba uwzględnionych artykułów w Wikipedii, C(i) to całkowita liczba przypisów w artykule i , Cs(i) to liczba przypisów korzystających ze źródła s (np. domena w adresie URL) w artykule i, V(i) to skumulowana wartość odsłon artykułu i. Należy pamiętać, że „podkręcone” wartości odsłon niektórych artykułów Wikipedii zostały zmniejszone.
Ponieważ wartość odsłon artykułu jest bardziej powiązana z czytelnikami, istnieje również inny ważny miernik popularności wśród autorów, tj. liczba użytkowników, którzy zdecydowali się dodać treść lub wprowadzić zmiany w artykule. Biorąc pod uwagę założenia poprzedniego modelu, model AR jest powiązany z autorami. Opisuje to równanie [3], gdzie s jest źródłem, n jest liczbą uwzględnionych artykułów Wikipedii, C(i) to całkowita liczba przypisów w artykule i, Cs(i) to liczba przypisów wykorzystujących źródło s (np. domena w adresie URL) w artykule i, E(i) to łączna liczba zarejestrowanych autorów (innych niż boty) artykułu i.
Bardziej szczegółowe informacje na temat stosowania tych i innych modeli można znaleźć w odpowiednich publikacjach naukowych:
- Companies in Multilingual Wikipedia: Articles Quality and Important Sources of Information (2023)
- Identification of Important Web Sources of Information on Wikipedia across various Topics and Languages (2022)
- Reliability in Time: Evaluating the Web Sources of Information on COVID-19 in Wikipedia across Various Language Editions from the Beginning of the Pandemic (2022)
- Identifying Reliable Sources of Information about Companies in Multilingual Wikipedia (2022)
- Modeling Popularity and Reliability of Sources in Multilingual Wikipedia (2020)
Źródło: blog.wikirank.net