Wikipedia jest ogromnym repozytorium ludzkiej wiedzy. Największa wersja językowa, anglojęzyczna Wikipedia, zawiera ponad 65,5 miliona stron, w tym 7,17 miliona artykułów (z wyłączeniem przekierowań). Tę rozległą sieć łączy ponad 1,63 miliarda unikalnych odnośników między stronami. Na podstawie analizy tego zbioru danych zidentyfikowano najczęściej cytowane artykuły anglojęzycznej Wikipedii.
Zastanawiając się, które artykuły Wikipedii mogą być najczęściej cytowane, można przypuszczać, że czołowe miejsca zajmują tak istotne tematy historyczne jak „Stany Zjednoczone” czy „II wojna światowa”. Jednak dopiero przetworzenie całego strukturalnego grafu Wikipedii i obliczenie liczby linków przychodzących, czyli cytowań (określających dokładnie, ile unikalnych artykułów prowadzi do danej strony), pozwala ujawnić rzeczywistych liderów rankingu.
Obejrzyj pełny film:
Najczęściej cytowane artykuły
Analiza plików zrzutów danych anglojęzycznej Wikipedii z maja 2026 roku pozwoliła stworzyć ranking najczęściej cytowanych artykułów. Oto 50 najczęściej cytowanych artykułów Wikipedii wraz z liczbą linków przychodzących (cytowań) podaną w nawiasach:
- ISBN (1,640,723)
- Geographic coordinate system (1,257,791)
- Digital object identifier (711,302)
- Wayback Machine (675,714)
- Wikidata (509,749)
- ISSN (505,509)
- Taxonomy (biology) (496,532)
- Global Biodiversity Information Facility (464,041)
- Time zone (455,438)
- United States (437,284)
- IMDb (406,083)
- Open Tree of Life (399,021)
- Binomial nomenclature (392,021)
- Animal (376,148)
- Catalogue of Life (368,553)
- Interim Register of Marine and Nonmarine Genera (313,153)
- INaturalist (295,815)
- Encyclopedia of Life (275,091)
- Association football (274,176)
- Daylight saving time (273,633)
- Wikispecies (267,809)
- France (265,679)
- Semantic Scholar (253,534)
- OCLC (251,623)
- Record label (242,084)
- Arthropod (241,604)
- National Center for Biotechnology Information (237,741)
- PubMed (230,779)
- World War II (227,499)
- Music genre (221,588)
- Pancrustacea (216,225)
- Insect (214,763)
- Germany (214,199)
- United Kingdom (213,409)
- Record producer (200,934)
- The New York Times (200,715)
- Political party (194,625)
- Australia (190,367)
- Italy (189,720)
- Synonym (taxonomy) (185,121)
- India (184,424)
- Bibcode (174,702)
- Integrated Taxonomic Information System (174,431)
- Surname (171,530)
- Japan (168,687)
- Russia (166,259)
- Canada (165,593)
- Spain (162,773)
- UTC+02:00 (160,743)
- Poland (160,034)
Pełniejszy ranking przedstawiono w tym filmiku, a także opublikowano na platformach Hugging Face oraz Kaggle.
Metodologia: przetwarzanie danych
Aby stworzyć ten ranking, prosty skrypt wczytujący treść artykułów Wikipedii (np. w formacie wikikodu) byłby niewystarczający — takie podejście byłoby zbyt wolne i nie uwzględniałoby ukrytych złożoności struktury serwisu. Zamiast tego przetwarzane są surowe zrzuty baz danych SQL Wikipedii. Aby zapewnić możliwie najwyższą dokładność, pipeline przetwarzania danych dokładnie integruje cztery kluczowe pliki (z Wikimedia Downloads z maja 2026 roku):
- 1. Główny rejestr artykułów
Proces rozpoczyna się od plikuenwiki-20260501-page.sql.gz(tabela page). Plik ten przypisuje unikalny identyfikator numeryczny każdej stronie Wikipedii. Umożliwia odfiltrowanie stron dyskusji czy stron użytkowników, pozostawiając wyłącznie właściwe artykuły encyklopedyczne (przestrzeń nazw: 0). Co istotne, wskazuje również, czy dana strona jest przekierowaniem („Redirect”). - 2. Translator celów linków
W nowoczesnej architekturze Wikipedii odnośniki w bazie danych nie wskazują bezpośrednio tekstu, lecz numeryczne identyfikatory celów. Plikenwiki-20260501-linktarget.sql.gz(tabela linktarget) pełni funkcję słownika tłumaczącego te identyfikatory z powrotem na czytelne tytuły artykułów. - 3. Mechanizm rozwiązywania przekierowań
Wikipedia intensywnie wykorzystuje strony-aliasy (np. „USA” przekierowuje do „United States”). Plik
enwiki-20260501-redirect.sql.gz(tabela redirect) służy do zbudowania mapy wszystkich przekierowań, aby możliwe było poprawne ustalenie ostatecznego celu takich skrótów. - 4. Graf połączeń
Na końcu przetwarzany jest ogromny plik
enwiki-20260501-pagelinks.sql.gz(tabela pagelinks). Jest to surowy graf zawierający miliardy połączeń, opisujący po prostu, że „Strona A zawiera link do identyfikatora celu B”.
Ścisłe zasady zliczania
Po połączeniu plików bazodanowych końcowe wyniki cytowań są obliczane według rygorystycznego zestawu zasad zapewniających integralność rankingu:
- Tylko właściwe artykuły: Uwzględniane są wyłącznie linki pochodzące z rzeczywistych artykułów (przestrzeń nazw: 0). Linki ze stron dyskusji, kategorii czy profili użytkowników są całkowicie pomijane. Ponadto ignorowane są również linki wychodzące z przekierowań.
- Pełna deduplikacja: Uwzględniane są wyłącznie unikalne linki. Jeden artykuł źródłowy może przekazać maksymalnie jedno cytowanie do artykułu docelowego. Nawet jeśli artykuł odwołuje się do tego samego celu wielokrotnie w treści (lub poprzez różne aliasy przekierowań), wynik cytowań nie zostanie sztucznie zawyżony. Relacja liczona jest wyłącznie raz.
Wyzwanie: rozwiązywanie aliasów i zapewnienie unikalnych cytowań
Identyfikatory celów wskazujące na przekierowania
Jednym z technicznych wyzwań podczas budowy tego rankingu jest obsługa sytuacji, w których cel linku wskazuje bezpośrednio na przekierowanie. Identyfikator celu może (i bardzo często tak się dzieje) wskazywać nazwę będącą przekierowaniem.
Gdy edytor Wikipedii za pośrednictwem edytora wikikodu wpisuje w artykule [[USA]] (odnośnik do artykułu zatytułowanego „USA”), baza danych przypisuje temu linkowi identyfikator celu. Jednak „USA” nie jest właściwym artykułem końcowym; istnieje w tabeli page (główny rejestr artykułów) jako strona przekierowująca (oznaczona flagą page_is_redirect = 1). Gdyby taki przypadek był liczony naiwnie, „USA” i „United States” otrzymywałyby część cytowań osobno, rozbijając ranking.
Pipeline przetwarzania danych dynamicznie rozwiązuje ten problem:
- Identyfikator celu linku jest pobierany z grafu połączeń.
- Za pomocą translatora celów linków ustalany jest identyfikator strony odpowiadający danemu celowi.
- Główny rejestr artykułów jest sprawdzany w celu ustalenia, czy dana strona jest oznaczona jako przekierowanie.
- Jeśli tak, skrypt przechwytuje taki link i za pomocą mechanizmu rozwiązywania przekierowań ustala identyfikator właściwej strony docelowej.
- Wynik cytowania zostaje następnie poprawnie przypisany do głównego artykułu (np. „United States”).
Zapewnienie unikalnych cytowań (deduplikacja)
Kolejnym istotnym elementem metodologii jest rygorystyczny wymóg deduplikacji: liczony jest wyłącznie jeden unikalny link z danego artykułu źródłowego do artykułu docelowego. Jeśli pojedynczy artykuł zawiera wiele odnośników do tej samej strony docelowej, nie powoduje to sztucznego zawyżenia wyniku cytowań.
Ponadto, ponieważ przekierowania są całkowicie rozwiązywane przed końcowym etapem zliczania, deduplikacja automatycznie obejmuje również aliasy. Na przykład, jeśli artykuł zawiera link do „USA”, a później także do „United States”, pipeline rozwiązuje „USA” do „United States”. Następnie rozpoznaje oba linki jako wskazujące na ten sam byt docelowy i usuwa duplikat. Ostateczny wynik to dokładnie jedno cytowanie przypisane do „United States” z analizowanego artykułu.
Zalety podejścia opartego na SQL
Uzasadnienie przetwarzania surowych baz danych SQL zamiast tworzenia programu do ekstrakcji wikikodu i jego parsowania (np. przy użyciu wyrażeń regularnych) jest trojakie.
Po pierwsze, tekst Wikipedii jest wysoce nieregularny — linki są często osadzane wewnątrz złożonych szablonów, infoboksów czy makr formatowania (co generuje ogromną liczbę linków do ISBN i DOI widocznych na szczycie rankingu). Dzięki wykorzystaniu wstępnie przetworzonych zrzutów SQL analizowane są dokładnie te linki, które zostały poprawnie sparsowane przez serwery Wikipedii, co zapewnia większą dokładność.
Po drugie, naiwna metoda oparta na analizie tekstu rozdzielałaby popularność danego tematu pomiędzy jego aliasy i prawdopodobnie wielokrotnie zliczała te same linki na jednej stronie. Ścisła integracja tabeli redirect oraz wymuszenie zliczania wyłącznie unikalnych par konsoliduje dane, zapewniając, że końcowe metryki dokładnie odzwierciedlają rzeczywiste znaczenie strukturalne artykułu.
Po trzecie, próba pozyskania takiej ilości danych poprzez web scraping (żądania HTTP) byłaby skrajnie nieefektywna obliczeniowo, wymagałaby miesięcy przetwarzania i stanowiłaby niepotrzebne obciążenie dla serwerów Wikipedii. Wykorzystanie zrzutów SQL pozwala przetworzyć i przeanalizować cały graf 1,63 miliarda linków w trybie offline z wysoką wydajnością.
Szablony, infoboksy i automatycznie generowane linki
Naturalnym pytaniem jest, czy rankingi tego typu nie są w dużym stopniu kształtowane przez szablony, infoboksy, szablony cytowań oraz inne automatycznie generowane elementy. Rzeczywiście, znaczna część wewnętrznej struktury linków Wikipedii pochodzi właśnie z takich mechanizmów.
Główna trudność polega jednak na ustaleniu, gdzie należy wyznaczyć granicę. Gdyby uwzględniać wyłącznie linki bezpośrednio widoczne w surowym wikikodzie, pominiętych zostałoby wiele istotnych połączeń — w tym linki generowane przez szablony inline, infoboksy oraz moduły korzystające z danych z Wikidanych.
Warto również zauważyć, że część linków pierwotnie wpisanych ręcznie w wikikodzie mogła z czasem zostać zastąpiona przez szablony dla wygody, spójności lub standaryzacji. W rezultacie rozróżnienie między linkami „ręcznymi” a „generowanymi przez szablony” nie zawsze jest jednoznaczne.
Osobny ranking oparty wyłącznie na linkach występujących bezpośrednio w treści artykułów (wikikodzie) byłby z pewnością interesujący. Takie podejście wymagałoby jednak wielu dodatkowych decyzji metodologicznych dotyczących tego, co powinno być uwzględniane, a co nie — na przykład czy należy brać pod uwagę linki znajdujące się w sekcji „Przypisy”, szablonach nawigacyjnych, szablonach technicznych lub elementach generowanych automatycznie na podstawie metadanych.
Z tego względu niniejsza analiza opiera się na w pełni przetworzonym grafie linków wewnętrznych zapisanym w zrzutach baz danych SQL Wikipedii, odzwierciedlającym rzeczywistą strukturę połączeń generowaną przez oprogramowanie MediaWiki.