Świat AI zmienia się w zawrotnym tempie. W ciągu ostatnich dwóch lat — od sierpnia 2024 do kwietnia 2026 — na podstawie aktualnych i historycznych danych rankingowych z platformy Arena AI (wcześniej działającej pod nazwami LMArena i Chatbot Arena) śledzono łącznie 347 dużych modeli językowych (LLMów). To jedna z najbardziej popularnych platform do społecznościowej oceny modeli AI.

Arena AI stosuje nietypową metodę oceny opartą na głosach użytkowników. Prawdziwi użytkownicy wpisują prompty i porównują obok siebie odpowiedzi dwóch anonimowych modeli. Na podstawie tysięcy takich głosów każdy model otrzymuje wynik pokazujący jego względną jakość w otwartych zadaniach tekst–tekst. Im wyższy wynik, tym częściej model wygrywa bezpośrednie porównania z rywalami. W kwietniu 2026 skala wyników sięga od około 950 punktów (dla starszych modeli) do ponad 1500 (dla obecnej czołówki).

Dynamiczna wizualizacja

Aby lepiej pokazać, jak zmieniała się sytuacja, powstała animacja w formie wyścigu na wykresie liniowym (tzw. line race), która przedstawia walkę czołowych modeli AI o najwyższe pozycje w czasie. Gdy na scenie pojawiają się nowe modele, a starsze stopniowo tracą znaczenie, kolejne przetasowania można obserwować niemal na żywo — od wczesnej dominacji GPT-4o po wejście na szczyt modeli Claude Opus 4.7 i Gemini 3 Pro. W animacji uwzględniono także specjalne kamienie milowe uruchamiane w momencie przekroczenia ważnych progów punktowych.

Ta dynamiczną wizualizacja została pokazana na filmiku na YouTube:

Modele, które trafiały do pierwszej dziesiątki

Spośród 347 ocenionych modeli tylko 77 kiedykolwiek znalazło się w pierwszej dziesiątce rankingu ogólnego. Poniższa tabela pokazuje każdy z nich wraz z obecną pozycją, najwyższym osiągniętym wynikiem i datą ostatniej obecności w ścisłej czołówce.

Obecne miejsce / Model Obecny wynik Najwyższy wynik Najlepsza pozycja w rankingu Ostatnio w Top 10
1. Claude Opus 4.7 Thinking 1504,53 1504,53 1 (2026-04-17) 2026-04-17
2. Claude Opus 4.6 Thinking 1502,63 1506,96 1 (2026-04-14) 2026-04-17
3. Claude Opus 4.7 1498,47 1498,47 3 (2026-04-17) 2026-04-17
4. Claude Opus 4.6 1496,83 1505,14 1 (2026-03-11) 2026-04-17
5. Muse Spark 1495,88 1495,88 3 (2026-04-14) 2026-04-17
6. Gemini 3.1 Pro Preview 1492,25 1500,71 2 (2026-03-05) 2026-04-17
7. Gemini 3 Pro 1486,11 1502,16 1 (2026-01-29) 2026-04-17
8. Grok 4.20 Beta 1 1485,01 1496,02 3 (2026-03-11) 2026-04-17
9. GPT-5.4 High 1481,63 1485,70 6 (2026-04-07) 2026-04-17
10. Grok 4.20 Beta Reasoning (03-09) 1479,81 1483,48 7 (2026-04-07) 2026-04-17
11. GPT-5.2 Chat Latest (2026-02-10) 1477,12 1502,50 3 (2026-02-17) 2026-04-14
12. Grok 4.20 Multi-Agent Beta (03-09) 1475,62 1478,97 9 (2026-04-07) 2026-04-14
13. Gemini 3 Flash 1474,02 1479,66 2 (2025-12-30) 2026-04-07
14. Claude Opus 4.5 Thinking 32K (2025-11-01) 1473,03 1473,90 3 (2025-12-15) 2026-03-31
16. Grok 4.1 Thinking 1469,85 1484,41 2 (2026-01-29) 2026-03-11
17. Claude Opus 4.5 (2025-11-01) 1468,76 1469,20 3 (2025-11-26) 2026-03-06
21. Gemini 3 Flash (Thinking Minimal) 1462,73 1464,05 7 (2026-01-29) 2026-02-11
23. Grok 4.1 1460,51 1466,36 3 (2025-11-20) 2026-02-11
25. GLM-5 1456,03 1470,37 8 (2026-02-10) 2026-02-10
26. GPT-5.1 High 1454,71 1460,58 4 (2025-11-20) 2026-01-29
27. GPT-5.3 Chat Latest 1454,34 1468,22 10 (2026-03-11) 2026-03-11
28. Claude Sonnet 4.5 Thinking 32K (2025-09-29) 1451,92 1453,01 1 (2025-10-03) 2026-01-29
29. Claude Sonnet 4.5 (2025-09-29) 1451,66 1452,74 5 (2025-11-09) 2025-12-15
32. ERNIE 5.0 0110 1450,44 1453,72 9 (2026-01-29) 2026-01-29
33. ERNIE 5.0 Preview 1203 1449,49 1450,56 9 (2025-12-21) 2025-12-21
34. Claude Opus 4.1 Thinking 16K (2025-08-05) 1448,85 1451,45 2 (2025-11-06) 2026-01-09
35. Gemini 2.5 Pro 1448,66 1466,64 1 (2025-11-09) 2026-01-09
36. Claude Opus 4.1 (2025-08-05) 1446,83 1462,10 2 (2025-08-07) 2025-11-20
39. GPT-4.5 Preview (2025-02-27) 1444,45 1444,88 1 (2025-03-25) 2025-11-20
40. ChatGPT-4o Latest (2025-03-26) 1443,19 1443,66 1 (2025-04-16) 2025-11-09
45. GPT-5.1 1438,68 1440,92 9 (2025-11-16) 2025-11-17
47. Qwen3 Max Preview 1434,94 1435,12 8 (2025-09-30) 2025-11-09
49. GPT-5 High 1433,37 1481,37 1 (2025-08-18) 2025-11-09
52. o3 (2025-04-16) 1431,27 1454,32 1 (2025-06-18) 2025-11-09
55. GPT-5 Chat 1426,56 1429,60 8 (2025-09-08) 2025-10-01
60. Claude Opus 4 Thinking 16K (2025-05-14) 1423,85 1424,30 6 (2025-07-28) 2025-09-18
61. Qwen3 235B-A22B Instruct 2507 1423,50 1432,93 5 (2025-08-04) 2025-08-21
64. DeepSeek R1 0528 1421,98 1421,98 5 (2025-06-18) 2025-08-04
65. Grok 4 Fast Chat 1421,08 1424,78 10 (2025-09-30) 2025-09-30
70. Kimi K2 Preview (07-11) 1417,40 1421,29 6 (2025-07-25) 2025-08-28
77. GPT-4.1 (2025-04-14) 1413,36 1413,86 4 (2025-05-22) 2025-07-15
78. Claude Opus 4 (2025-05-14) 1412,22 1420,44 4 (2025-06-18) 2025-08-01
79. Grok 3 Preview (02-24) 1411,89 1413,32 2 (2025-03-25) 2025-07-28
80. GLM-4.5 1411,16 1418,42 10 (2025-08-04) 2025-08-04
81. Gemini 2.5 Flash 1411,05 1417,54 6 (2025-07-07) 2025-07-17
82. Grok 4 0709 1410,12 1436,78 5 (2025-07-28) 2025-09-08
89. Qwen3 235B-A22B No Thinking 1403,21 1403,21 10 (2025-07-07) 2025-07-07
93. o1 (2024-12-17) 1401,79 1402,44 1 (2025-02-27) 2025-07-01
98. DeepSeek R1 1397,80 1398,20 2 (2025-02-27) 2025-05-22
103. DeepSeek V3 0324 1395,24 1397,36 4 (2025-04-16) 2025-06-18
107. o4 Mini (2025-04-16) 1389,90 1400,07 6 (2025-05-11) 2025-06-18
109. Claude Sonnet 4 (2025-05-14) 1388,86 1395,42 7 (2025-06-11) 2025-06-11
110. o1 Preview 1387,97 1388,54 1 (2024-12-22) 2025-04-16
114. Claude 3.7 Sonnet Thinking 32K (2025-02-19) 1386,76 1388,93 5 (2025-03-26) 2025-05-22
125. Qwen2.5 Max 1374,38 1374,98 5 (2025-02-03) 2025-03-25
127. Claude 3.5 Sonnet (2024-10-22) 1371,79 1373,10 2 (2024-12-22) 2025-03-26
128. Claude 3.7 Sonnet (2025-02-19) 1370,74 1375,92 3 (2025-02-27) 2025-04-16
134. o3 Mini High 1363,44 1365,82 4 (2025-02-21) 2025-04-16
137. Gemini 2.0 Flash 001 1360,16 1366,27 4 (2025-02-06) 2025-03-17
138. DeepSeek V3 1358,40 1358,99 4 (2025-01-22) 2025-02-27
145. Gemini 2.0 Flash Lite Preview (02-05) 1353,09 1353,65 10 (2025-02-17) 2025-02-17
146. Gemini 1.5 Pro 002 1350,91 1351,71 2 (2024-10-23) 2025-02-27
150. o3 Mini 1347,62 1348,61 8 (2025-02-14) 2025-02-21
158. GPT-4o (2024-05-13) 1345,41 1346,08 1 (2024-09-15) 2025-02-06
161. Claude 3.5 Sonnet (2024-06-20) 1341,69 1343,37 2 (2024-09-15) 2025-02-05
165. o1 Mini 1336,86 1337,32 2 (2024-09-27) 2025-02-03
168. Grok 2 (2024-08-13) 1335,11 1335,58 5 (2024-08-28) 2024-12-05
169. GPT-4o (2024-08-06) 1334,65 1335,39 7 (2024-09-15) 2024-12-22
170. Gemini Advanced 0514 1334,59 1335,24 3 (2024-09-15) 2025-01-28
171. Llama 3.1 405B Instruct Bf16 1334,54 1335,95 4 (2024-09-15) 2025-01-24
173. Llama 3.1 405B Instruct Fp8 1332,73 1334,26 5 (2024-09-15) 2025-01-05
181. GPT-4 Turbo (2024-04-09) 1323,73 1324,88 8 (2024-09-15) 2024-09-27
187. Claude 3 Opus (2024-02-29) 1321,03 1323,08 9 (2024-09-15) 2024-09-15
– ChatGPT-4o Latest 1288,84 1 (2024-09-04) 2024-09-04
– Dola Seed 2.0 Preview 1474,55 7 (2026-02-24) 2026-03-04
– Gemini 1.5 Pro API 0514 1238,75 10 (2024-09-15) 2024-09-15
– Llama 3.1 405B Instruct 1250,04 5 (2024-09-04) 2024-09-04

Kilka ciekawych obserwacji:

  • Anthropic dominuje w obecnym top 3. Claude Opus 4.7 Thinking zajmuje pierwsze miejsce z wynikiem 1504.53 — to pierwszy model w historii, który przekroczył granicę 1500 punktów na Arena AI. Wersja bez trybu „Thinking”, czyli Claude Opus 4.7, jest trzecia, a Claude Opus 4.6 Thinking plasuje się na miejscu drugim.
  • Google i xAI są tuż za liderami. Gemini 3 Pro, Gemini 3.1 Pro Preview i Gemini 3 Flash znajdują się obecnie w top 15. Z kolei Grok 4.20 Beta 1 (#5) oraz kilka innych wariantów Groka pokazują, jak wyrównana jest ta rywalizacja.
  • Historia flagowych modeli OpenAI jest wyjątkowo dynamiczna. GPT-5 High był kiedyś numerem 1 — w sierpniu 2025 osiągnął wynik 1481 punktów — ale od tamtej pory spadł na 49. miejsce, gdy wyprzedziły go nowsze modele. Najnowszy model OpenAI, GPT-5.4 High, zajmuje obecnie 6. pozycję.
  • „Byli mistrzowie” pokazują skalę zmian. GPT-4o był numerem 1 jeszcze we wrześniu 2024, a dziś znajduje się dopiero na 158. miejscu. o1 Preview prowadził w grudniu 2024, a teraz jest na 110. pozycji.
  • Chińskie laboratoria AI coraz mocniej zaznaczają swoją obecność. GLM-5.1, Qwen3.5 Max Preview, ERNIE 5.0 i Kimi K2.5 Thinking pojawiają się w top 20, co pokazuje, że Zhipu AI, Alibaba, Baidu i Moonshot są dziś pełnoprawnymi uczestnikami tego wyścigu.
  • Modele open source także docierały do ścisłej czołówki. DeepSeek R1 osiągnął szczyt na 2. miejscu w lutym 2025, a DeepSeek V3.2 Exp Thinking znajduje się obecnie na 10. pozycji — to bardzo mocne wyniki jak na modele z otwartą licencją.
  • Górna granica wyników stale rośnie. W sierpniu 2024 lider miał około 1290 punktów. W kwietniu 2026 najlepszy model przekracza już 1504 punkty. To wzrost o około 17% w mniej niż dwa lata, odzwierciedlający szybki postęp w architekturze modeli, jakości danych treningowych i metodach dostrajania.
  • Czas utrzymywania się w top 10 wyraźnie się skraca. Wcześniejsze modele, takie jak GPT-4o czy Gemini 1.5 Pro, potrafiły utrzymywać się w pierwszej dziesiątce przez wiele miesięcy. Nowsze modele bywają wypierane już po kilku tygodniach, bo tempo premier znacząco wzrosło.

Metodologia

Ta analiza opiera się na ocenach z kategorii „overall” platformy Arena AI dla zadań typu tekst–tekst. Pozycje w rankingu opierają się na wynikach uzyskanych z ocen par modeli dokonywanych przez użytkowników. Przeanalizowano dane z okresu od 28 sierpnia 2024 do 17 kwietnia 2026. Do przedstawionej wcześniej tabeli (patrz sekcję „Modele, które trafiały do pierwszej dziesiątki”) zostały wybrane modele, które choć raz znalazły się w pierwszej dziesiątce w tym przedziale czasu. Wartości określone jako „obecny wynik” odnoszą się do najnowszych dostępnych danych.

Źródło danych: Arena AI (Text Arena).