Analiza porównawcza modeli klasyfikacyjnych w kontekście oceny jakości artykułów Wikipedii

W niniejszym artykule dokonujemy analizy porównawczej modeli klasyfikacyjnych (w tym CART, las losowy, wzmacniane drzewa, C4.5, C5.0, SVM, sieci neuronowe) dla automatycznej oceny jakości artykułów w 7 wersjach językowych Wikipedii (białoruska, niemiecka, angielska, francuska, polska, rosyjska, ukraińska). Przedmiotem naszego zainteresowania były modele dostępne w takich narzędziach analitycznych jak STATISTICA, WEKA oraz R Studio. Do klasyfikacji wykorzystujemy ponad 80 różnych miar charakteryzujących artykuły, opracowanych na podstawie literatury oraz własnych eksperymentów. Przeprowadzamy również analizę porównawczą istotności parametrów wpływających na jakość artykułów w poszczególnych językach.

Wersja preprint publikacji dostępna na stronie serwisu ResearchGate

Lewoniewski

Analiza porównawcza modeli klasyfikacyjnych w kontekście oceny jakości artykułów Wikipedii