Microsoft Azure wesprze podnoszenie jakości Wikipedii

Dr Krzysztof Węcel z Katedry Informatyki Ekonomicznej otrzymał grant na przeprowadzenie badań z wykorzystaniem narzędzi dostępnych w chmurze Microsoft Azure. Nagroda została przyznana w ramach programu Microsoft Azure for Research Award po pozytywnej ocenie zgłoszonego projektu „Data Science for improving the quality of crowdsourced information. The case of Wikipedia”. W realizacji projektu będzie uczestniczył również doktorant Włodzimierz Lewoniewski oraz studenci, którzy w okresie letnim będą odbywali w Katedrze Informatyki Ekonomicznej praktyki w tym zakresie.

Celem prowadzonych badań jest opracowanie metod pozwalających na zgromadzenie kompletnej, dokładnej, wiarygodnej i aktualnej informacji, czyli tzw. informacji wysokiej jakości, na podstawie analizy informacji dostarczanych przez niezależnych dostawców (crowdsourcing). Najbardziej znanym przykładem źródła współtworzonego przez wiele osób jest Wikipedia. Obecnie zawiera ona ponad 44 miliony artykułów w prawie 300 językach. Jest piątą najbardziej popularną witryną na świecie. Jest również źródłem, które przyciąga największy ruch internetowy z wyszukiwarek – 37,5% (źródło: Alexa).

Szczególnym wyzwaniem jest wolumen danych. Angielska Wikipedia zawiera ponad 5 milionów artykułów. Sam tekst tych artykułów po spakowaniu zajmuje 13GB. Do tego dochodzą strony z dyskusją o artykułach – 25GB. Gdyby chcieć uwzględnić informacje o tym, kto i kiedy zmienił jaką stronę (bez samej treści zmian), to potrzebne jest kolejne 50GB. Przewidywany wolumen dla zakresu planowanych badań to 15-20 terabajtów (1TB = 1024GB). Wykorzystanie usług Azure może istotnie poprawić jakość i szybkość prowadzonych badań. Nie tylko pozwoli na przezwyciężenie wyzwań związanych z wolumenem danych, ale również istotnie zwiększy możliwości obliczeniowe, przede wszystkim w zakresie uczenia maszynowego (Machine Learning) do budowy modeli oceny jakości.

Prowadzone badania na Uniwersytecie Ekonomicznym w Poznaniu mogą przyczynić się do przezwyciężenia wielu wyzwań społecznych i ekonomicznych związanych z jakością informacji. Jako jeden z przykładów można podać problem rozprzestrzeniania się fałszywych wiadomości (fake news). Zespół naukowców UEP zdobędzie istotne doświadczenie w pracy z wielkoskalowymi danymi, co wzmocni potencjał naukowy w składanych wnioskach o granty unijne.

Źródło: ue.poznan.pl

Polski
English
Русский