technologia
Możliwy polski odpowiednik GPT. Udana współpraca w obszarze AI pomiędzy Gdańsk Tech i OPI
Gdańsk Tech i OPI opracowały polskie modele generatywne zwane Qra, które trenowano na korpusie danych zawierającym wyłącznie polskie teksty. Początkowo korpus wykorzystywał łącznie prawie 2 TB nieprzetworzonych danych tekstowych, ale został prawie dwukrotnie powiększony w wyniku procesów czyszczenia i deduplikacji, aby zachować najlepszą jakość i unikalną zawartość. Jest to pierwszy model generatywny trenowany z dużą mocą obliczeniową na tak dużym zasobie tekstów polskich. Dla porównania modele Llama, Mistral i GPT są w dużej mierze trenowane na danych w języku angielskim, a tylko ułamek procenta korpusu uczącego składa się z danych w języku polskim.
Najbardziej złożona wersja modelu przeszkolona w STOS w miesiąc
W 2011 roku na Politechnice Gdańskiej powstało środowisko komputerowe do tworzenia modeli sztucznej inteligencji Centrum Kompetencyjne STOS IT, jedno z najnowocześniejszych centrów IT w tej części Europy z superkomputerem Kraken. Zastosowano klaster 21 kart graficznych NVidia A100 80 GB. Zespoły pracowały około sześciu miesięcy nad przygotowaniem środowiska, stworzeniem narzędzi i modeli, ich przeszkoleniem (w oparciu o treści z takich dziedzin, jak m.in. prawo, technologia, nauki społeczne, biomedycyna, religia czy sport) oraz przeprowadzeniem testów. Dzięki rozbudowanej infrastrukturze STOS faktyczny proces szkolenia najbardziej skomplikowanych modeli został skrócony z lat do około miesiąca.
Qra lepiej włada językiem polskim
W wyniku współpracy Gdańsk Tech i OPI zespoły badawcze stworzyły trzy modele o różnym stopniu złożoności: Qra 1B, Qra 7B i Qra 13B. Modele Qra 7B i Qra 13B osiągają znacznie lepszy wynik zakłopotania, czyli możliwości modelowania języka polskiego pod względem rozumienia, poziomu leksykalnego czy samej gramatyki, niż oryginalne modele Llama-2-7b-hf (Meta) i Mistral- 7B-v0.1 (Mistral AI).
Testy mierzące zakłopotanie przeprowadzono m.in. na planie pierwszych 10 000 zdań ze zbioru testowego PolEval 2018 oraz dodatkowo na zestawie 5000 dłuższych i bardziej wymagających dokumentów z 2024 roku.
Rozwiązania wymagające lepszego zrozumienia języka
Modele Qra będą podstawą rozwiązań informatycznych adresujących problemy i procesy wymagające lepszego zrozumienia języka polskiego.
Na tym etapie Qra jest podstawowym modelem językowym, który potrafi generować poprawne gramatycznie i stylistycznie odpowiedzi w języku polskim. Tworzone treści są na bardzo wysokim poziomie, co może potwierdzić między innymi miara zakłopotania. Zespół rozpoczyna obecnie optymalizację modeli, aby sprawdzić ich zdolność do klasyfikacji, podsumowywania tekstu i odpowiadania na pytania.
Opracowane modele zostały opublikowane w specjalnym repozytorium OPI-Gdańsk Tech Platforma Huggingface. Każdy może pobrać model i dostosować go do swojej dziedziny wiedzy oraz problemów lub zadań, na przykład w celu udzielenia odpowiedzi.
„Certyfikowany guru kulinarny. Internetowy maniak. Miłośnik bekonu. Miłośnik telewizji. Zapalony pisarz. Gracz.”