Connect with us

Nauka

Naukowcy opracują polską wersję ChatGPT

Published

on

Naukowcy opracują polską wersję ChatGPT

Wielkojęzyczny polski model PLLuM, szkolony głównie z treści polskojęzycznych i oparty na nim inteligentny asystent, będzie rozwijany przez sześć polskich jednostek badawczych. „Nie możemy zostać w tyle” – mówią przedstawiciele projektu.

Konsorcjum PLLUM (Polish Large Language Universal Model) powstało w listopadzie (w przeddzień pierwszej rocznicy chatGPT). Jej członkami jest sześć wiodących w Polsce jednostek badawczych w dziedzinie sztucznej inteligencji i językoznawstwa: Politechnika Wrocławska (lider konsorcjum), Państwowy Instytut Badawczy NASK, Państwowy Instytut Przetwarzania Informacji – Państwowy Instytut Badawczy, Instytut Informatyki PAN, Uniwersytet Łódzki i Instytut Slawistyki PAN. Przedstawiciele NASK o powstaniu konsorcjum poinformowali w przesłanym PAP komunikacie prasowym.

Od około roku wspaniałe modele językowe (LLM) generatywnej sztucznej inteligencji zaskakują nas niewyobrażalnymi wcześniej możliwościami, jakie oferuje sztuczna inteligencja. Jednak najbardziej znane modele, takie jak ChatGPT czy Google Bard, mają swoje ograniczenia: są płatne, zamknięte (nie ma możliwości poznania ani modyfikowania ich algorytmów) i przeszkolone z bardzo niewielką ilością treści w języku polskim (dlatego więcej błędy pojawiają się w odpowiedziach polskich niż angielskich).

Stąd pomysł stworzenia otwartego i bezpłatnego modelu, szkolącego się głównie z treści w języku polskim i opracowania inteligentnego asystenta korzystającego z tego modelu. „Cały projekt musi być realizowany zgodnie z dobrymi etycznymi i odpowiedzialnymi praktykami sztucznej inteligencji, w tym z zasadami reprezentatywności, przejrzystości i równości danych” – mówią przedstawiciele projektu. Ważną rolę w projekcie odegra Krajowe Centrum Doskonałości Danych mieszczące się w NASK.

„Opracowany przez wiodące jednostki badawcze we współpracy z administracją publiczną, zgodnie z zasadami odpowiedzialnego rozwoju systemów AI, przejrzysty i w pełni dostępny model otwarty będzie innowacją światową w sensie projektu łączącego dostęp do danych, umiejętności, zasoby techniczne i know-how jednostek naukowych i rządu dla wspólnego celu wspierania nauki i gospodarki, w tym konkurencyjności polskich przedsiębiorstw” – mówi Wojciech Pawlak, dyrektor Państwowego Instytutu Badawczego NASK.

READ  Naukowcy odkrywają nowy, dziwaczny gatunek krokodyla, który bardziej przypomina kosmitę

Oprócz płatnych modeli językowych istnieją już duże modele językowe na otwartej licencji, jednak wciąż brakuje modeli szkolonych na reprezentatywnych zestawach języków polskich. Niewielki udział tekstów polskich w procesie szkolenia lub po prostu dostrojony do języka polskiego sprawia, że ​​modele te nie nadają się do wielu zastosowań komercyjnych w języku polskim. Dlatego też, jak czytamy w oświadczeniu, PLLuM zamierza wspierać polskich przedsiębiorców w wyścigu technologicznym, tworząc dostęp do modelu z rozszerzonym językiem polskim na wolnej i otwartej licencji, który zaspokoi potrzeby rynku.

„Duże modele językowe stały się podstawowymi i uniwersalnymi silnikami przetwarzania języka naturalnego, jednak ich budowanie czy trenowanie przekracza możliwości polskich firm. Dlatego tak ważne jest stworzenie otwartego, wielkojęzycznego modelu polskiego połączonego z dostępną już w Polsce infrastrukturą informatyczną dla sztucznej inteligencji (np. na Politechnice Wrocławskiej), która może wspierać rozwój nauki, ale także małe i średnie firmy. średnich przedsiębiorstw, które są siłą napędową polskiej gospodarki w obszarze IT i AI” – mówi profesor Maciej Piasecki, kierownik projektu na Politechnice Wrocławskiej (lider konsorcjum).

Dyrektor Narodowego Instytutu Przetwarzania Informacji dr Jarosław Protasiewicz dodaje: „Dynamiczny rozwój branży IT i środowiska naukowego w Polsce leży w interesie nas wszystkich. Ważne jest, aby opracowywać nowe narzędzia informatyczne i udostępniać je wszystkim bezpłatnie. W instytucie opracowaliśmy m.in. wspaniały polski model RoBERTa, który według KLEJ Benchmark jest najlepiej reprezentatywnym modelem języka polskiego. Cieszę się, że nasza wiedza i doświadczenie zostaną teraz wykorzystane do opracowania modelu PLLuM. Potrzebujemy modeli przeszkolonych na tekstach polskojęzycznych, także do analizy polskiego Internetu.

Posiadanie otwartego modelu oznacza także dostęp do centrum badawczego, możliwość opracowania i przetestowania metod wyjaśnienia tego modelu oraz zajrzenie do czarnej skrzynki.

„PLLuM będzie stymulować rozwój nauki w Polsce, nie tylko w obszarze rozwoju AI, ale także w zakresie wyjaśnialności XAI (Explainable AI). I warto na to postawić, bo temat krytycznej analizy jest równie ważny, jak sam rozwój możliwości AI, a w dodatku Polska ma szansę zająć czołowe pozycje na świecie” – mówi dr Inez Okulska, dyrektor ds. Katedra Inżynierii Lingwistycznej i Analizy Tekstu NASK

READ  SpaceX szoruje uruchomienie Falcona 9, aby ocenić problem drugiego etapu - Spaceflight Now

Zdaniem przedstawicieli konsorcjum znacznie większy odsetek tekstów oryginalnie napisanych w języku polskim i zawierających informacje o Polsce (nauka, sztuka, historia, prawo, ekonomia i inne tematy polskie) zwiększy widoczność języka i kultury polskiej, która jest wyraźnie marginalizowana w aktualnie dostępnych modelach.

Jego twórcy mają nadzieję, że PLLuM będzie służyć nie tylko naukowcom i firmom, ale przede wszystkim polskiemu społeczeństwu, odbiorcy innowacyjnych rozwiązań opartych na tym modelu. Jednym z nich jest polskojęzyczny inteligentny asystent, którego zadaniem będzie zwiększenie dostępności usług publicznych, zarówno cyfrowo, jak i podczas osobistej wizyty w urzędzie lub punkcie usługowym. Oferując możliwość formułowania zapytań w języku naturalnym (jak w przypadku rozmowy z pracownikiem), wychodzi naprzeciw także potrzebom osób wykluczonych cyfrowo. A to dopiero początek możliwości, jakie daje to ogromne wspólne przedsięwzięcie polskich badaczy, firm i administracji publicznej – zapowiadają twórcy. (PAPKA)

PAP – Nauka w Polsce

lt/ bar/ kap/

tr. RL

Fundacja PAP umożliwia nieodpłatne przedrukowanie artykułów z portalu Nauka w Polsce pod warunkiem otrzymania raz w miesiącu wiadomości e-mail o korzystaniu z portalu i wskazaniu pochodzenia artykułu. Na stronach internetowych i portalach internetowych należy podawać adres: Źródło: www.scienceinpoland.pl, natomiast w czasopismach – adnotację: Źródło: Nauka w Polsce – www.scienceinpoland.pl. W przypadku serwisów społecznościowych należy podać jedynie tytuł i lead przesyłki naszej agencji wraz z linkiem prowadzącym do tekstu artykułu na naszej stronie, tak jak widnieje on na naszym profilu na Facebooku.

Continue Reading
Click to comment

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *