Nauka

Polscy naukowcy opracowują model językowy umożliwiający generowanie długich tekstów

Published

11 miesięcy ago

28 maja, 2024

Polscy naukowcy opracowują model językowy umożliwiający generowanie długich tekstów

Polscy badacze opracowali LongLLaMA, duży model językowy oparty na oprogramowaniu OpenLLaMA stworzonym przez firmę Meta. Jest dostępny do bezpłatnego pobrania.

Duże modele języka o otwartym kodzie źródłowym umożliwiają badaczom prowadzenie zaawansowanych prac. Można je wykorzystać do wszystkich zadań, w których chatboty już pomagają ludziom. Obejmuje to na przykład generowanie tekstu, edytowanie tekstu, czatowanie z użytkownikami, tworzenie podsumowań i tłumaczenie.

W przeciwieństwie do ChatGPT, LongLLaMA nie ma interfejsu online, ale każdy może pobrać szablon z Przytulanie twarzy stronę internetową i uruchomić ją na własnym komputerze.

Jego twórcy twierdzą, że model będzie potencjalnie obsługiwał SMS-y 64 razy dłuższe niż ChatGPT.

LongLLaMA została opracowana przez Szymona Tworkowskiego, Konrada Staniszewskiego, Mikołaja Packa i Piotra Miło – badaczy zrzeszonych w POMYSŁY NCBRO Uniwersytet Warszawski i Polska Akademia Nauk – oraz Yuhuai Wu, jeden ze współtwórców startupu Elona Muska xAI, oraz Henryk Michalewski, powiązany z Uniwersytetem Warszawskim i Google DeepMind.

’LongLLaMA to świetny model języka +polskiego+, dostępny dla każdego w Internecie. Jednorazowo jest w stanie obsłużyć 8 000 znaków, co odpowiada około 30-50 stronom tekstu, a w przypadku niektórych zadań znacznie więcej, nawet 256 000 znaków, choć to tylko wynik techniczny” – mówi kierownik zespołu dr hab. Piotra Miłosia.

Kiedy Meta, właścicielka Facebooka, wypuściła OpenLLaMA, naukowcy z całego świata, w tym ci pracujący pod okiem doktora Miłosia, zaczęli go modyfikować.

„Nasza LongLLaMA jest w stanie przetwarzać znacznie większe konteksty, niż było to wcześniej możliwe, co oznacza, że może +zjeść+ znacznie więcej tekstu na raz” – mówi dr.

Wyjaśnia, że LongLLaMA może przetwarzać bardzo długie dane wejściowe. W rezultacie generuje bardziej spójne i dokładne odpowiedzi niż inne modele.

LongLLaMA może obsłużyć dowolną ilość kontekstu bez obcinania go i wypełniania, jak wykazały testy haseł.

Badacze sprawdzali, czy po otrzymaniu bardzo długiego podpowiedzi (złożonego polecenia) LongLLaMA będzie w stanie zapamiętać podany na początku klucz dostępu. OpenLLaMA potrafiła obsłużyć jedynie podpowiedzi o długości 2000 znaków, a w dłuższych kontekstach jego skuteczność spadła do zera. Tymczasem LongLLaMA utrzymała 94,5%. dokładność po otrzymaniu ostrzeżenia o 100 000 tokenów i 73% dokładności po otrzymaniu 256 000 tokenów.

Obecnie model ten potrafi generować spójne teksty o długości 8000 znaków. Potencjalnie – aż 256 000 znaków, co znacząco przewyższałoby modele obejmujące ChatGPT – twierdzą twórcy. Zużywa stosunkowo mało energii – do obsługi LongLLaMA wystarczy jeden procesor – i działa bardzo szybko.

Jak możesz sobie wyobrazić różnicę? Jeżeli dla uproszczenia przyjmiemy, że 1 znak odpowiada 1 słowu, to podkreślmy, że 2000 słów to artykuł liczący około 7 stron. 256 000 słów to w przybliżeniu długość Harry Potter i Zakon Feniksa powieść (257 000 słów) lub Ulisses (265 000 słów)” – twierdzą naukowcy.

„ChatGPT jest produktem komercyjnym. Został zoptymalizowany pod kątem wygody użytkowania. Modele takie jak LongLLaMA generują dość surowe informacje, na których można coś zbudować, np. analizowany tekst lub wygenerowany kod” – mówi dr Miłoś.

Oprogramowanie typu open source może być modyfikowane przez ekspertów IT na całym świecie, co odróżnia je od oprogramowania ChatGPT, które nie zostało udostępnione publicznie, choć wiadomo, że bazuje na architekturze Transformer.

Autorzy polskiego modelu wyjaśniają, że jest to rodzaj architektury sieci neuronowej, która analizuje tekst w celu rozróżnienia złożonych powiązań między słowami w wielu warstwach, wzorców uczenia się w oparciu o duże ilości danych.

Technologia ta zrewolucjonizowała przetwarzanie języka naturalnego, umożliwiając chatbotom generowanie tekstu, tłumaczenie, czatowanie z użytkownikami i wykonywanie wielu innych zadań na poziomie wcześniej niedostępnym dla sztucznej inteligencji.

Miłoś wyjaśnia, że gdy zadajemy pytanie chatbotowi opartemu na Transformerze, zamienia on tekst na tokeny. Jest to informacja zawierająca zwykle jeden znak i jedno słowo. W zdaniu „W 2023 roku nie wiadomo skąd chatboty zmieniły nasze życie” chatbot mógł zobaczyć np. siedem słów, liczbę 2023, dwa przecinki i kropkę. Dzieląc tekst na znaki, sztuczna inteligencja może efektywnie przetwarzać informacje.

Jednak liczba znaków, które chatbot może zaakceptować, jest ograniczona. W przypadku ChatGPT 3.5 limit znaków wynosi 4096, dla OpenLLaMA jest to 2000, a dla Google Bard – około 1000.

Dlatego też, zadając chatbotowi długie pytanie lub przekazując wiele informacji, może zaistnieć potrzeba wycięcia lub pominięcia niektórych części, aby zmieścić się w limicie znaków. Większość istniejących chatbotów nie jest w stanie przeanalizować całej książki, długiej rozmowy czy artykułu.

„Pełny potencjał dużych modeli językowych jest często ograniczony ilością kontekstu, jaki może przyjąć dany model” – mówi Miłoś. „Dlatego wprowadziliśmy Focused Transformer (FoT), technikę wykorzystującą proces szkoleniowy inspirowany uczeniem się kontrastowym. To innowacyjne podejście pozwala nam dostosować istniejące programy LLM, aby móc zaakceptować szerszy kontekst.

Według badacza NCBR i PAN IDEAS LongLLaMA jest dużym osiągnięciem, ponieważ pokazuje, że duże modele językowe mogą pokonać ograniczenia związane z szybką długością tekstu i generować przydatne długie teksty.

Publikacja poświęcona LongLLaMA – „Focused Transformer: Contrastive Training for Context Scaling” – została przyjęta na konferencję NeurIPS 2023 w Nowym Orleanie. https://arxiv.org/abs/2307.03170

PAP – Nauka w Polsce

kol/ bar/ kap/

tr. RL

Fundacja PAP umożliwia nieodpłatne przedrukowanie artykułów z portalu Nauka w Polsce pod warunkiem otrzymania raz w miesiącu wiadomości e-mail o korzystaniu z portalu i wskazaniu pochodzenia artykułu. Na stronach internetowych i portalach internetowych należy podawać adres: Źródło: www.scienceinpoland.pl, natomiast w czasopismach – adnotację: Źródło: Nauka w Polsce – www.scienceinpoland.pl. W przypadku serwisów społecznościowych należy podać jedynie tytuł i lead przesyłki naszej agencji wraz z linkiem prowadzącym do tekstu artykułu na naszej stronie, tak jak widnieje on na naszym profilu na Facebooku.

Amelia Maja

„Piwny maniak. Odkrywca. Nieuleczalny rozwiązywacz problemów. Podróżujący ninja. Pionier zombie. Amatorski twórca. Oddany orędownik mediów społecznościowych.”

HumanMag.pl

Polscy naukowcy opracowują model językowy umożliwiający generowanie długich tekstów

Nauka

Polscy naukowcy opracowują model językowy umożliwiający generowanie długich tekstów

Leave a Reply
Anuluj pisanie odpowiedzi

Leave a Reply

HumanMag.pl

Polscy naukowcy opracowują model językowy umożliwiający generowanie długich tekstów

You may like

Leave a Reply Anuluj pisanie odpowiedzi

Leave a Reply

Leave a Reply
Anuluj pisanie odpowiedzi