technologia
Opracowywanie technologii opartych na sztucznej inteligencji w celu stworzenia zupełnie nowego świata wygody — Samsung Newsroom Polska
epizod Odcinek 1
W tej serii przekaźników Samsung Newsroom przedstawia ekspertów technologicznych z ośrodków badawczo-rozwojowych firmy Samsung na całym świecie, aby dowiedzieć się więcej o ich pracy i o tym, jak bezpośrednio poprawia ona życie konsumentów.
Drugim ekspertem z serii jest Łukasz Słabiński, szef zespołu sztucznej inteligencji w Samsung R&D Institute Poland (SRPOL). Słabiński dołączył do SRPOL w 2013 roku jako Starszy Inżynier i po 8 latach oddanej pracy kieruje teraz zespołem AI w SRPOL. Czytaj dalej, aby dowiedzieć się więcej o ekscytującej innowacji, w którą zaangażowani są Słabinski i jego zespół w SRPOL.
P: Wiadomo, że projektowanie rozwiązań rozpoznawania mowy jest bardzo skomplikowane. Jakie wyzwania napotkałeś podczas pracy nad technologiami językowymi i jak je pokonałeś?
Moim zdaniem technologie związane z językiem są o wiele bardziej złożone niż jakiekolwiek inne. Ludzkość komunikuje się w prawie 7000 ciągle rozwijających się języków, podzielonych na niekończące się akcenty i dialekty. Ponadto język ludzki jest znacznie mniej obiektywny niż na przykład obraz, który można opisać wzorami matematycznymi. Ludzie kodują swoje myśli jako serię dźwięków lub znaków w komunikat, który następnie musi zostać odszyfrowany i zinterpretowany przez innych. Ponieważ każda faza tego procesu jest osobista, twórcza i niedeterministyczna, ludzka komunikacja oparta na mowie jest bardzo złożona i niejednoznaczna. Możemy więc z jednej strony cieszyć się piękną poezją i śmiesznymi dowcipami, az drugiej czasem cierpieć z powodu nieporozumień.
Osoby zajmujące się badaniami i rozwojem pracujące nad przetwarzaniem języka naturalnego (NLP) często napotykają na własne wrodzone ludzkie ograniczenia. Nawet my napotykamy problemy w jasnym komunikowaniu się z kolegami w pracy lub z rodziną w domu. Jak więc inżynier, który mówi na przykład dwoma językami, może zaprojektować i zaprogramować system tłumaczenia maszynowego na 40 różnych języków? Rozwiązujemy ten paradoks za pomocą technologii uczenia maszynowego.
W tak zwanym szkoleniu używamy przykładów, aby automatycznie wyodrębniać ogólne wzorce z naszych zestawów danych i zapisywać je w postaci modelu. Aby zbudować system tłumaczenia maszynowego, szkolimy sieć neuronową, która mapuje zdanie przy użyciu milionów przykładów w różnych językach, z których wszystkie zostały wcześniej starannie zebrane i oczyszczone. Brzmi prosto, ale mamy tutaj do czynienia z 3 podstawowymi wyzwaniami.
Pierwszym wyzwaniem jest zaprojektowanie odpowiedniej architektury modelu uczenia maszynowego, która jest w stanie przechowywać i uogólniać wystarczające wzorce językowe dla określonych problemów, takich jak tłumaczenie maszynowe, analiza sentymentu, podsumowanie tekstu i inne.
Drugim wyzwaniem jest przygotowanie wystarczającej ilości danych uczących, ponieważ systemy uczenia maszynowego mogą rozpoznawać i przechowywać tylko wzorce przedstawione w zestawie danych uczących.
Ostatnim wyzwaniem jest zapewnienie już przeszkolonego modelu uczenia maszynowego na dedykowanej chmurze lub platformie na urządzeniu.
Rozwiązujemy te wyzwania, wykorzystując rozległą wiedzę naszych inżynierów, wyrafinowane podejścia do gromadzenia danych i niekończące się eksperymenty z najbardziej zaawansowanymi architekturami uczenia maszynowego.
P: Czy mógłbyś krótko przedstawić swój zespół AI, Samsung R&D Institute Poland (SRPOL) i rodzaj wykonywanej przez nich pracy?
SRPOL jest jednym z największych międzynarodowych ośrodków badawczo-rozwojowych oprogramowania w Polsce. Zlokalizowany jest w dwóch miastach: Warszawie, stolicy Polski i Krakowie, ważnym ośrodku technologicznym w swoim regionie. Ściśle współpracujemy z lokalnymi start-upami, uczelniami i instytucjami badawczymi.
Misją zespołu AI w SRPOL jest rozwijanie funkcji, narzędzi i usług opartych na AI, które mogą ułatwiać i wzbogacać ludzkie życie. Skupiamy się głównie na NLP i Audio Intelligence, ale posiadamy również wiedzę z wielu różnych obszarów, w tym systemów rekomendacji, pozycjonowania w pomieszczeniach, analityki wizualnej i AR.
P: Jako szef zespołu AI w Instytucie Polskim od 2018 roku nadzorowałeś niezliczone projekty z i bez NLP. Nad czym ty i twój zespół pracujecie teraz?
W obszarze NLP kontynuujemy naszą drogę, która rozpoczęła się ponad 10 lat temu rozwojem systemów takich jak tłumaczenie maszynowe, systemy dialogowe, w tym odpowiadanie na pytania oraz analityka tekstu. Pracujemy nad skalowalnymi, wysokowydajnymi usługami opartymi na chmurze, a także nad szybkimi i offline aplikacjami na urządzeniu.
Inteligencja dźwiękowa to dla nas nowsza dziedzina. Kilka lat temu zaczęliśmy koncentrować nasze zdolności badawcze na tym obszarze, ponieważ dziedzina zyskała na znaczeniu. Obecnie pracujemy nad wykrywaniem, separacją, ulepszaniem i analizą dźwięków. W naszej pracy bierzemy pod uwagę wszystkie poziomy przetwarzania dźwięku, od zrozumienia sceny akustycznej po dostrojenie wbudowanych algorytmów audio na urządzeniach o bardzo ograniczonych zasobach sprzętowych, takich jak bezprzewodowe słuchawki douszne.
P: Twoje technologiczne obszary zainteresowania obejmują NLP, eksplorację tekstu i danych, inteligencję audio i inne. Czy Twoje badania wpłynęły bezpośrednio na rozwój konkretnego produktu lub usługi firmy Samsung i jakie są korzyści z wkładu Twojego zespołu dla użytkowników?
SRPOL ma długą historię komercjalizacji technologii AI, ale nie zrobiliśmy tego sami. Szczycimy się tym, że jesteśmy częścią większej całości, w której SRPOL ściśle współpracuje z innymi ośrodkami badawczo-rozwojowymi Samsunga i przyczynia się do komercjalizacji.
Na przykład przyczyniliśmy się do opracowania kilku funkcji inteligentnego wprowadzania tekstu dla urządzeń mobilnych Samsung, w tym klawiatury ekranowej, hashtagu, rekomendacji tytułu Samsung Note i inteligentnych odpowiedzi tekstowych na smartwatchach.
Przyczyniliśmy się również do stworzenia systemu rekomendacji Galaxy Store, który podpowiada użytkownikowi najciekawsze gry na podstawie jego preferencji.
P: Jako zwolennik nowych dziedzin sztucznej inteligencji, takich jak inteligencja audio, jakie są obecnie najważniejsze trendy w twojej branży? Jak ta technologia wpłynie na codzienne życie ludzi?
Wierzę, że Audio Intelligence będzie kolejnym przełomem dla wszystkich urządzeń elektroniki użytkowej. Praca nad analizą dźwięku jest niezwykle ważna, ponieważ jest to brakująca część w zaawansowanych, prawdziwie skoncentrowanych na człowieku systemach opartych na sztucznej inteligencji.
Potężne systemy NLP analizują intencję użytkownika wyrażoną za pomocą tekstu i mowy. Za prawie każdą kamerą i wyjściem treści wizualnych stoją komputerowe algorytmy wizyjne. Większości z nas trudno wyobrazić sobie prowadzenie samochodu bez nawigacji, pisanie wiadomości bez poprawek ortograficznych czy wyszukiwanie informacji w internecie. Ale poza kilkoma profesjonalnymi zastosowaniami bardzo rzadko korzystamy z inteligentnej technologii audio, aby poprawić nasz słuch. Moim zdaniem niedługo powinno się to zmienić.
Wyobraź sobie, że mamy ogólnie dostępną technologię, która pozwala ludziom wybierać, co i jak mają słyszeć. Na przykład, jedząc obiad z przyjacielem w parku w ruchliwym centrum miasta, ktoś może zdecydować się na słyszenie tylko odgłosów natury i osoby, z którą rozmawia. Albo wyobraźmy sobie zaawansowany system VR lub AR, niedawno nazwany Metaverse, który tworzy wciągające wrażenia dźwiękowe 3D w ludzkich umysłach. Same te dwie koncepcje generują setki nowych potencjalnych przypadków użycia, ale przejdźmy dalej. Co powiesz na słyszenie rzeczy, które są obecnie niesłyszalne dla ludzi? Dzisiaj ludzie słyszą jedynie wąskie spektrum różnych dźwięków. Nasz świat jest pełen znaczących dźwięków, w których obecne technologie AI w dużej mierze nie są zaangażowane. Wierzę, że wraz z rozwojem technologii audio intelligence, wszystko to będzie miało ogromny wpływ na ludzkie życie.
P: W jaki sposób włączyliście obecne trendy do badań Samsung R&D Institute Polska?
Oprócz NLP i audio pracujemy również nad znalezieniem najefektywniejszych sposobów budowania prawdziwie multimodalnych systemów. W tym celu badamy i analizujemy przypadki użycia z różnych perspektyw. Taka analiza jest możliwa dzięki naszemu zróżnicowanemu i interdyscyplinarnemu zespołowi, w skład którego wchodzą inżynierowie, lingwiści, badacze danych i nie tylko.
P: Jakie było dotychczas Twoje najważniejsze osiągnięcie w SRPOL?
To byłoby nasze rozwiązanie do tłumaczenia maszynowego. Nasze rozwiązanie przez pięć lat z rzędu wygrywało różne konkursy: International Workshop on Spoken Language Translation (IWSLT) w latach 2017-2020; Warsztaty Tłumaczenia Maszynowego (WMT) w 2020 roku; oraz Workshop on Asian Translation (WAT) w 2021 roku. To jedne z najbardziej renomowanych międzynarodowych konkursów w naszej dziedzinie.
Uznanie na WAT w tym roku było szczególnie satysfakcjonującym kamieniem milowym, ponieważ opracowanie naszego rozwiązania dla języków azjatyckich było początkowo trudnym zadaniem dla nas jako polskich inżynierów – ale ten sukces udowodnił prawdziwe możliwości naszej technologii, wykraczające poza zwykłe demo – Prezentacja wykracza poza.
Kolejnym osiągnięciem, z którego jestem bardzo dumny, jest tempo wzrostu, jakie osiągnął zespół Audio Intelligence i jego rozwój technologii. W ciągu zaledwie kilku lat, po rozpoczęciu praktycznie od zera, mogliśmy stanąć na podium warsztatów z wykrywania i klasyfikacji scen i zdarzeń akustycznych przez dwa kolejne lata, 2019 i 2020. Opublikowaliśmy również kilka prac naukowych i patentów w tej dziedzinie. Jestem pewien, że to dopiero początek naszej działalności produkcyjnej w tym obszarze.
Wywiad z Bin Dai, ekspertem od uczenia maszynowego z Samsung Research Institute China-Pekin, można znaleźć w następnym odcinku.
„Certyfikowany guru kulinarny. Internetowy maniak. Miłośnik bekonu. Miłośnik telewizji. Zapalony pisarz. Gracz.”