Nowy Jork
CNN
—
Dzięki nowej technologii sztucznej inteligencji firmy Microsoft Mona Lisa może teraz zrobić więcej niż tylko uśmiechać się.
W zeszłym tygodniu badacze firmy Microsoft zaprezentowali nowy opracowany przez siebie model sztucznej inteligencji, który może wykonać nieruchomy obraz twarzy i klip audio mówiącej osoby, a następnie automatycznie utworzyć realistycznie wyglądający film przedstawiający mówiącą osobę. Filmy – które można utworzyć z fotorealistycznych twarzy, a także kreskówek lub dzieł sztuki – charakteryzują się przekonującą synchronizacją ust oraz naturalnymi ruchami twarzy i głowy.
W filmie demonstracyjnym badacze pokazali, jak animowali Monę Lisę, recytując komediowy rap aktorki Anne Hathaway.
Wyjścia modelu AI, tzw VASA-1, są zarówno zabawne, jak i trochę wstrząsające w swojej rzeczywistości. Microsoft stwierdził, że technologię można wykorzystać do celów edukacyjnych, „poprawy dostępności dla osób mających trudności z komunikacją” lub ewentualnie do stworzenia wirtualnych towarzyszy dla ludzi. Łatwo jednak dostrzec, w jaki sposób narzędzie to może zostać niewłaściwie wykorzystane i wykorzystane do podszywania się pod prawdziwych ludzi.
Jest to problem wykraczający poza Microsoft: w miarę pojawiania się coraz większej liczby narzędzi do tworzenia fascynujących obrazów, filmów i plików audio generowanych przez sztuczną inteligencję, Eksperci są zaniepokojeni że ich niewłaściwe wykorzystanie może prowadzić do nowych form dezinformacji. Niektórzy obawiają się również, że technologia może jeszcze bardziej zakłócić branże kreatywne, od filmu po reklamę.
Na razie Microsoft oznajmił, że nie planuje od razu wypuszczać modelu VASA-1 do publicznej wiadomości. Posunięcie to jest podobne do sposobu, w jaki OpenAI, partner Microsoftu, radzi sobie z problemami narzędzie wideo generowane przez sztuczną inteligencjęSora: OpenAI drażniło Sorę w lutym, ale jak dotąd udostępniło je tylko niektórym profesjonalnym użytkownikom i profesorom cyberbezpieczeństwa w celach testowych.
„Odrzucamy wszelkie zachowania mające na celu tworzenie wprowadzających w błąd lub szkodliwych treści od prawdziwych ludzi” – stwierdzili badacze Microsoftu w poście na blogu. Dodali jednak, że firma „nie planuje publicznego udostępniania produktu”, „dopóki nie będziemy pewni, że technologia jest wykorzystywana w sposób odpowiedzialny i zgodny z odpowiednimi przepisami”.
Nowy model sztucznej inteligencji Microsoftu został przeszkolony na podstawie licznych filmów przedstawiających twarze ludzi podczas mówienia i ma za zadanie rozpoznawać naturalne ruchy twarzy i głowy, w tym między innymi „ruchy warg, wyraz (inny niż wargi), spojrzenie oczu i mruganie” – twierdzą naukowcy . Rezultatem jest bardziej realistyczny film, gdy VASA-1 animuje nieruchomy obraz.
Na przykład w filmie demonstracyjnym przedstawiającym osobę, która wydaje się być podekscytowana podczas grania w gry wideo, mówiąca twarz ma zmarszczone brwi i zaciśnięte usta.
Narzędziem AI można także sterować tak, aby stworzyć film, w którym osoba patrzy w określonym kierunku lub wyraża określoną emocję.
Jeśli przyjrzysz się uważnie, nadal widać oznaki, że filmy zostały wygenerowane maszynowo, takie jak rzadkie mruganie i nadmierne ruchy brwi. Microsoft uważa jednak, że jego model „znacznie przewyższa” inne podobne narzędzia i „toruje drogę do interakcji w czasie rzeczywistym z realistycznymi awatarami, które naśladują ludzkie zachowania konwersacyjne”.