technologia
Narzędzie AI firmy Microsoft może konwertować zdjęcia w realistyczne filmy przedstawiające ludzi rozmawiających i śpiewających
Microsoft Research Asia ma ujawnił nowe eksperymentalne narzędzie sztucznej inteligencji o nazwie VASA-1, które może wykonać nieruchomy obraz osoby lub jej rysunek oraz istniejący plik audio w celu stworzenia w czasie rzeczywistym realistycznej mówiącej twarzy. Ma możliwość tworzenia wyrazu twarzy i ruchów głowy dla istniejącego nieruchomego obrazu, a także odpowiednich ruchów warg w celu dopasowania do mowy lub piosenki. Naukowcy przesłali na stronę projektu kilka przykładów, a wyniki wyglądają tak dobrze, że ludzie mogą uwierzyć, że są prawdziwe.
Chociaż ruchy warg i głowy w przykładach mogą nadal wydawać się nieco automatyczne i niezsynchronizowane po bliższym przyjrzeniu się, nadal jasne jest, że technologię tę można wykorzystać do łatwego i szybkiego tworzenia fałszywych filmów przedstawiających prawdziwych ludzi. Sami badacze są świadomi tego potencjału i zdecydowali się nie publikować „wersji demonstracyjnej online, interfejsu API, produktu, dodatkowych szczegółów wdrożenia ani powiązanych ofert”, dopóki nie będą pewni, że ich technologia jest „wykorzystywana w sposób odpowiedzialny i zgodny z przeznaczeniem”. Nie powiedzieli jednak, czy planują wdrożyć konkretne zabezpieczenia, aby uniemożliwić złośliwym podmiotom wykorzystanie ich do niecnych celów, takich jak tworzenie fałszywego porno lub kampanii dezinformacyjnych.
Naukowcy uważają, że ich technologia ma wiele zalet pomimo ryzyka niewłaściwego użycia. Stwierdzili, że można go wykorzystać do poprawy równości edukacyjnej, a także zwiększenia dostępności dla osób z trudnościami w komunikacji, być może dając im dostęp do awatara, który będzie mógł się za nich komunikować. Stwierdzili, że może także zapewnić towarzystwo i wsparcie terapeutyczne tym, którzy tego potrzebują, sugerując, że VASA-1 można wykorzystać w programach zapewniających dostęp do postaci AI, z którymi ludzie mogą rozmawiać.
Według Papier Opublikowany wraz z ogłoszeniem test VASA-1 został przeszkolony w oparciu o zbiór danych VoxCeleb2, który zawiera „ponad 1 milion wypowiedzi 6112 gwiazd” pobranych z filmów YouTube. Chociaż narzędzie zostało przeszkolone na prawdziwych twarzach, działa również na artystycznych zdjęciach, takich jak Mona Lisa, które badacze w zabawny sposób połączyli z plikiem audio wirusowej wersji Lil Wayne’a autorstwa Anne Hathaway Paparazzi. Jest tak uroczy, że warto go obejrzeć, nawet jeśli wątpisz, co dobrego może zdziałać taka technologia.
Ta osadzona treść nie jest dostępna w Twoim regionie.
Ten artykuł zawiera linki partnerskie; Jeśli klikniesz w taki link i dokonasz zakupu, możemy otrzymać prowizję.
„Certyfikowany guru kulinarny. Internetowy maniak. Miłośnik bekonu. Miłośnik telewizji. Zapalony pisarz. Gracz.”