Ana Ryu/Visual China Group/Getty Images
Znak Microsoftu widać w siedzibie firmy 19 marca 2023 roku w Seattle w stanie Waszyngton.
Nowy Jork
CNN
—
Dzięki nowej technologii sztucznej inteligencji firmy Microsoft Mona Lisa może teraz zrobić więcej niż tylko uśmiechać się.
W zeszłym tygodniu badacze z firmy Microsoft szczegółowo opisali nowy opracowany przez siebie model sztucznej inteligencji, który może wykonać nieruchomy obraz twarzy i klip audio przedstawiający mówiącą osobę, a następnie automatycznie utworzyć realistycznie wyglądający film przedstawiający mówiącą osobę. Filmy — które można tworzyć na podstawie prawdziwych twarzy, a także karykatur lub dzieł sztuki — są uzupełnione przekonującą synchronizacją ust oraz naturalnymi ruchami twarzy i głowy.
W jednym z eksperymentalnych filmów badacze pokazali, jak animowali Monę Lisę, recytując komediową piosenkę rapową autorstwa aktorki Anne Hathaway.
Wyjścia z modelu AI nazywane są Waza-1, zarówno zabawne, jak i nieco sprzeczne w swojej rzeczywistości. Microsoft twierdzi, że tę technologię można wykorzystać w edukacji, „poprawiając dostępność dla osób mających trudności z komunikacją” lub być może do tworzenia wirtualnych towarzyszy dla ludzi. Łatwo jednak dostrzec, w jaki sposób narzędzie to może zostać nadużyte i wykorzystane do podszywania się pod prawdziwych ludzi.
Jest to problem wykraczający poza firmę Microsoft: w miarę pojawiania się coraz większej liczby narzędzi do tworzenia atrakcyjnych obrazów, filmów i klipów audio generowanych przez sztuczną inteligencję Eksperci są zaniepokojeni Ich niewłaściwe wykorzystanie może prowadzić do nowych form dezinformacji. Niektórzy obawiają się również, że technologia może jeszcze bardziej zakłócić branże kreatywne, od filmu po reklamę.
W tej chwili Microsoft oświadczył, że nie planuje natychmiastowego wypuszczenia modelu VASA-1 do publicznej wiadomości. Posunięcie to jest podobne do sposobu, w jaki OpenAI, partner Microsoftu, rozwiązuje pojawiające się problemy Narzędzie wideo generowane przez sztuczną inteligencjęSora: OpenAI drażniło Sorę w lutym, ale jak dotąd udostępniło je tylko niektórym profesjonalnym użytkownikom i profesorom zajmującym się cyberbezpieczeństwem w celach testowych.
„Sprzeciwiamy się wszelkim zachowaniom prowadzącym do tworzenia wprowadzających w błąd lub szkodliwych treści dla prawdziwych ludzi” – napisali badacze Microsoftu w poście na blogu. Dodali jednak, że firma „nie planuje publicznego udostępniania produktu”, dopóki nie upewnimy się, że technologia jest używana w sposób odpowiedzialny i zgodny z odpowiednimi przepisami.
Naukowcy stwierdzili, że nowy model sztucznej inteligencji Microsoftu został przeszkolony na kilku filmach przedstawiających twarze ludzi podczas mówienia i ma na celu rozpoznawanie naturalnych ruchów twarzy i głowy, w tym między innymi „ruchów warg, wyrazu (nie warg), spojrzenia i mrugania. ” inne rzeczy”. Rezultatem jest bardziej realistyczny film, gdy VASA-1 przesuwa nieruchomy obraz.
Na przykład w jednym z testowych filmów wideo przedstawiających osobę wyglądającą na pobudzoną, najwyraźniej podczas grania w gry wideo, twarz mówiącej miała zmarszczone brwi i zaciśnięte usta.
Narzędzie AI można również pokierować tak, aby wyprodukowało film, w którym obiekt patrzy w określonym kierunku lub wyraża określoną emocję.
Przyglądając się uważnie, nadal widać oznaki, że filmy są generowane maszynowo, takie jak rzadkie mruganie i nadmierne ruchy brwi. Microsoft stwierdził jednak, że wierzy, że jego model „znacznie przewyższa” inne podobne narzędzia i „toruje drogę do interakcji w czasie rzeczywistym z realistycznymi awatarami, które naśladują ludzkie zachowania konwersacyjne”.