Google VLOGGER: Generativ AI för bild till video och röst

April 3, 2024

Google har nyligen släppt en banbrytande AI-modell vid namn VLOGGER, vilken låter användare skapa en kontrollerbar avatar med bara en stillbild. Denna innovation kommer som ett resultat av Googles framgångar med nya generativa diffusionsmodeller och öppnar upp för en rad spännande möjligheter inom virtuell kommunikation och underhållning.

Vad är VLOGGER?

Även om VLOGGER för närvarande endast är ett forskningsprojekt med några underhållande demovideor, kan det i framtiden bli ett nytt sätt att kommunicera i plattformar som Teams eller Slack. Det är en AI-modell som kan skapa en animerad avatar från en stillbild och behålla den fotorealistiska looken hos personen på bilden i varje bildruta i den slutliga videon. Modellen tar även in en ljudfil av personen som talar och hanterar kroppsrörelser och läpprörelser för att återspegla det naturliga sättet som personen skulle röra sig om det var de som sa orden.

Hur fungerar VLOGGER?

Modellen är byggd på diffusionsarkitekturen som driver text-till-bild, video och till och med 3D-modeller som MidJourney eller Runway, men lägger till ytterligare kontrollmekanismer. VLOGGER genomgår flera steg för att generera den skapade avataren. Först tar den ljudet och bilden som input, kör det genom en 3D-rörelsegenereringsprocess, sedan en "temporal diffusion" -modell för att bestämma timing och rörelse, slutligen skalar den upp och omvandlas till slutresultatet.

Vilka är begränsningarna för VLOGGER?

Detta är en forskningsförhandsvisning snarare än en faktisk produkt, och även om den kan generera realistiska rörelser, kanske videon inte alltid matchar sättet personen verkligen rör sig. Laget säger också att den har svårt med särskilt stora rörelser eller mångfacetterade miljöer. Dessutom kan den bara hantera relativt korta videor.

Vilka användningsområden finns för VLOGGER?

Enligt Googles forskare är en av de primära användningsområdena för VLOGGER översättning av video. Till exempel att ta en befintlig video på ett visst språk och redigera läpp- och ansikte för att matcha det nya, översatta ljudet. Andra potentiella användningsområden inkluderar skapande av animerade avatarer för virtuella assistenter, chatbots eller virtuella karaktärer som ser realistiska ut och rör sig i ett spel. Ett användningsområde är att tillhandahålla lågbandbreddsvideokommunikation. En framtida version av modellen kan tillåta videokonversationer från ljud genom att animera den stillbildade avataren.

Med Google VLOGGER öppnas dörrarna till en spännande framtid där avatarer och virtuella karaktärer kan skapas och styras med enastående realism, vilket öppnar upp för en mängd nya kreativa och kommunikativa möjligheter. Fortsätt följa med för att se hur denna banbrytande teknik utvecklas och integreras i vår digitala vardag.