Er liggen grote kansen voor generatieve AI in de vertaalwereld, en er werd een startup gebeld Panjaya tilt het concept naar een hoger niveau: een hyperrealistische, op AI gebaseerde nasynchronisatietool voor video's die de oorspronkelijke stem van een persoon reconstrueert terwijl hij de nieuwe taal spreekt, waarbij de video en de fysieke bewegingen van de spreker automatisch worden aangepast om op natuurlijke wijze aan te sluiten bij de nieuwe taal. spraakpatronen.
Na de afgelopen drie jaar in stealth te zijn geweest, onthult de startup BodyTalk, de eerste versie van zijn product, naast de eerste externe financiering van $ 9,5 miljoen.
Panjaya is het geesteskind van Hilik Shani en Ariel Shalom, twee deep learning-specialisten die het grootste deel van hun professionele leven in stilte hebben gewerkt aan deep learning-technologie voor de Israëlische overheid en nu respectievelijk de algemeen directeur en CTO van de startup zijn. Ze hingen in 2021 hun G-man-hoed op met de startup-kriebels, en 1,5 jaar geleden kregen ze het gezelschap van Guy Piekarz als CEO.
Piekarz is geen oprichter van Panjaya, maar hij is een opmerkelijke naam om aan boord te hebben: in 2013 verkocht hij een startup die hij deed gevonden bij Apple. Matcha, zoals de startup heette, was een vroege, bruisende speler op het gebied van het ontdekken en aanbevelen van streaming video, en werd verworven tijdens de allereerste dagen van Apple's tv- en streamingstrategie, toen dit meer geruchten waren dan daadwerkelijke producten. Matcha werd opgestart en verkocht voor een liedje: $10 miljoen tot $15 miljoen – bescheiden gezien de aanzienlijke koers die Apple uiteindelijk heeft afgelegd naar gestreamde media.
Piekarz bleef bijna tien jaar bij Apple en bouwde Apple TV en vervolgens de sportbranche. Vervolgens maakte hij kennis met Panjaya via Viola Ventures, een van de financiers (anderen zijn onder meer R-Squared Ventures, mede-oprichter en CEO van JFrog Shlomi Ben Haim, Chris Rice, Guy Schory, Ryan Floyd van Storm Ventures, Ali Behnam van Riviera Partners en Oded Vardi.
“Ik had Apple toen al verlaten en was van plan iets heel anders te gaan doen”, zegt Piekarz. “Toen ik echter een demo van de technologie zag, was ik verbijsterd, en de rest is geschiedenis.”
BodyTalk is interessant omdat het tegelijkertijd verschillende stukjes technologie in beeld brengt die inspelen op verschillende aspecten van synthetische media.
Het begint met audiogebaseerde vertalingen die momenteel vertalingen in 29 talen kunnen bieden. De vertaling wordt vervolgens uitgesproken met een stem die de oorspronkelijke spreker nabootst, die op zijn beurt wordt ingesteld op een versie van de originele video waarin de lippen en andere bewegingen van de spreker worden aangepast om bij de nieuwe woorden en frasering te passen. Dit alles wordt automatisch op video's gemaakt nadat gebruikers deze naar het platform hebben geüpload, dat ook wordt geleverd met een dashboard met verdere bewerkingstools. Toekomstplannen omvatten een API en komen dichter bij realtime verwerking. (Op dit moment is BodyTalk ‘bijna realtime’, waarbij het minuten duurt om video’s te verwerken, zei Piekarz.)
„We gebruiken het beste van zijn soort waar dat nodig is“, zei Piekarz over het gebruik van grote taalmodellen en andere tools van derden. “En we bouwen onze eigen AI-modellen waar de markt niet echt een oplossing heeft.”
Een voorbeeld daarvan is de lipsynchronisatie van het bedrijf, vervolgde hij. “Onze hele lipsynchronisatie-engine is van eigen bodem door ons AI-onderzoeksteam, omdat we niets hebben gevonden dat dat niveau en de kwaliteit haalt van meerdere sprekers, invalshoeken en alle zakelijke gebruiksscenario’s die we willen ondersteunen.”
De focus ligt momenteel alleen op B2B; Klanten zijn onder meer JFrog en de mediaorganisatie TED. Het bedrijf heeft plannen om verder uit te breiden in de media, met name op gebieden als sport, onderwijs, marketing, gezondheidszorg en geneeskunde.
De resulterende vertaalvideo's zijn zeer griezelig, vergelijkbaar met wat je krijgt met deepfakes, hoewel Piekarz huivert bij die term, die in de loop der jaren een negatieve connotatie heeft gekregen die precies het tegenovergestelde is van de markt waarop de startup zich richt.
“Deepfake is niet iets waarin we geïnteresseerd zijn”, zei hij. “We willen die hele naam vermijden.” In plaats daarvan, zei hij, kun je Panjaya beschouwen als onderdeel van de ‘diepe reële categorie’.
Door zich alleen op de B2B-markt te richten en te controleren wie toegang krijgt tot de tools, creëert het bedrijf ‘vangrails’ rond de technologie om te beschermen tegen misbruik, voegde hij eraan toe. Hij denkt ook dat er op de langere termijn meer tools zullen worden gebouwd, waaronder watermerken, om te helpen detecteren wanneer video's zijn aangepast om synthetische media te creëren, zowel legitiem als snode. “Wij willen daar absoluut deel van uitmaken en geen verkeerde informatie toestaan”, zei hij.
De niet zo kleine lettertjes
Er zijn een aantal startups die met Panjaya concurreren op het bredere gebied van op AI gebaseerde vertalingen voor video's, waaronder grote namen als Vimeo en Eleven Labs, maar ook kleinere spelers als Speechify en Synthesis. Voor hen allemaal voelt het bedenken van manieren om de manier waarop nasynchronisatie werkt te verbeteren een beetje als tegen de sterke stroom in zwemmen. Dat komt omdat ondertiteling tegenwoordig een heel standaard onderdeel is geworden van de manier waarop video wordt geconsumeerd.
Op tv heeft dat een litanie aan redenen, zoals slechte luidsprekers, achtergrondgeluiden in ons drukke leven, mompelende acteurs, beperkte productiebudgetten en meer geluidseffecten. CBS Uit een opiniepeiling onder Amerikaanse tv-kijkers bleek dat meer dan de helft van hen “sommige (21%) of alle (34%) van de tijd” ondertitels aanhield.
Maar sommige liefdesbijschriften zijn alleen maar leuk om te lezen, en daar is een hele cultus omheen gebouwd.
Op sociale media en andere apps worden ondertitels eenvoudigweg in de ervaring ingebakken. TikTok is bijvoorbeeld in november 2023 begonnen met het standaard inschakelen van ondertiteling voor alle video's.
Toch blijft er internationaal nog steeds een enorme markt voor nagesynchroniseerde inhoud, en ook al wordt Engels vaak gezien als de lingua franca van het internet, er zijn aanwijzingen van onderzoeksgroepen als CSA dat inhoud die in de moedertaal wordt geleverd, een betere betrokkenheid krijgt, vooral in de B2B-context. Panjaya's betoog is dat meer natuurlijke inhoud in de moedertaal nog beter zou kunnen presteren.
Sommige klanten lijken deze theorie te ondersteunen. TED zegt dat gesprekken die met behulp van Panjaya's tooling zijn nagesynchroniseerd, een stijging van 115% hebben opgeleverd, waarbij de voltooiingspercentages voor de vertaalde video's zijn verdubbeld.