DeepL lanceert DeepL Voice, realtime, op tekst gebaseerde vertalingen van stemmen en video's


DiepL heeft naam gemaakt met online tekstvertalingen die naar eigen zeggen genuanceerder en preciezer zijn dan diensten van bijvoorbeeld Google – een pitch die de Duitse startup naar een hoger niveau heeft gekatapulteerd waardering van 2 miljard dollar en meer dan 100.000 betalende klanten. Nu de hype voor AI-diensten blijft groeien, wordt er een andere modus aan het platform toegevoegd: stem. Gebruikers kunnen DeepL nu gebruiken om naar iemand te luisteren die in de ene taal spreekt en deze automatisch in realtime naar een andere taal vertalen.

Engels, Duits, Japans, Koreaans, Zweeds, Nederlands, Frans, Turks, Pools, Portugees, Russisch, Spaans en Italiaans zijn de gesproken talen die DeepL tegenwoordig kan ‘horen’. Vertaalde ondertiteling is inmiddels beschikbaar voor alle 33 talen die momenteel door DeepL Translator worden ondersteund.

DeepL Voice slaagt er momenteel nog niet in het resultaat zelf als audio- of videobestand aan te leveren: de dienst is gericht op real-time, live gesprekken en videoconferencing en komt over als tekst. In de eerste hiervan kunt u uw vertalingen zo instellen dat ze als 'spiegels' op een smartphone verschijnen – het idee is dat u de telefoon voor elke kant tussen u op een vergadertafel legt om de woorden vertaald te zien – of als een transcriptie die je deelt zij aan zij met iemand. De videoconferentiedienst ziet de vertalingen als ondertitels verschijnen.

Dat zou iets kunnen zijn dat in de loop van de tijd verandert, liet Jarek Kutylowski, de oprichter en CEO van het bedrijf (foto hierboven), in een interview doorschemeren. Dit is het eerste product van DeepL in stemvorm, maar het is onwaarschijnlijk dat dit het laatste is. “(Voice) is waar vertaling het komende jaar een rol gaat spelen”, voegde hij eraan toe.

Er is ander bewijsmateriaal dat deze verklaring ondersteunt. Google – een van de grootste concurrenten van DeepL – begon ook realtime vertaalde ondertiteling op te nemen in zijn Meet-videoconferentiedienst. En er zijn een groot aantal AI-startups die spraakvertaaldiensten bouwen. Ze omvatten inspanningen van de AI-stemspecialist Eleven Labs (Elf Labs nasynchronisatie) en anderen vinden het leuk Panjayadat vertalingen maakt met behulp van ‘deepfake’-stemmen en video die overeenkomt met de audio. Deze laatste maakt gebruik van de API van Eleven Labs, en volgens Kutylowski gebruikt Eleven Labs zelf technologie van – je raadt het al – DeepL om zijn vertaaldienst aan te drijven.

Audio-uitvoer is niet het enige dat nog moet worden gelanceerd.

Momenteel is er ook geen API voor het Voice-product. De hoofdactiviteit van DeepL is gericht op B2B en Kutylowski zei dat het bedrijf rechtstreeks met partners en klanten samenwerkt om het te gebruiken.

Er is ook geen ruime keuze aan integraties: de enige dienst voor videobellen die momenteel de ondertitels van DeepL ondersteunt is Teams, die “de meeste van onze klanten bedient”, zei Kutylowski. Geen woord over wanneer en of Zoom, of Google Meet trouwens, DeepL Voice later zal integreren.

Het product zal voor DeepL-gebruikers lang op zich laten wachten, niet alleen omdat we overspoeld zijn met een overvloed aan andere AI-spraakdiensten gericht op vertaling. Kutylowski zei dat dit het nummer één verzoek van klanten was dat teruggaat tot 2017, het jaar waarin DeepL werd gelanceerd.

Een deel van de reden voor het wachten is dat DeepL een vrij bewuste aanpak heeft gevolgd bij het bouwen van zijn product. In tegenstelling tot veel anderen in de wereld van AI-applicaties die leunen op de grote taalmodellen van andere bedrijven en deze aanpassen, is het doel van DeepL om zijn service van de grond af aan op te bouwen. In juli heeft het bedrijf uitgegeven een nieuwe LLM die is geoptimaliseerd voor vertalingen en waarvan wordt gezegd dat deze beter presteert dan GPT-4, Google en Microsoft, niet in de laatste plaats omdat het primaire doel vertaling is. Daarom is het ook doorgegaan met het verbeteren van de kwaliteit van zijn schriftelijke output en woordenlijst.

Op dezelfde manier is een van de unieke verkoopargumenten van DeepL Voice dat het in realtime zal werken, wat belangrijk is gezien het feit dat veel “AI-vertaaldiensten” die momenteel op de markt zijn, feitelijk op vertraging werken, waardoor ze moeilijker/onmogelijk te gebruiken zijn in live situaties. , wat de use-case is waar DeepL specifiek op ingaat. Kutylowski liet doorschemeren dat dit nog een reden was waarom dit nieuwe stemverwerkingsproduct zich richt op op tekst gebaseerde vertalingen: ze kunnen zeer snel worden berekend en geproduceerd, terwijl de verwerking en AI-architectuur nog een lange weg te gaan hebben voordat ze audio kunnen produceren. en video zo snel.

Hoewel je je misschien kunt voorstellen dat videoconferenties en vergaderingen waarschijnlijk gebruiksscenario's zijn voor DeepL Voice, merkte Kutylowski op dat een andere belangrijke toepassing die het bedrijf voor ogen heeft, zich in de dienstensector bevindt, waar eerstelijnswerkers in bijvoorbeeld restaurants de dienst kunnen gebruiken om te helpen communiceren. gemakkelijker met klanten omgaan.

Dit kan nuttig zijn, maar het benadrukt ook een van de ruwere punten van de service. In een wereld waarin we ons allemaal plotseling veel meer bewust zijn van gegevensbescherming en zorgen over de manier waarop nieuwe diensten en platforms privé- of bedrijfseigen informatie overnemen, valt nog te bezien hoe graag mensen willen dat hun stem wordt opgepikt en gebruikt in de samenleving. deze manier.

Kutylowski benadrukte dat, hoewel er stemmen naar zijn servers zullen reizen om te worden vertaald (de verwerking gebeurt niet op het apparaat), dat niets door zijn systemen wordt vastgehouden, noch wordt gebruikt voor het trainen van zijn LLM's, en dat het uiteindelijk met zijn klanten zal samenwerken om ervoor te zorgen dat Zorg ervoor dat ze de AVG of andere regelgeving inzake gegevensbescherming niet schenden.



Source link