Elevenlabs enthüllt Schreiber, ein Transkriptionsmodell mit Sprach-Text-Transkription, um Otter, Turboscribe und andere zu konkurrieren


ElfLabs hat Scribe gestartet, ein neues Sprach-zu-Text-Tool, das die höchste Genauigkeit vor Ort verspricht. Diese Position positioniert das Unternehmen unter bemerkenswerten Wettbewerbern wie Google, OtterAnwesend Glühwürmchenund TurboScribe, die alle in der Sprach-Text-Technologie etabliert sind.

ElfLabs ist im Volksmund bekannt für seine Technologien für die Sprachgenerierung von Text zu Sprache und KI. Mit dem Schreiber erhalten die Benutzer ein Produkt, das mit ihrem Fachwissen im Bereich der Sprachsynthese das Gegenteil tut.

https://www.youtube.com/watch?v=k-48rxyuray

Scribe transkribiert Sprache in 99 Sprachen, mit Merkmalen wie Timestempel auf Wortebene, Sprecherdurchfälle und Audio-Event-Tagging. Die Transkription soll als strukturierte Reaktion für die nahtlose Integration geliefert werden.

Für seine Genauigkeit stellt elfLabs fest, dass sie es verwendet haben Fleurs Und Gemeinsame Sprachbank Tests in allen unterstützten Sprachen und stellten fest, dass sie Modelle wie konsequent übertroffen haben Gemini 2.0 BlitzFlüster groß V3 und Deepgram Nova-3.

“Egal, ob es sich um Zusammenfassungen, Filmuntertitel oder sogar Songtexte handelt, Scribe liefert die niedrigste automatisierte Transkriptionswort -Fehlerrate in Italienisch (98,7%), Englisch (96,7%) und 97 andere Sprachen”, sagte Elevenlabs.

Sie betonen, dass ihre Technologie Sprachen wie serbisch, kantonesisch und Malayalam mit geringen Wortfehlerraten befasst.

Die Entwickler können Schreiber mithilfe ihrer Sprache zu Text integrieren API Um strukturierte JSON-Transkripte mit Nicht-Speech-Ereignismarkierungen, Sprecherdurchfällen und Zeitstempeln auf Wortebene zu erhalten. Schreiber kostet einen Preis von 0,40 US -Dollar pro Stunde Eingabeguzio und bietet für die nächsten sechs Wochen einen zusätzlichen Einführungsrabatt.

Wenn Sie ein Schöpfer oder Unternehmen sind, kann auf Schreiber direkt über das ElevenLabs -Dashboard zugegriffen werden, um Audio- oder Videodateien hochzuladen und formatierte Transkripte zu generieren.

Derzeit konzentriert sich das Angebot auf eine höhere Genauigkeit. Laut Elevenlabs wird in Kürze eine Version von Echtzeitanwendungen mit niedriger Latenz veröffentlicht.



Source link