ElfLabs startet ein eigenes Speech-to-Text-Modell


Elflabsein KI -Startup, das gerade a angehoben wurde 180 Millionen US -Dollar Mega -Finanzierungsrundewurde in erster Linie für seine Fähigkeiten der Audiogeneration bekannt. Das Unternehmen hat einen Schritt in eine andere technologische Richtung gemacht, indem er sein erstes eigenständiges Sprachmodell namens Scribe auf den Markt brachte.

Das Startup, im Wert von 3,3 Milliarden US -Dollarhat viele andere Unternehmen bei der Bereitstellung von Sprachdiensten über seine enorme Stimmenbibliothek unterstützt. Das Unternehmen will nun jedoch in die Sprachdetektion eingehen und mit Leuten wie der Konkurrenz konkurrieren GladiaAnwesend RedenmatikAnwesend AssemblyaiAnwesend Deepgramund Openais Flüstermodelle.

Das Schreibermodell von ElfLabs unterstützt beim Start über 99 Sprachen. Das Unternehmen kategorisiert über 25 Sprachen in ausgezeichneter Genauigkeitskategorie für das Modell, bei dem die Wortfehlerrate weniger als 5%beträgt. Diese Liste umfasst Englisch (beanspruchte Genauigkeitsrate von 97%), Französisch, Deutsch, Hindi, Indonesisch, Japanisch, Kannada, Malayalam, Polnisch, Portugiesisch, Spanisch und Vietnamesisch. Andere Sprachen werden in verschiedenen Kategorien mit hoher (5-10% Wortfehlerrate), guter (10 bis 20% Wortfehlerrate) und moderatem (25 bis 50%) Wortfehlerraten eingestuft.

Das Unternehmen gab an, dass das Modell Google Gemini 2.0 Flash übertrifft und in mehreren Sprachen in Fleurs & Common Voice Benchmark -Tests große V3 in mehreren Sprachen flüsterte.

ElfLabs hatte die Rede-to-Text-Komponente für seine im letzten Jahr veröffentlichte KI-Konversationsagenten-Plattform entwickelt. Dies ist jedoch das erste Mal Das Unternehmen veröffentlicht ein eigenständiges Spracherkennungsmodell. In einem Gespräch mit TechCrunch im letzten Monat sprach CEO Mati Staniszewski über die Verbesserung der Spracherkennungsmodelle.

„Wir wollen verstehen, was von Ihnen in einem Gespräch besser gesagt wird. Wir arbeiten an Möglichkeiten, sich von nur Inhalten zu erzeugen und Sprache zu verstehen und zu transkriptieren “, sagte Staniszewski zu dieser Zeit. „Viele Leute sagen, dass Sprache zu Text ein gelöstes Problem ist. Aber für viele Sprachen ist es ziemlich schlimm. Wir denken, wir können bessere Spracherkennungsmodelle erstellen, da wir interne Teams haben, um Daten zu kommentieren und uns schnelles Feedback zu geben. “

Das Modell verfügt auch über intelligente Sprecherdurch Diatization, um Ihnen zu sagen, wer spricht, Zeitstempel auf Wortebene für genaue Untertitel und automatische Klangveranstaltungen wie Publikumslachen. Das Startup bietet Kunden eine Möglichkeit, Videoinhalte direkt zu transkribieren, um Untertitel oder Untertitel in das Studio hinzuzufügen.

Scribe arbeitet derzeit nur mit vorgezeichneten Audioformaten. Das Unternehmen sagte, es werde bald eine Echtzeitversion mit niedriger Latenz veröffentlichen. Das bedeutet, dass es noch nicht effektiv ist, um Transkriptionen oder Sprachnotizer zu erfüllen.

ElfLabs ist ein Preisschreiber für eine Stunde transkribierter Audio für 0,40 USD. Während die Rate wettbewerbsfähig ist, einige seiner Rivalen einen niedrigeren Preis anbieten Für Audio -Transkriptionen im Moment mit einigen Merkmalsdifferenzierung.



Source link