Ende März kündigte OpenAI eine „kleine Vorschau“ eines KI-Dienstes an. Sprachmotordass das Unternehmen behauptete, die Stimme einer Person mit nur 15 Sekunden Sprache zu klonen. Etwa ein Jahr später bleibt das Tool in der Vorschau, und OpenAI hat keinen Hinweis darauf gegeben, wann es starten könnte – oder ob es überhaupt starten wird.
Die Zurückhaltung des Unternehmens, den Dienst weit verbreitet zu machen, kann auf Befürchtungen vor Missbrauch hinweisen, aber es könnte auch die Bemühungen widerspiegeln, eine einladende Einladung der Prüfung zu vermeiden. Openai hat historisch gesehen wurde beschuldigt Priorisierung von „glänzenden Produkten“ auf Kosten der Sicherheit und von Rushing Releases Konkurrentunternehmen auf den Markt zu schlagen.
In einer Erklärung teilte ein OpenAI -Sprecher TechCrunch mit, dass das Unternehmen die Sprachmaschine weiterhin mit einer begrenzten Reihe von „vertrauenswürdigen Partnern“ testet.
“(Wir) lernen, wie (unsere Partner) die Technologie verwenden, damit wir die Nützlichkeit und Sicherheit des Modells verbessern können”, sagte der Sprecher. „Wir waren gespannt auf die unterschiedlichen Möglichkeiten, wie es verwendet wird, von Sprachtherapie über Sprachlernen über Kundenunterstützung, Videospielcharaktere bis hin zu AI -Avataren.“
Zurückgedrängt
Voice Engine, die die Stimmen in der Openai-API von OpenAi sowie Chatgpts erhält Sprachmoduserzeugt eine natürliche Sprache, die dem ursprünglichen Sprecher sehr ähnelt. Das Tool wandelt geschriebene Zeichen in Sprache um, die nur durch bestimmte Leitplanken für Inhalte begrenzt sind. Aber es war von Anfang an Verzögerungen und Verschiebung von Veröffentlichungsfenstern ausgesetzt.
Wie Openai in einem Juni 2024 erklärte Blog -BeitragDas Voice Engine -Modell lernt, die wahrscheinlichsten Sounds vorherzusagen, die ein Sprecher für ein bestimmtes Text -Transkript sorgt, wobei verschiedene Stimmen, Akzente und Sprechstile berücksichtigt werden. Danach kann das Modell nicht nur gesprochene Versionen von Text erzeugen, sondern auch „gesprochene Äußerungen“, die widerspiegeln, wie verschiedene Arten von Sprechern Text laut lesen würden.
OpenAI hatte zunächst beabsichtigt, die Voice Engine, die ursprünglich benannte Stimmen genannt wurde, am 7. März 2024 laut einem von TechCrunch gesehenen Blog -Beitrag zu seiner API zu bringen. Der Plan bestand darin, einer Gruppe von bis zu 100 „vertrauenswürdigen Entwicklern“ Zugang vor einem breiteren Debüt zu gewähren, wobei Devs -Apps, die einen „sozialen Nutzen“ bildeten oder die „innovative und verantwortungsbewusste“ Verwendungen der Technologie zeigten, vorrangig gemacht wurden. Openai hatte gleichmäßig Markenzeichen und preislich: 15 US -Dollar pro Million Charaktere für „Standard“ -Stimmen und 30 US -Dollar pro Million Charaktere für „HD -Qualität“ -Stimmen.
In der elften Stunde verschob das Unternehmen die Ankündigung. OpenAI stellte einige Wochen später ohne Anmeldeoption eine Sprachmotor vor. Der Zugang zu dem Tool würde sich auf eine Kohorte von rund 10 Entwicklungen beschränken, mit denen das Unternehmen Ende 2023 begann, sagte Openai.
„Wir hoffen, einen Dialog über den verantwortungsvollen Einsatz von synthetischen Stimmen und die Anpassung an diese neuen Funktionen zu beginnen“, Openai schrieb in der Ankündigungsblog -Post von Voice Engine Ende März 2024. „Basierend auf diesen Gesprächen und den Ergebnissen dieser kleinen Tests werden wir eine fundiertere Entscheidung darüber treffen, ob und wie diese Technologie im Maßstab bereitgestellt wird.“
Lange in Arbeit
Laut Openai ist seit 2022 in Arbeit. Die Firma Ansprüche Es wurde im Sommer 2023 das Werkzeug auf „globale politische Entscheidungsträger auf höchstem Niveau“ demonstriert, um sein Potenzial zu präsentieren – und Risiken.
Mehrere Partner haben heute Zugang zu Sprachmaschine, einschließlich Startup Livox, bei dem es sich um Geräte handelt, mit denen Menschen mit Behinderungen natürlicher kommunizieren können. CEO Carlos Pereira sagte gegenüber TechCrunch, während Livox aufgrund der Online -Anforderung des Tools letztendlich keine Sprachmaschine zu einem Produkt aufbauen konnte (viele Kunden von Livox haben kein Internet), er fand die Technologie „wirklich beeindruckend“.
“Die Qualität der Stimme und die Möglichkeit, die Stimmen in verschiedenen Sprachen zu sprechen, ist einzigartig – insbesondere für Menschen mit Behinderungen, unsere Kunden”, sagte Pereira gegenüber TechCrunch per E -Mail. “Es ist wirklich das beeindruckendste und benutzerfreundlichste (Tool, um Stimmen zu erstellen, die ich gesehen habe (…). Wir hoffen, dass Openai bald eine Offline-Version entwickelt.”
Pereira sagt, er habe keine Anleitung von OpenAI für eine mögliche Sprachmotor -Start erhalten, und er habe auch keine Anzeichen dafür gesehen, dass das Unternehmen plant, für den Service zu starten. Bisher musste Livox nicht für seine Verwendung bezahlen.
In diesem oben genannten Amt im Juni 2024 deutete OpenAI an, dass eine ihrer Überlegungen bei der Verzögerung der Sprachmotor das Potenzial für Missbrauch während des US -Wahlzyklus des US -amerikanischen US -Wahlzyklus war. Die Voice Engine, die von Diskussionen mit Stakeholdern informiert ist, hat mehrere mildernde Sicherheitsmaßnahmen, einschließlich Wasserzeichen, um die Herkunft generierter Audio zu verfolgen.
Entwickler müssen laut OpenAI vor der Verwendung der Sprachmaschine eine „explizite Zustimmung“ vom ursprünglichen Lautsprecher einholen, und sie müssen ihrem Publikum, dass Stimmen mit A-Generung „klare Angaben“ machen. Das Unternehmen hat jedoch nicht gesagt, wie es diese Richtlinien durchsetzen. Dies in Skala könnte sich selbst für ein Unternehmen mit den Ressourcen von OpenAI als immens herausfordernd erweisen.
In seinen Blog-Posts implizierte Openai auch, dass es hoffte, eine „Sprachauthentifizierungserfahrung“ aufzubauen, um die Sprecher und eine „No-Go“ -Liste zu überprüfen, die die Erstellung von Stimmen verhindert, die den prominenten Zahlen zu ähnlich klingen. Beide sind technologisch ehrgeizige Projekte, und sie würde sich schlecht in einem Unternehmen widerspiegeln, das oft beschuldigt wurde Sicherheitsinitiativen abgrenzen.
Effektive Filterung und ID -Überprüfung werden schnell die Basisanforderungen für verantwortungsbewusste Sprachkloning -Tech -Veröffentlichungen. AI-Sprachkloning war der drittgräbigste Betrug von 2024, nach einer Quelle. Es ist zu Betrug Und Banksicherheitsschecks Als Privatsphäre und Urheberrechtsgesetze umgehen zu werden, haben Schwierigkeiten, Schritt zu halten. Bösartige Schauspieler haben Sprachklonen benutzt, um Brandtiefe von Deepfakes von zu schaffen Prominente Und Politikerund diese Deepfakes haben Verbreiten Sie sich wie ein Lauffeuer über soziale Medien hinweg.
Openai könnte nächste Woche Sprachmaschine veröffentlichen – oder nie. Das Unternehmen hat wiederholt angekündigt, dass es den Service im Bereich des Geltungsbereichs wiegt. Eines ist jedoch klar: Aus Optikgründen, Sicherheitsgründen oder beides ist die begrenzte Vorschau von Voice Engine zu einer der längsten in der Geschichte von OpenAI geworden.
Source link