Unheimlich realistische KI -Sprachdemo löst Erstaunen und Unbehagen online aus


Ein Beispielargument mit dem von Gavin Purcell erstellten CSM von Sesam.

Gavin Purcell, Co-Moderator der KI für Menschen Podcastgepostet an Beispiel Video auf Reddit wo der Mensch vorgibt, ein Untermurchte zu sein und mit einem Chef zu argumentieren. Es ist so dynamisch, dass es schwierig ist zu sagen, wer der Mensch ist und welcher KI -Modell ist. Nach unserer eigenen Demo zu urteilen, ist es völlig in der Lage, was Sie im Video sehen.

“Nahezu menschliche Qualität”

Unter der Haube erreicht Sesams CSM seinen Realismus, indem er zwei KI -Modelle verwendet (ein Rückgrat und einen Decoder) basierend auf Metas Lama Architektur, die verschachtelten Text und Audio verarbeitet. Sesam trainierte drei KI -Modellgrößen, wobei die größten 8,3 Milliarden Parameter (ein 8 -Milliarden -Rückgrat -Modell plus einen 300 -Millionen -Parameter -Decoder) für ca. 1 Million Stunden in erster Linie englischer Audio verwendet haben.

Das CSM von Sesam folgt nicht dem herkömmlichen zweistufigen Ansatz, den viele frühere Text-zu-Sprache-Systeme verwendet. Anstatt semantische Token (hochrangige Sprachdarstellungen) und akustische Details (feinkörnige Audiofunktionen) in zwei separaten Phasen zu generieren, integriert das CSM von Sesam in ein einstufiges, multimodales transformatorbasiertes Modell, das gemeinsam mit verschachtelten Text und Audio-Token verarbeitet wird, um Sprach zu produzieren. Das Sprachmodell von OpenAI verwendet einen ähnlichen multimodalen Ansatz.

In Blindtests ohne Konversationskontext zeigten menschliche Bewerter keine klare Präferenz zwischen CSM-generierter Sprache und realen menschlichen Aufzeichnungen, was darauf hindeutet, dass das Modell nahezu humanische Qualität für isolierte Sprachproben erreicht. Wenn sie jedoch mit einem Konversationskontext versehen sind, bevorzugten die Bewerter immer noch die reale menschliche Sprache immer noch konsequent, was darauf hinweist, dass eine Lücke in vollständig kontextbezogener Spracherzeugung bleibt.

Sesam Mitbegründer Brendan Iribe anerkannt Aktuelle Einschränkungen in einem Kommentar zu Hacker News, der feststellte, dass das System “immer noch zu eifrig und oft unangemessen in seinem Ton, Prosodie und Tempo” ist und Probleme mit Unterbrechungen, Timing und Gesprächsfluss hat. “Heute sind wir fest im Tal, aber wir können optimistisch aussteigen”, schrieb er.



Source link