Sesam, das Startup hinter der viralen virtuellen Assistenten Maya, veröffentlicht sein Basis -AI -Modell


KI -Firma Sesam hat das Basismodell veröffentlicht, das Maya macht, die eindrucksvoll realistischer Sprachassistenten.

Das Modell, das 1 Milliarde Parameter an Größe ist („Parameter“, die sich auf einzelne Komponenten des Modells beziehen), befindet sich unter einer Apache 2.0 -Lizenz, dh es kann kommerziell mit wenigen Einschränkungen verwendet werden. Das Modell wird als CSM-1B bezeichnet und generiert „RVQ-Audiocodes“ aus Text- und Audioeingängen, sodass lautet Sesambeschreibung auf der AI Dev Platform Umarmung des Gesichts.

RVQ bezieht sich auf „Restvektorquantisierung“, eine Technik zur Codierung von Audio in diskrete Token, die als Codes bezeichnet werden. RVQ wird verwendet In einer Reihe neuer KI -Audio -Technologieneinschließlich Googles Soundstream und METAs Encodec.

CSM-1B verwendet ein Modell von Metas Lama -Familie als Rückgrat gepaart mit einer Audio -Decoder -Komponente. Eine fein abgestimmte Variante von CSM macht Maya, sagt Sesam.

“Das hier offene Modell ist ein Modell der Basisgenerierung”, schreibt Sesam in CSM-1Bs Umarmtes Gesicht Und Github Repositorys. “Es ist in der Lage, eine Vielzahl von Stimmen zu produzieren, aber es wurde nicht mit einer bestimmten Stimme (…) fein abgestimmt (…). Das Modell verfügt aufgrund der Datenkontamination in den Trainingsdaten, aber es wird wahrscheinlich nicht gut abschneiden.”

Es ist unklar, mit welchem ​​Daten-Sesam CSM-1B trainiert wurden. Das Unternehmen hat es nicht gesagt.

Es ist erwähnenswert, dass das Modell keine wirklichen Schutzmaßnahmen zum Sprechen hat. Sesame hat ein Ehrensystem und fordert Entwickler und Benutzer lediglich auf, das Modell nicht zu verwenden, um die Stimme einer Person ohne ihre Zustimmung nachzuahmen, irreführende Inhalte wie gefälschte Nachrichten zu erstellen oder sich mit „schädlichen“ oder „böswilligen“ Aktivitäten zu beteiligen.

Ich habe es versucht die Demo Auf Umarmung und Klonen meiner Stimme dauerte weniger als eine Minute. Von dort aus war es leicht, Rede in den Wunsch meines Herzens zu erzeugen, einschließlich um kontroverse Themen wie die Wahl und die russische Propaganda.

Consumer Reports warnte kürzlich, dass viele beliebte KI-angetriebene Sprachklon-Tools auf dem Markt Sie haben keine „sinnvollen“ Schutzmaßnahmen Betrug oder Missbrauch verhindern.

Sesam, der von Oculus Co-Creator Brendan Iribe mitbegründet wurde, wurde Ende Februar wegen seiner stellvertretenden Technologie viral, die dem unheimlichen Territorium nahe kommt. Maya und Sesames anderer Assistent, Miles, atmen und sprechen mit Disfluencies und können während des Sprechens unterbrochen werden. Ähnlich wie der Sprachmodus von OpenAI.

Sesam hat eine nicht genannte Kapitalmenge von Andreessen Horowitz, Spark Capital und Matrix Partners angehoben. Neben dem Bau von Sprachassistenten Tech sagt das Unternehmen auch die Prototyping -KI -Brille, die „den ganzen Tag getragen werden“, der mit seinen benutzerdefinierten Modellen ausgestattet wird.



Source link