Sesam, das Startup hinter dem viralen virtuellen Assistenten Maya, Open-Sources sein Basis-KI-Modell


Sesamdie KI -Firma hinter dem eindrucksvoll realistischer Sprachassistenten Mayahat das Basis -KI -Modell veröffentlicht, wie es kürzlich versprochen hat.

Das Modell, das 1 Milliarde Parameter an Größe ist („Parameter“, die sich auf einzelne Komponenten des Modells beziehen), befindet sich unter einer Apache 2.0 -Lizenz, dh es kann kommerziell mit wenigen Einschränkungen verwendet werden. Das Modell wird als CSM-1B bezeichnet und generiert „RVQ-Audiocodes“ aus Text- und Audioeingängen, sodass lautet Sesambeschreibung auf der AI Dev Platform Umarmung des Gesichts.

RVQ bezieht sich auf „Restvektorquantisierung“, eine Technik zur Codierung von Audio in diskrete Token, die als Codes bezeichnet werden. RVQ wird verwendet In einer Reihe neuer KI -Audio -Technologieneinschließlich Googles Soundstream und METAs Encodec.

CSM-1B verwendet ein Modell von Metas Lama -Familie als Rückgrat gepaart mit einer Audio -Decoder -Komponente. Eine fein abgestimmte Variante von CSM macht Maya, sagt Sesam.

“Das hier offene Modell ist ein Modell der Basisgenerierung”, schreibt Sesam in CSM-1Bs Umarmtes Gesicht Und Github Repositorys. “Es ist in der Lage, eine Vielzahl von Stimmen zu produzieren, aber es wurde nicht mit einer bestimmten Stimme (…) fein abgestimmt (…). Das Modell verfügt aufgrund der Datenkontamination in den Trainingsdaten, aber es wird wahrscheinlich nicht gut abschneiden.”

Es ist unklar, mit welchem ​​Daten-Sesam CSM-1B trainiert wurden. Das Unternehmen hat es nicht gesagt.

Das Modell hat keine wirklichen Schutzmaßnahmen, über die man sprechen kann, es ist erwähnenswert. Es ist eine „Ehrensystem“ -Station. Sesam fordert die Entwickler und Benutzer lediglich auf, das Modell nicht zu verwenden, um die Stimme einer Person ohne ihre Zustimmung nachzuahmen, irreführende Inhalte wie gefälschte Nachrichten zu erstellen oder sich mit „schädlichen“ oder „böswilligen“ Aktivitäten zu beteiligen.

Ich versuchte die Demo, um das Gesicht zu umarmen, und es dauerte weniger als eine Minute. Von dort aus war es leicht, die Sprache in den Wunsch meines Herzens zu erzeugen, einschließlich um kontroverse Themen wie die Wahl und die russische Propaganda:

Sesam, der von Oculus Co-Creator Brendan Iribe mitbegründet wurde, wurde Ende Februar wegen seiner stellvertretenden Technologie viral, die dem unheimlichen Territorium nahe kommt. Maya und Sesames anderer Assistent, Miles, atmen und sprechen mit Disfluencies und können während des Sprechens unterbrochen werden. Ähnlich wie der Sprachmodus von OpenAI.

Sesam hat eine nicht genannte Kapitalmenge von Andreessen Horowitz, Spark Capital und Matrix Partners angehoben. Neben dem Bau von Sprachassistenten Tech sagt das Unternehmen auch die Prototyping -KI -Brille, die „den ganzen Tag getragen werden“, der mit seinen benutzerdefinierten Modellen ausgestattet wird.



Source link