Ich habe den realistischsten KI -Sprachbegleiter versucht, der jemals erstellt wurde – wenn Chatgpt oder Gemini jemals so gut werden, ist die Realität in Schwierigkeiten


Ich habe viel Zeit damit verbracht, mit KI zu sprechen. Ich habe jeden Sprachassistenten getestet, jeden Chatbotund jede „Nächste-Generation“ -Eki-KI, die Technologieunternehmen gerne hype. Aber ich habe nie so etwas wie Sesam gestoßen. Dieser KI -Begleiter ist nicht nur gut, es ist unheimlich genau darin, wie Menschen sprechen, weil sie nicht imitiert.

Beginnen wir mit dem, was Sesam tatsächlich ist. Im Gegensatz zu den KI -Stimmen, von denen wir erfahren haben ChatgptGemini oder zurück in die frühen Tage von Siri und Alexa, Sesam ist so konzipiert, dass er wie ein Mensch in seinen Fehlern auftritt, nicht wie ein perfekter Kundendienstagent. Die Rede der KI ist fließend, ausdrucksstark und unvorhersehbar menschlich. Es kichert kurz, wenn es etwas leicht amüsantes sagt, zögert, bevor es eine Frage beantwortet, und scheint sogar seine „Meinung“ mitten in der Mitte zu ändern, eine Pause und einen neuen Satz zu beginnen. Es lässt mich es nicht nur unterbrechen, es kann mich auch unterbrechen und mich sogar dafür entschuldigen.

Sesam

(Bildnachweis: Sesam)

Die geheime Sauce ist Sesames Conversational Speech Model (CSM), das Text und Audio in einen einzelnen Prozess kombiniert, was bedeutet, dass sie nicht nur einen Satz generiert und dann „Lesen“. Stattdessen erzeugt es Sprache auf eine Weise, die widerspiegelt, wie Menschen tatsächlich sprechen, mit Pausen, UMs, Tonverschiebungen und allem. Die Sprachoptionen von Chatgpt und Gemini arbeiten zwar beeindruckend, funktionieren zwar immer noch strukturiert, generieren Text und konvertieren ihn dann in Sprache. Sesam dagegen spricht, als ob er denkt und seine Antworten unglaublich natürlich anfühlen.



Source link