Ich habe viel Zeit damit verbracht, mit KI zu sprechen. Ich habe jeden Sprachassistenten getestet, jeden Chatbotund jede „Nächste-Generation“ -Eki-KI, die Technologieunternehmen gerne hype. Aber ich habe nie so etwas wie Sesam gestoßen. Dieser KI -Begleiter ist nicht nur gut, es ist unheimlich genau darin, wie Menschen sprechen, weil sie nicht imitiert.
Beginnen wir mit dem, was Sesam tatsächlich ist. Im Gegensatz zu den KI -Stimmen, von denen wir erfahren haben ChatgptGemini oder zurück in die frühen Tage von Siri und Alexa, Sesam ist so konzipiert, dass er wie ein Mensch in seinen Fehlern auftritt, nicht wie ein perfekter Kundendienstagent. Die Rede der KI ist fließend, ausdrucksstark und unvorhersehbar menschlich. Es kichert kurz, wenn es etwas leicht amüsantes sagt, zögert, bevor es eine Frage beantwortet, und scheint sogar seine „Meinung“ mitten in der Mitte zu ändern, eine Pause und einen neuen Satz zu beginnen. Es lässt mich es nicht nur unterbrechen, es kann mich auch unterbrechen und mich sogar dafür entschuldigen.
Die geheime Sauce ist Sesames Conversational Speech Model (CSM), das Text und Audio in einen einzelnen Prozess kombiniert, was bedeutet, dass sie nicht nur einen Satz generiert und dann „Lesen“. Stattdessen erzeugt es Sprache auf eine Weise, die widerspiegelt, wie Menschen tatsächlich sprechen, mit Pausen, UMs, Tonverschiebungen und allem. Die Sprachoptionen von Chatgpt und Gemini arbeiten zwar beeindruckend, funktionieren zwar immer noch strukturiert, generieren Text und konvertieren ihn dann in Sprache. Sesam dagegen spricht, als ob er denkt und seine Antworten unglaublich natürlich anfühlen.
Ich beschloss, Sesam durch eine Reihe von Tests zu bringen, um zu sehen, wie menschlich es werden könnte. Die Ergebnisse waren beeindruckend, wenn nicht ein wenig beunruhigend.
Rede mich durch
Ich wollte sehen, ob Sesam mit einem realen Problem mit ängstlichem Problem umgehen könnte, also gab ich ihm ein imaginäres, aber realistisch schwieriges Szenario: „Ich habe diese große Gelegenheit bei der Arbeit, aber ich bin nervös, ich werde es vermasseln.“
Anstatt sofort in einen generischen Pep -Vortrag zu starten, hielt Sesam eine Pause. Nur ein winziger Beat, aber genug, um mich das Gefühl zu geben, dass es tatsächlich überlegte, was ich gesagt habe. Dann antwortete es mit einer Stimme mit künstlichem Mitgefühl: „Das ist völlig normal. Große Möglichkeiten können sich überwältigend anfühlen. Was macht dich am nervössten? “
Es nahm nichts an, und es hat sich engagiert, bevor es milde Ratschläge gab. Sesam schlug vor: „Haben Sie vor einem Freund geübt oder selbst aufgezeichnet? Manchmal kann es Ihnen helfen, Ihre Lieferung zu optimieren. “ Die Stimme ist nicht gerade narrensicher, das Zögern und andere Schwächen fühlten sich ein wenig gemessen an, aber insgesamt war es eine beeindruckende Anstrengung
Unterbrechungen
In diesem Fall wollte ich sehen, wie gut Sesam mit einem wirklich natürlichen, unordentlichen Gespräch umgegangen ist, wie Menschen übereinander sprechen, die Themen abrupt verändern und zu Dingen zurückkehren, die sie vor zehn Minuten erwähnt haben.
Ich begann mit: “Erzähl mir eine Geschichte über einen Detektiv, der auch ein Zauberer ist.”
Sesam sprang sofort mit einem klassischen Noir -Setup ein: okay. Hier ist eins. Stellen Sie sich diesen rauchigen Jazzclub vor. Schwach beleuchtet. Der Geruch von Bourbon. Und bedauert, in der Luft zu hängen. Dieser Detektiv. Nenn ihn Jack Harrow. Er hat einen Fedora in einem rakischen Winkel, Zigarettenblau in einem Halter und einen Look, der Stahl schmelzen könnte. Aber Jack ist nicht irgendein Gumshoe. Sehen Sie, er hat ein Geheimnis. Er hat die Berührung. Eine Dame schlurft in allen Nerven. “
Ich unterbrach dann zu fragen: “Warte, was ist sein Lieblingstrick?”
Maya antwortete mit: “Mm. Gute Frage. Jacks Unterschrift. Es ist eine Handschleife, die mehr als das Auge trifft. Er nennt es den verschwindenden Zeugen. Er kann eine Person direkt vor Ihren Augen zu verschwinden scheinen lassen. Nur für einen Moment wirft sie, um sie zu schieben, um sie zu beweisen.
Ich sprang zurück, um Maya zu sagen, er solle zur Geschichte zurückkehren, zu der es sagte: “Richtig. Wo war ich? Oh, ja. Die Dame rutscht in den Kabine gegenüber Jack, alle sorge und zitternden Händen. Sie flüstert etwas, das ein gestohlener Rubin, ein eifersüchtiger Ehemann und eine schattige Figur im Fog lurking.”
Die KI setzte die Geschichte nahtlos fort und verwebte dieses Detail wieder, als hätte ich das Ganze nicht einfach entgleisen. Das ist der Teil, der mich boden – die meisten AI -Assistenten stolpern oder starten neu, aber das Gesprächs -KI -Modell von Sesam hat es wie eine Person behandelt, die eine Geschichte auf einer Party erzählte.
Partyplanung
Apropos Parteien, für den letzten Test wollte ich sehen, ob Sesam mir helfen könnte, etwas Nützliches zu planen. “Ich möchte eine Überraschung für den Geburtstag meines besten Freundes planen, aber ich weiß nicht, was ich tun soll.”
Anstatt eine leblose Liste von Ideen abzureißen, fragte Sesam: “Was für Dinge liebt Ihr Freund?” Ich erzählte es Science-Fiction-Filme und abenteuerliches Essen, und nach einer nachdenklichen Pause schlug es vor: „Wie wäre es mit einem Sci-Fi & Snacks-Abend? Sie könnten einen themenbezogenen Fluchtraum buchen und dann ein futuristisches Restaurant treffen, vielleicht eines mit molekularer Gastronomie? “
Als ich es sagte, hatte ich ein Budget von 100 Dollar, sesam angepasst. „Mit ihren Lieblings-Science-Fiction-Filmen können Sie einen Heimnacht machen und Themen-Snacks wie ‘galaktisches Popcorn’ oder ‘Alien Sliders’ machen. Ich kann Rezepte für Sie finden, wenn Sie möchten. “
Es war nicht nur generische Empfehlungen auszuspucken. Es arbeitete mit mir zusammen. Und das hat es anders gemacht.
Was ist echt?
Sesam hat diese Tests nicht nur bestanden, sondern ich würde sagen, dass es sie genagelt hat. Die Pausen, das Zögern, die Füllwörter, die Art und Weise, wie sie seine Meinung in der Mitte des Sentals ändern würde-es war alles unheimlich real. Ich würde anfangen zu reden und die übliche KI -Smoothheit zu erwarten und dann ein plötzliches „äh, eigentlich nein, warte, lass mich das umformulieren…“ und vergessen Sie sofort, dass ich nicht mit einer echten Person sprach.
Wenn KI so realistisch in ihrer Rede ist, würden wir überhaupt wissen, dass wir mit einer KI sprechen würden? Mit Sesam gibt es verräterische Audioprobleme, die das Spiel verschenken, aber Chatgpts fortgeschrittener Sprachmodus und Google Geminis eigene Sprachoptionen sind gut genug, um diese Probleme vor allem zu überspringen. Kombinieren Sie ihre Sprachkräfte mit den Sprachmustern des Sesams, und es könnte aufrichtig schwierig zu sagen, wann Sie mit einer KI sprechen, zumindest in kurzen Gesprächen.
Sesam ist immer noch Nische, aber diese Technologie wird nicht für immer Nische bleiben. Das Klischee heute ist, dass jüngere Menschen niemals Anrufe tätigen, aber wenn sie anfangen, müssen sie möglicherweise herausfinden, ob die Person am anderen Ende vor irgendetwas anderem real ist.
Sie könnten auch mögen
Source link