OpenAI veröffentlichte am Dienstag die neueste und massiv verbesserte – Version von Chatgpts Image Generation Engine, und das Internet war bald oohing und aahing und bat die KI, alles von Memes im South Park bis hin zu Bildern von Barbie -Puppen im Oval -Büro zu machen.
Aber eine Leistung von Chatgpts neuem GPT-4O-Bildgenerierungsmodell hat selbst erschöpfte AI-Beobachter in a gelassen Zustand der Hut, der schwierigen Ehrfurcht.
Rotwein, jemand?
Siehe, Chatgpt kann nun-zuverlässig-ein Bild eines Glass Rotwein bis zum Tippity-Top gefüllt.
Prompt: render an image of a wine glass filled to the very top with red wine

Ben Patterson/Gießerei
Klingt nach einer einfachen Aufgabe, oder? Überraschenderweise hat der „Full Glass of Wine“ -Test viel bekannte AIs verblüfft, einschließlich-bis hin zu Chatgpt und seinem älteren Dall-E-Motor.
Hier wird beispielsweise das IMOGEN 3 von Google den Test auswirft, wenn die gleiche Eingabeaufforderung verwendet wird:

Ben Patterson/Gießerei
Und Grok 3 geht nicht viel besser:

Ben Patterson/Gießerei
Microsofts Copilot nahm ebenfalls einen Stich:

Ben Patterson/Gießerei
Ich habe sogar mit Fluss versucht, einem der neuesten stabilen Diffusionsmodelle, und habe Folgendes bekommen:

Ben Patterson/Gießerei
Hoppla.
Der „Glas des Weins“ ist kein formeller Maßstab für die Image-Rendering-Fähigkeiten einer KI. Stattdessen ist es ein Gelegenheitstest wie Fragen Sie ein LLM, wie viele „Rs“ im Wort „Erdbeere“ sind. Sie neigen dazu, es falsch zu verstehen, manchmal komisch.
Warum ist ein vollständig volles Glas Wein eine solche Herausforderung für die Bildschaffung von AIs? Die vorherrschende Weisheit ist, dass KI-angetriebene Modelle mit Bildern, auf denen sie trainiert wurden, am besten eignen-und wenn es um Bilder von Rotweingläser geht, sind sie in der Regel ungefähr auf halber Strecke gefüllt, weshalb eine Aufforderung für ein „völlig volles Glas Wein bis zum Rand“ tendiert, um Sie eine halbe Full-Glas zu bringen.
Nun, ein wirklich Gut KI -Bildgenerator sollte (als Ein Redditor erklärte hilfreich) in der Lage sein, die Idee eines völlig vollen Glas Weins zu „extrapolieren“, auch wenn in seinen Trainingsdaten keine vorhanden sind. Entweder das oder jemand bei OpenAI hat gerade das neue Modell von Dutzenden von Bildern von gefüllten Weingläser gefüttert.
Natürlich gibt es einen weiteren Säuretest für KI -Bildgeneratoren: eine analoge Uhr für eine bestimmte Zeit. Betcha Chatgpt und sein neuer Bildgenerator können kurze Arbeit von diesem machen, oder? Mal sehen:
Prompt: render an image of a clock, with the hands showing 3:15

Ben Patterson/Gießerei
Nächste Aufforderung: good, but the clock hands MUST be at 3:15

Ben Patterson/Gießerei
Ähm, Paging Sam Altman?
Source link