Willkommen im regulären KI -Newsletter von TechCrunch! Wir machen ein bisschen eine Pause, aber Sie finden alle unsere KI -Berichterstattung, einschließlich meiner Kolumnen, unserer täglichen Analyse und den Nachrichten in TechCrunch. Wenn Sie jeden Tag diese Geschichten und vieles mehr in Ihrem Posteingang wollen, melden Sie sich für unsere Daily Newsletters an Hier.
Diese Woche veröffentlichte Xai, der KI -Startup von Milliardär Elon Musk, sein neuestes Flaggschiff -KI -Modell. Grok 3was die Grok -Chatbot -Apps des Unternehmens betreibt. Das Modell ist auf rund 200.000 GPUs ausgebildet und schlägt eine Reihe anderer führender Modelle, darunter von OpenAI, auf Benchmarks für Mathematik, Programmierung und vieles mehr.
Aber was sagen uns diese Benchmarks wirklich?
Hier bei TC berichten wir häufig widerwillig Benchmark -Zahlen, da sie eine der wenigen (relativ) standardisierten Möglichkeiten sind, wie die KI -Industrie Modellverbesserungen misst. Beliebte KI -Benchmarks testen dazu Esoterisches Wissen und aggregierte Werte geben, die mit den Kenntnissen schlecht korrelieren Bei den Aufgaben, die die meisten Menschen interessieren.
Wie Wharton Professor Ethan Mollick betonte Eine Reihe von Beiträgen auf x Nach der Enthüllung von GROK 3 am Montag besteht ein dringender Bedarf an besseren Testbatterien und unabhängigen Testbehörden. KI-Unternehmen berichten von den Benchmark-Benchmark-Ergebnissen häufiger als nicht, wie Mollick anspielte und diese Ergebnisse noch härter zu akzeptieren, um den Nennwert zu akzeptieren.
“Öffentliche Benchmarks sind sowohl” meh “als auch gesättigt, sodass viele KI -Tests wie Lebensmittelbewertungen basieren”, schrieb Mollick. “Wenn KI für die Arbeit von entscheidender Bedeutung ist, brauchen wir mehr.”
Es gibt keinen Mangel an unabhängig Tests Und Organisationen Vorschläge neue Benchmarks für KI, aber ihr relatives Verdienst ist alles andere als eine festgelegte Angelegenheit in der Branche. Einige KI -Kommentatoren und Experten schlagen vor Ausrichten von Benchmarks mit wirtschaftlichen Auswirkungen Um ihre Nützlichkeit zu gewährleisten, während Andere argumentieren, dass Adoption und Nützlichkeit sind die ultimativen Benchmarks.
Diese Debatte kann bis zum Ende der Zeit treiben. Vielleicht sollten wir stattdessen, Wie X -Benutzer Roon vorschreibtAchten Sie einfach weniger auf neue Modelle und Benchmarks, die die technischen Durchbrüche von KI -KI abhalten. Für unsere kollektive Vernunft ist dies möglicherweise nicht die schlimmste Idee, auch wenn sie ein gewisses Maß an AI FOMO induziert.
Wie oben erwähnt, wird diese Woche in der KI eine Pause einlegen. Vielen Dank, dass Sie sich bei uns, Leser, durch diese Achterbahn einer Reise festhalten. Bis zum nächsten Mal.
Nachricht

Openai versucht, Chatgpt zu „unzusammenwaren“: Max schrieb darüber, wie Openai seinen KI -Entwicklungsansatz verändert, um explizit „intellektuelle Freiheit“ anzunehmen, egal wie herausfordernd oder kontrovers ein Thema sein mag.
Miras neues Startup: Das Neue Startup von Openai CTO Mira Murati, Denkmaschinenlaborbeabsichtigt, Tools zu erstellen, um „KI für (Menschen) einzigartige Bedürfnisse und Ziele zu ermöglichen.
Grok 3 kommt: Das AI -Startup von Elon Musk, Xai, hat sein neuestes Flaggschiff -KI -Modell GROK 3 veröffentlicht und neue Funktionen für die GROK -Apps für iOS und das Web vorgestellt.
Eine sehr lamakonferenz: Meta wird seine erste Entwicklerkonferenz veranstalten, die sich in diesem Frühjahr der Generative AI widmet. Die Konferenz ist Lamacon nach Metas Lama -Familie generativer KI -Modelle genannt und ist für den 29. April geplant.
KI und Europas digitale Souveränität: Paul profilierte OpenEurollm, eine Zusammenarbeit zwischen 20 Organisationen zum Aufbau einer Reihe von Grundlagenmodellen für transparente KI in Europa, die die „sprachliche und kulturelle Vielfalt“ aller EU -Sprachen bewahrt.
Forschungspapier der Woche
OpenAI -Forscher haben einen neuen KI -Benchmark geschaffen, Swe-LancerDies zielt darauf ab, die kodierenden Fähigkeiten leistungsfähiger KI -Systeme zu bewerten. Der Benchmark besteht aus über 1.400 freiberuflichen Software-Engineering-Aufgaben, die von Fehlerbehebungen und Feature-Bereitstellungen bis hin zu technischen Implementierungsvorschlägen auf „Manager“ reichen.
Laut OpenAI, dem besten KI-Modell von Anthropic, Claude 3.5 Sonett, zahlt 40,3% auf dem vollständigen Swe-Lancer-Benchmark und schließen darauf hin, dass AI ziemlich viel zu tun hat. Es ist erwähnenswert, dass die Forscher neuere Modelle wie OpenAI nicht bewertet haben o3-mini oder chinesische KI -Firma Deepseeks R1.
Modell der Woche
Eine chinesische KI -Firma namens Stepfun hat ein „Open“ -KI -Modell veröffentlicht. Stiefprüfungdas kann in mehreren Sprachen Sprache verstehen und generieren. Step-Audio unterstützt Chinesisch, Englisch und Japanisch und ermöglicht es den Benutzern, die Emotionen und sogar den Dialekt des synthetischen Audio anzupassen, das es erstellt, einschließlich des Singens.
Stepfun ist eines von mehreren gut finanzierten chinesischen KI-Startups, die Modelle im Rahmen einer zulässigen Lizenz veröffentlichen. Im Jahr 2023 gegründet, Stepfun Berichten zufolge kürzlich geschlossen Eine Finanzierungsrunde im Wert von mehreren hundert Millionen Dollar von einer Vielzahl von Investoren, zu denen chinesische staatliche Private-Equity-Unternehmen gehören.
Tasche greifen
Nous Research, eine AI -Forschungsgruppe, hat freigegeben Was es behauptet, ist eines der ersten KI -Modelle, das Argumentation und „intuitive Sprachmodellfunktionen“ vereint.
Das Modell, Deephermes-3-Vorschau, kann lange „Denkketten“ für eine verbesserte Genauigkeit auf Kosten eines rechnerischen Heft ein- und ausschaltet. Im „Argumenting“ -Modus „denkt“ Deephermes-3, ähnlich wie bei anderen Argumentations-KI-Modellen, „denkt“ länger für härtere Probleme und zeigt, dass der Denkprozess zur Antwort gelangt.
Anthropisch Berichten zufolge plant, bald ein architektonisch ähnliches Modell zu veröffentlichenund Openai hat gesagt, ein solches Modell ist auf seiner kurzfristigen Roadmap.
Source link