Diese Woche in AI: Vielleicht sollten wir AI -Benchmarks vorerst ignorieren

admin Februarie 20, 2025

0 3 minutes read

Diese Woche in AI: Vielleicht sollten wir AI -Benchmarks vorerst ignorieren

Willkommen im regulären KI -Newsletter von TechCrunch! Wir machen ein bisschen eine Pause, aber Sie finden alle unsere KI -Berichterstattung, einschließlich meiner Kolumnen, unserer täglichen Analyse und den Nachrichten in TechCrunch. Wenn Sie jeden Tag diese Geschichten und vieles mehr in Ihrem Posteingang wollen, melden Sie sich für unsere Daily Newsletters an Hier.

Diese Woche veröffentlichte Xai, der KI -Startup von Milliardär Elon Musk, sein neuestes Flaggschiff -KI -Modell. Grok 3was die Grok -Chatbot -Apps des Unternehmens betreibt. Das Modell ist auf rund 200.000 GPUs ausgebildet und schlägt eine Reihe anderer führender Modelle, darunter von OpenAI, auf Benchmarks für Mathematik, Programmierung und vieles mehr.

Aber was sagen uns diese Benchmarks wirklich?

Hier bei TC berichten wir häufig widerwillig Benchmark -Zahlen, da sie eine der wenigen (relativ) standardisierten Möglichkeiten sind, wie die KI -Industrie Modellverbesserungen misst. Beliebte KI -Benchmarks testen dazu Esoterisches Wissen und aggregierte Werte geben, die mit den Kenntnissen schlecht korrelieren Bei den Aufgaben, die die meisten Menschen interessieren.

Wie Wharton Professor Ethan Mollick betonte Eine Reihe von Beiträgen auf x Nach der Enthüllung von GROK 3 am Montag besteht ein dringender Bedarf an besseren Testbatterien und unabhängigen Testbehörden. KI-Unternehmen berichten von den Benchmark-Benchmark-Ergebnissen häufiger als nicht, wie Mollick anspielte und diese Ergebnisse noch härter zu akzeptieren, um den Nennwert zu akzeptieren.

“Öffentliche Benchmarks sind sowohl” meh “als auch gesättigt, sodass viele KI -Tests wie Lebensmittelbewertungen basieren”, schrieb Mollick. “Wenn KI für die Arbeit von entscheidender Bedeutung ist, brauchen wir mehr.”

Es gibt keinen Mangel an unabhängig Tests Und Organisationen Vorschläge neue Benchmarks für KI, aber ihr relatives Verdienst ist alles andere als eine festgelegte Angelegenheit in der Branche. Einige KI -Kommentatoren und Experten schlagen vor Ausrichten von Benchmarks mit wirtschaftlichen Auswirkungen Um ihre Nützlichkeit zu gewährleisten, während Andere argumentieren, dass Adoption und Nützlichkeit sind die ultimativen Benchmarks.

Diese Debatte kann bis zum Ende der Zeit treiben. Vielleicht sollten wir stattdessen, Wie X -Benutzer Roon vorschreibtAchten Sie einfach weniger auf neue Modelle und Benchmarks, die die technischen Durchbrüche von KI -KI abhalten. Für unsere kollektive Vernunft ist dies möglicherweise nicht die schlimmste Idee, auch wenn sie ein gewisses Maß an AI FOMO induziert.

Wie oben erwähnt, wird diese Woche in der KI eine Pause einlegen. Vielen Dank, dass Sie sich bei uns, Leser, durch diese Achterbahn einer Reise festhalten. Bis zum nächsten Mal.

Nachricht

**Bildnachweis:**Nathan Laine / Bloomberg / Getty Images

Openai versucht, Chatgpt zu „unzusammenwaren“: Max schrieb darüber, wie Openai seinen KI -Entwicklungsansatz verändert, um explizit „intellektuelle Freiheit“ anzunehmen, egal wie herausfordernd oder kontrovers ein Thema sein mag.

Miras neues Startup: Das Neue Startup von Openai CTO Mira Murati, Denkmaschinenlaborbeabsichtigt, Tools zu erstellen, um „KI für (Menschen) einzigartige Bedürfnisse und Ziele zu ermöglichen.

Grok 3 kommt: Das AI -Startup von Elon Musk, Xai, hat sein neuestes Flaggschiff -KI -Modell GROK 3 veröffentlicht und neue Funktionen für die GROK -Apps für iOS und das Web vorgestellt.

Eine sehr lamakonferenz: Meta wird seine erste Entwicklerkonferenz veranstalten, die sich in diesem Frühjahr der Generative AI widmet. Die Konferenz ist Lamacon nach Metas Lama -Familie generativer KI -Modelle genannt und ist für den 29. April geplant.

KI und Europas digitale Souveränität: Paul profilierte OpenEurollm, eine Zusammenarbeit zwischen 20 Organisationen zum Aufbau einer Reihe von Grundlagenmodellen für transparente KI in Europa, die die „sprachliche und kulturelle Vielfalt“ aller EU -Sprachen bewahrt.

Forschungspapier der Woche

OpenAI CHATGPT -Website, die auf einem Laptop -Bildschirm angezeigt wird, wird in diesem Illustrationsfoto angezeigt. — **Bildnachweis:**Jakub Porzycki / Nurphoto / Getty Images

OpenAI -Forscher haben einen neuen KI -Benchmark geschaffen, Swe-LancerDies zielt darauf ab, die kodierenden Fähigkeiten leistungsfähiger KI -Systeme zu bewerten. Der Benchmark besteht aus über 1.400 freiberuflichen Software-Engineering-Aufgaben, die von Fehlerbehebungen und Feature-Bereitstellungen bis hin zu technischen Implementierungsvorschlägen auf „Manager“ reichen.

Laut OpenAI, dem besten KI-Modell von Anthropic, Claude 3.5 Sonett, zahlt 40,3% auf dem vollständigen Swe-Lancer-Benchmark und schließen darauf hin, dass AI ziemlich viel zu tun hat. Es ist erwähnenswert, dass die Forscher neuere Modelle wie OpenAI nicht bewertet haben o3-mini oder chinesische KI -Firma Deepseeks R1.

Modell der Woche

Eine chinesische KI -Firma namens Stepfun hat ein „Open“ -KI -Modell veröffentlicht. Stiefprüfungdas kann in mehreren Sprachen Sprache verstehen und generieren. Step-Audio unterstützt Chinesisch, Englisch und Japanisch und ermöglicht es den Benutzern, die Emotionen und sogar den Dialekt des synthetischen Audio anzupassen, das es erstellt, einschließlich des Singens.

Stepfun ist eines von mehreren gut finanzierten chinesischen KI-Startups, die Modelle im Rahmen einer zulässigen Lizenz veröffentlichen. Im Jahr 2023 gegründet, Stepfun Berichten zufolge kürzlich geschlossen Eine Finanzierungsrunde im Wert von mehreren hundert Millionen Dollar von einer Vielzahl von Investoren, zu denen chinesische staatliche Private-Equity-Unternehmen gehören.

Tasche greifen

Nous Forschung tiefe Hermungen — **Bildnachweis:**Nous Forschung

Nous Research, eine AI -Forschungsgruppe, hat freigegeben Was es behauptet, ist eines der ersten KI -Modelle, das Argumentation und „intuitive Sprachmodellfunktionen“ vereint.

Das Modell, Deephermes-3-Vorschau, kann lange „Denkketten“ für eine verbesserte Genauigkeit auf Kosten eines rechnerischen Heft ein- und ausschaltet. Im „Argumenting“ -Modus „denkt“ Deephermes-3, ähnlich wie bei anderen Argumentations-KI-Modellen, „denkt“ länger für härtere Probleme und zeigt, dass der Denkprozess zur Antwort gelangt.

Anthropisch Berichten zufolge plant, bald ein architektonisch ähnliches Modell zu veröffentlichenund Openai hat gesagt, ein solches Modell ist auf seiner kurzfristigen Roadmap.

Source link

admin Februarie 20, 2025

0 3 minutes read

Diese Woche in AI: Vielleicht sollten wir AI -Benchmarks vorerst ignorieren

Nachricht

Forschungspapier der Woche

Modell der Woche

Tasche greifen

admin

Lyon trainiert ihren Blick auf die Champions League nach Fonseca Boost | Ligue 1

Trump kiest klimaatontkennende olie- en gasmagnaat als energiesec. Hij dronk ooit Fracking Fluid op live tv

Uber Ditches Provisionen zugunsten von Gebühren für Auto-Rikscha-Treiber in Indien als Reaktion auf einen verstärkten Wettbewerb der lokalen Rivalen Rapido und Namma Yatri (Jagmeet Singh/TechCrunch)

Waarom Elon Musk zulke drastische veranderingen in de federale overheid veroorzaakt: NPR

60 der Dopest -neuen Dinge bei Amazon – und wow sind sie billig

Harridan Vodka Paranormal Reserve: Asylum-editie

Nachricht

Forschungspapier der Woche

Modell der Woche

Tasche greifen

admin

Subscribe to our mailing list to get the new updates!

Sechs Nationen 2025: Irland -Interim -Chef Simon Easterby hatte keinen Kontakt über Wales Job

Warum Elon über Doge liegt und wie Sie Ihren Fokus beheben können

Related Articles

Die Tech -Industrie versuchte, die allgegenwärtige Vorurteile der KI zu reduzieren. Jetzt will Trump seine Bemühungen “geweckt” beenden

Zex PR Wire -Exponate bei Token2049 Dubai 2025: Festzeln seiner Stelle als beste PR -Firma und Top -PR -Agentur im Nahen Osten

Netflix wird leise “Long Überfällige” TV -App -Upgrade ausgelöst, das schließlich die ärgerlichste Funktion beseitigt

Sie können immer noch 1200 US -Dollar in 1.200.000 US -Dollar in Krypto einbringen, aber nicht mit früheren Top -Gewinnern wie Shiba Inu (Shib) oder Pepe Coin (Pepe)

Lyon trainiert ihren Blick auf die Champions League nach Fonseca Boost | Ligue 1

Trump kiest klimaatontkennende olie- en gasmagnaat als energiesec. Hij dronk ooit Fracking Fluid op live tv

Uber Ditches Provisionen zugunsten von Gebühren für Auto-Rikscha-Treiber in Indien als Reaktion auf einen verstärkten Wettbewerb der lokalen Rivalen Rapido und Namma Yatri (Jagmeet Singh/TechCrunch)

Waarom Elon Musk zulke drastische veranderingen in de federale overheid veroorzaakt: NPR

60 der Dopest -neuen Dinge bei Amazon – und wow sind sie billig

Harridan Vodka Paranormal Reserve: Asylum-editie