Microsoft Research hat ein neues KI -Modell namens Magma eingeführt, das einen großen Fortschritt in der künstlichen Intelligenz für die Kontrolle von Software -Schnittstellen und Robotersystemen darstellen könnte. Magma kombiniert visuelle und sprachliche Verarbeitung und ermöglicht es, sowohl in der digitalen als auch in der physischen Welt zu operieren, was es zu einem potenziell vielseitigen KI -Modell macht.
Im Gegensatz zu vielen vorhandenen multimodalen KI -Systemen, die sich auf separate Modelle stützen, um Daten zu interpretieren und Aktionen auszuführen, integriert Magma diese Funktionen in ein System. Microsoft behauptet, dies macht Magma einzigartig, da es Daten wie Text, Bilder und Video verarbeiten und nativ darauf reagieren kann, ob Navigieren oder Steuern von Robotern. Diese Weiterentwicklung könnte zu autonomeren und intelligenten KI -Systemen führen, die in der Lage sind, verschiedene Szenarien zu betreiben.
Die Entwicklung von Magma war eine gemeinsame Anstrengung zwischen Microsoft und prominenten akademischen Institutionen, darunter Kaist, der University of Maryland, der University of Wisconsin-Madison und der University of Washington. Die KI zielt darauf ab, sich einfach zu beantworten oder einzelne Befehle auszuführen, da Microsoft dies als Schritt zur Erstellung eines Agenten -KI -Systems vorsieht. Dies bedeutet, dass die KI mehrstufige Aufgaben planen und ausführen könnte, um komplexe Ziele ohne menschliche Intervention zu erreichen.
In seiner Forschung hebt Microsoft hervor, wie Magma Pläne basierend auf einem beschriebenen Ziel erstellen und Maßnahmen ergreifen kann, um dieses Ziel zu erfüllen. Durch die Nutzung der verfügbaren visuellen und sprachlichen Daten kann Magma komplizierte Aufgaben sowohl in virtuellen als auch in physischen Umgebungen erledigen, die eine breite Palette von Anwendungen in Branchen wie Herstellung, Gesundheitswesen und digitaler Automatisierung aufweisen können.
Andere Technologieunternehmen wie OpenAI und Google untersuchen ebenfalls das Potenzial der Agenten -KI. OpenAIs Experimente mit Projekten wie Operator konzentrieren sich auf die Ausführung von Aufgaben in Webbrowsern, während Google mit seiner Gemini 2.0 -Initiative die Agent -KI entwickelt hat. Was Magma jedoch anders macht, ist sein integrierter Ansatz für Wahrnehmung und Handlung, der ihm möglicherweise einen Vorteil in realen Anwendungen verleiht.
Source link