
Auf der GTC 2025 -Konferenz wird Dynamo angekündigt und zielt darauf ab, die Inferenzleistung erheblich zu steigern | Fotokredit: Screengrab aus Nvidia bezogen
AI -Chipmacher Nvidia am Dienstag (18. März 205) Enthüllte Dynamo, ein Open-Source-Inferenz-Framework, das die Bereitstellung generativer KI- und Argumentationsmodelle verbessern soll über groß angelegte, verteilte Umgebungen.
Dynamo wurde auf der GTC 2025 -Konferenz angekündigt und zielt darauf ab, die Inferenzleistung erheblich zu steigern und gleichzeitig die Betriebskosten für KI -Anwendungen zu senken.
Dynamo bringt einige coole neue Tricks mit, um die KI -Schlussfolgerung schneller zu gestalten, indem die Stadien der Vorbergungen und Dekodierungen aufgeschlüsselt werden, sodass jede GPU gleichzeitig mehr Arbeit leisten kann. Sie verwenden auch die dynamische Planung, um sicherzustellen, dass GPUs effizient verwendet werden, und sie haben optimiert, wie Daten zwischen GPUs übertragen werden, um die Antworten schneller zu machen. Außerdem haben sie den KV -Cache bewegt, um das System noch schneller zu machen.
In praktischen Anwendungen, so Nvidia, hat Dynamo erhebliche Leistungsverbesserungen gezeigt. Zum Beispiel erhöhte Dynamo beim Servieren des Open-Source Deepseek-R1 671b-Argumentationsmodells auf der GB200 NVL72-Plattform der NVIDIA die Anzahl der Anfragen um bis zu 30 Mal. Diese Verbesserung positioniert Dynamo als kostengünstige Lösung für KI-Unternehmen, die darauf abzielen, die Erzeugung der Token-Einnahmen zu maximieren.
Das Framework unterstützt wichtige KI-Inferenz-Backends, einschließlich Pytorch, Sglang, Nvidia Tensorrt-Llm und VLLM, die Entwicklern und KI-Forschern die Flexibilität bieten, Dynamo in verschiedene KI-Workflows zu integrieren.
Für Unternehmen, die beschleunigte Bereitstellungen und Unterstützung für Unternehmensqualität suchen, plant NVIDIA, Dynamo mit seinen NIM-Microservices einzubeziehen, die Teil der NVIDIA AI Enterprise Suite sind. Es wird erwartet, dass diese Integration eine schnellere Zeit für die Produktion erleichtert und gleichzeitig Sicherheit und Stabilität im KI -Betrieb gewährleistet.
Veröffentlicht – 19. März 2025 12:44 Uhr IST
Source link