Pruna aiEin europäisches Startup, das an Komprimierungsalgorithmen für KI -Modelle gearbeitet hat, macht seinen Optimierungsrahmen Open Source am Donnerstag.
Pruna AI hat einen Rahmen geschaffen, der mehrere Effizienzmethoden wie Caching, Beschneidung, Quantisierung und Destillation auf ein bestimmtes KI -Modell anwendet.
„Wir standardisieren auch das Speichern und Laden der komprimierten Modelle, wenden Kombinationen dieser Komprimierungsmethoden an und bewerten Sie auch Ihr komprimiertes Modell nach dem Komprimieren“, sagte Pruna AI Co-Fonder und CTO John Rachwan gegenüber TechCrunch.
Insbesondere kann der Rahmen von Pruna AI bewerten, ob nach dem Komprimieren eines Modells und der Leistungsgewinne, die Sie erhalten, einen erheblichen Qualitätsverlust gibt.
“Wenn ich eine Metapher verwenden würde, ähneln wir, wie umarme Gesichtstransformatoren und -Diffusoren – wie man sie rennt, wie man sie speichert, sie lädt usw. Wir tun das Gleiche, aber für Effizienzmethoden”, fügte er hinzu.
Big AI Labs haben bereits verschiedene Komprimierungsmethoden verwendet. Zum Beispiel hat sich OpenAI auf Destillation verlassen, um schnellere Versionen seiner Flaggschiff -Modelle zu erstellen.
So entwickelte Openai GPT-4 Turbo, eine schnellere Version von GPT-4. Ebenso die Flux.1-SCHNELL Das Bildgenerierungsmodell ist eine destillierte Version des Flux.1 -Modells von Schwarzwaldlabors.
Destillation ist eine Technik, mit der Wissen aus einem großen KI-Modell mit einem „Lehrer-Schüler“ -Modell extrahiert wird. Entwickler senden Anfragen an ein Lehrermodell und zeichnen die Ausgänge auf. Die Antworten werden manchmal mit einem Datensatz verglichen, um zu sehen, wie genau sie sind. Diese Ausgaben werden dann verwendet, um das Schülermodell auszubilden, das geschult ist, um das Verhalten des Lehrers zu approximieren.
“Für große Unternehmen ist es normalerweise, dass sie dieses Zeug intern aufbauen. Und was Sie in der Open-Source-Welt finden können, basiert normalerweise auf einzelnen Methoden. Nehmen wir beispielsweise an, eine Quantisierungsmethode für LLMs oder eine Caching-Methode für Diffusionsmodelle”, sagte Rachwan. “Aber Sie können kein Werkzeug finden, das alle zusammenfasst, sie alle einfach zu bedienen und zu kombinieren lässt. Und dies ist der große Wert, den Pruna gerade mit sich bringt.”

Während Pruna AI jegliche Art von Modellen unterstützt, von großsprachigen Modellen bis hin zu Diffusionsmodellen, Sprach-Text-Modellen und Computer Vision-Modellen, konzentriert sich das Unternehmen derzeit insbesondere auf Bild- und Videogenerierungsmodelle.
Einige der vorhandenen Benutzer von Pruna Ai enthalten Szenario Und Fotoroom. Zusätzlich zur Open Source -Ausgabe verfügt Pruna AI über ein Unternehmensangebot mit erweiterten Optimierungsfunktionen, einschließlich eines Optimierungsagenten.
“Das aufregendste Merkmal, das wir bald veröffentlichen, wird ein Kompressionser Agent sein”, sagte Rachwan. „Grundsätzlich geben Sie es Ihrem Modell, Sie sagen: ‘Ich möchte mehr Geschwindigkeit, aber lassen Sie meine Genauigkeit nicht um mehr als 2%fallen.’ Und dann wird der Agent nur seine Magie machen.
Pruna AI berechnet stundenlang für seine Pro -Version. “Es ist ähnlich, wie Sie an eine GPU denken würden, wenn Sie eine GPU für AWS oder einen Cloud -Service mieten”, sagte Rachwan.
Und wenn Ihr Modell ein kritischer Bestandteil Ihrer KI -Infrastruktur ist, sparen Sie am Ende viel Geld bei der Inferenz mit dem optimierten Modell. Zum Beispiel hat Pruna AI ein Lama -Modell achtmal kleiner gemacht, ohne zu viel Verlust mit seinem Komprimierungsrahmen. Pruna Ai hofft, dass seine Kunden über sein Komprimierungsrahmen als eine Investition nachdenken werden, die sich selbst auszahlt.
Pruna AI hat vor einigen Monaten eine Saatgutfonds -Finanzierung von 6,5 Millionen US -Dollar gesammelt. Zu den Investoren des Startups zählen EQT Ventures, Daphni, Motier Ventures und Kima Ventures.
Source link