Ich habe versucht, KI -Chatbots lokal auf meinem Laptop auszuführen – und sie saugen irgendwie


Problem Nr. 1: Kleine LLMs sind dumm

Neuere offene LLMs prahlen oft mit großen Benchmark-Verbesserungen, und das war mit Deepseek-R1 sicherlich der Fall, das in einigen Benchmarks in der Nähe von Openais O1 kam.

Aber das Modell, das Sie auf Ihrem Windows -Laptop ausführen, ist nicht derselbe, der hohe Noten erzielt. Es ist ein viel kleineres, kondensierteres Modell – und kleinere Versionen großer Sprachmodelle sind nicht sehr schlau.

Schauen Sie sich einfach an, was passiert ist, als ich Deepseek-R1-Llama-8b fragte, wie das Huhn die Straße überschritt:

Matt Smith / Gießerei

Diese einfache Frage – und die weitläufige Antwort des LLM – verprügelt, wie kleinere Modelle leicht von den Schienen abgehen können. Sie bemerken häufig keinen Kontext oder nehmen Nuancen auf, die offensichtlich erscheinen sollten.

In der Tat deuten jüngste Untersuchungen darauf hin, dass weniger intelligente Großsprachenmodelle mit Argumentationsfunktionen anfällig für solche Fehler sind. Ich habe kürzlich darüber geschrieben Das Problem der Überdenken in KI -Argumentationsmodellen und wie sie zu erhöhten Rechenkosten führen.

Ich gebe zu, dass das Hühnchenbeispiel dummer ist. Wie wäre es, wenn wir eine praktischere Aufgabe versuchen? Wie Codierung einer einfachen Website in HTML. Ich habe einen fiktiven Lebenslauf mit dem Claude 3.7-Sonett von Anthropic erstellt und dann QWEN2.5-7B-Instruct gebeten, eine HTML-Website basierend auf dem Lebenslauf zu erstellen.

Die Ergebnisse waren alles andere als großartig:

Matt Smith / Gießerei

Um fair zu sein, ist es besser als das, was ich erstellen könnte, wenn Sie mich ohne Internetverbindung auf einen Computer setzten und mich bitten, eine ähnliche Website zu codieren. Trotzdem glaube ich nicht, dass die meisten Menschen diesen Lebenslauf verwenden möchten, um sich online zu vertreten.

Ein größeres und intelligentes Modell wie das Claude 3.7 -Sonett von Anthropic kann eine Website von höherer Qualität generieren. Ich könnte es immer noch kritisieren, aber meine Probleme wären nuancierter und weniger mit grellen Mängel zu tun. Im Gegensatz zu Qwens Ausgabe erwarte ich, dass viele Menschen die Website Claude, die erstellt hat, um sich online zu vertreten, zu verwenden.

Und für mich ist das keine Spekulation. Das ist eigentlich passiert. Vor einigen Monaten habe ich WordPress abgebrochen und Umgestiegen auf eine einfache HTML -Website Das wurde von Claude 3.5 Sonett codiert.



Source link