Das KI-Start-up OthersideAI hat mit Reflection 70B ein neues Sprachmodell veröffentlicht, das mit einer speziellen Trainingsmethode namens “Reflection-Tuning” optimiert wurde. Nächste Woche soll mit Reflection 405B das nach Angaben der Entwickler weltweit leistungsfähigste KI-Modell folgen.
Das Unternehmen OthersideAI hat ein neues Sprachmodell namens Reflection 70B basierend auf Llama 3 veröffentlicht, das laut Gründer Matt Shumer das derzeit stärkste frei verfügbare Modell ist. Es soll sogar mit den besten geschlossenen Modellen wie Claude 3.5 Sonnet und GPT-4o mithalten können.
In Benchmarks wie MMLU, MATH, IFEval und GSM8K erzielt Reflection 70B Bestwerte und übertrifft GPT-4o in allen getesteten Bereichen. Auch gegenüber Llama 3.1 405B soll das Modell klar überlegen sein.
Neues “Reflection-Tuning” soll KI-Modellleistung verbessern
Möglich macht dies laut Shumer eine neue Trainingsmethode namens “Reflection-Tuning”. Dabei lernen die Modelle in einem zweistufigen Prozess, ihre eigenen Fehler zu erkennen und zu korrigieren, bevor sie eine finale Antwort ausgeben.
Anzeige
In einem ersten Schritt erzeugt das Modell eine vorläufige Antwort. Anschließend wird diese Antwort reflektiert, mögliche Fehler oder Inkonsistenzen identifiziert und eine korrigierte Version generiert.
Bisherige Sprachmodelle neigen dazu, Sachverhalte zu “halluzinieren” und können dies nicht erkennen. Reflection 70B soll durch den Reflexionsprozess in der Lage sein, solche Fehler selbstständig zu korrigieren.
Zusätzlich trennt Reflection-Tuning die Planungsphase von der Antwortgenerierung, was die Wirksamkeit des “Chain-of-Thought Prompting” verbessern und die Ausgaben für Endnutzer einfach und präzise halten soll.
Glaive AI lieferte die synthetischen Trainingsdaten für Reflection. Um eine Verfälschung der Benchmarks auszuschließen, wurde Reflection 70B mit dem “LLM Decontaminator” von Lmsys auf Überlappungen mit den Testdatensätzen überprüft.
Die Gewichte des 70-Milliarden-Parameter-Modells sind ab sofort auf der Plattform Hugging Face verfügbar. Später soll noch eine API von Hyperbolic Labs folgen. In der kommenden Woche will OthersideAI mit Reflection 405B ein noch größeres Modell veröffentlichen und einen Bericht mit weiteren Details zum Verfahren und den Ergebnissen vorlegen. Eine Demo ist online verfügbar.
Empfehlung
Mit Reflection 405B erwartet Shumer nächste Woche ein Modell, das Sonnet und GPT-4o deutlich übertreffen soll. Doch dies sei nur der Anfang: Er habe bereits weitere Ideen, um noch bessere Sprachmodelle zu entwickeln, gegen die Reflection 70B “wie ein Spielzeug wirken werde”.
Ob sich diese Prognosen und Shumers Methode am Markt behaupten können, muss sich zeigen. Die Ergebnisse des Benchmarks entsprechen nicht den tatsächlichen Nutzungserfahrungen. Es ist unwahrscheinlich, aber nicht ausgeschlossen, dass ein kleines Start-up eine neue Methode zum Feintuning entdeckt, die die großen KI-Labore bisher nicht auf dem Schirm haben.