Start-up will das stärkste KI-Modell der Welt auf den Markt bringen

RedactieSDB september 6, 2024 3 min. lezen

Spread the love

Das KI-Start-up OthersideAI hat mit Reflection 70B ein neues Sprachmodell veröffentlicht, das mit einer speziellen Trainingsmethode namens “Reflection-Tuning” optimiert wurde. Nächste Woche soll mit Reflection 405B das nach Angaben der Entwickler weltweit leistungsfähigste KI-Modell folgen.

Das Unternehmen OthersideAI hat ein neues Sprachmodell namens Reflection 70B basierend auf Llama 3 veröffentlicht, das laut Gründer Matt Shumer das derzeit stärkste frei verfügbare Modell ist. Es soll sogar mit den besten geschlossenen Modellen wie Claude 3.5 Sonnet und GPT-4o mithalten können.

In Benchmarks wie MMLU, MATH, IFEval und GSM8K erzielt Reflection 70B Bestwerte und übertrifft GPT-4o in allen getesteten Bereichen. Auch gegenüber Llama 3.1 405B soll das Modell klar überlegen sein.

Neues “Reflection-Tuning” soll KI-Modellleistung verbessern

Möglich macht dies laut Shumer eine neue Trainingsmethode namens “Reflection-Tuning”. Dabei lernen die Modelle in einem zweistufigen Prozess, ihre eigenen Fehler zu erkennen und zu korrigieren, bevor sie eine finale Antwort ausgeben.

In einem ersten Schritt erzeugt das Modell eine vorläufige Antwort. Anschließend wird diese Antwort reflektiert, mögliche Fehler oder Inkonsistenzen identifiziert und eine korrigierte Version generiert.

Bisherige Sprachmodelle neigen dazu, Sachverhalte zu “halluzinieren” und können dies nicht erkennen. Reflection 70B soll durch den Reflexionsprozess in der Lage sein, solche Fehler selbstständig zu korrigieren.

Der Screenshot demonstriert die Aufgabe, die Anzahl der Buchstaben “r” im Wort “Strawberry” zu zählen. Hier erkennt das Modell in der Reflexionsphase seinen anfänglichen Fehler und korrigiert die Antwort von 2 auf 3 “r”. Mit solchen Beispielen fütterte Shumer das Reflection-Modell. | Bild: Matt Shumer

Zusätzlich trennt Reflection-Tuning die Planungsphase von der Antwortgenerierung, was die Wirksamkeit des “Chain-of-Thought Prompting” verbessern und die Ausgaben für Endnutzer einfach und präzise halten soll.

Die Frage lautet: “Welcher Planet ist der Sonne am nächsten?” In der vorläufigen Antwort gibt das Modell fälschlicherweise an, dass die Venus der sonnennächste Planet sei. Während der Reflexion erkennt das Modell jedoch, dass Merkur der Sonne am nächsten ist, nicht die Venus. Entsprechend korrigiert es seine Antwort in der finalen Ausgabe und nennt Merkur als den korrekten Planeten. | Bild: Matt Shumer

Glaive AI lieferte die synthetischen Trainingsdaten für Reflection. Um eine Verfälschung der Benchmarks auszuschließen, wurde Reflection 70B mit dem “LLM Decontaminator” von Lmsys auf Überlappungen mit den Testdatensätzen überprüft.

Die Gewichte des 70-Milliarden-Parameter-Modells sind ab sofort auf der Plattform Hugging Face verfügbar. Später soll noch eine API von Hyperbolic Labs folgen. In der kommenden Woche will OthersideAI mit Reflection 405B ein noch größeres Modell veröffentlichen und einen Bericht mit weiteren Details zum Verfahren und den Ergebnissen vorlegen. Eine Demo ist online verfügbar.

Empfehlung

Mit Reflection 405B erwartet Shumer nächste Woche ein Modell, das Sonnet und GPT-4o deutlich übertreffen soll. Doch dies sei nur der Anfang: Er habe bereits weitere Ideen, um noch bessere Sprachmodelle zu entwickeln, gegen die Reflection 70B “wie ein Spielzeug wirken werde”.

Ob sich diese Prognosen und Shumers Methode am Markt behaupten können, muss sich zeigen. Die Ergebnisse des Benchmarks entsprechen nicht den tatsächlichen Nutzungserfahrungen. Es ist unwahrscheinlich, aber nicht ausgeschlossen, dass ein kleines Start-up eine neue Methode zum Feintuning entdeckt, die die großen KI-Labore bisher nicht auf dem Schirm haben.

Source link