OpenAI enthüllt, was hinter dem oft zitierten “Strawberry”-Projekt steckt: Das neue KI-Modell o1 soll sich für Antworten mehr Zeit lassen und so einen neuen Standard für KI-Logik schaffen. Es ist nicht in allen Aufgaben besser, soll aber einen neuen Skalierungshorizont schaffen: über Rechenleistung.
OpenAI hat mit o1 ein neues KI-Modell vorgestellt, das das Unternehmen als einen bedeutenden Beitrag im Bereich der KI-Logik bezeichnet. Laut OpenAI wurde o1 mit Reinforcement Learning trainiert, um vor der Antwort einen internen “Gedankengang” zu durchlaufen. Je länger das Modell nachdenkt, desto besser schneidet es bei Aufgaben ab, die logisches Denken erfordern. Das entspricht den Vermutungen im Vorfeld.
“Wir sind nicht mehr durch das Pre-Training eingeschränkt. Wir können jetzt auch die Rechenleistung für Inferenzen skalieren”, erklärt Noam Brown, Mitentwickler des Modells. Dieser neue Ansatz eröffne eine zusätzliche Dimension für die Skalierung von KI-Modellen, die noch ganz am Anfang stehe.
Primär für Logik-Aufgaben geeignet
Die o1-Modelle seien jedoch nicht in allen Bereichen besser als der Vorgänger GPT-4o, so Brown weiter. Viele Aufgaben erforderten kein komplexes logisches Denken, und in manchen Fällen lohne es sich nicht, auf eine o1-Antwort zu warten, wenn GPT-4o schneller antworten könne.
Anzeige
Ein Grund für die Veröffentlichung von o1-preview, einer abgespeckten Version von 01, sei es, herauszufinden, für welche Anwendungsfälle das Modell besonders geeignet sei und wo noch Verbesserungsbedarf bestehe. Brown räumt ein, dass o1-preview nicht perfekt sei und manchmal selbst bei einfachen Spielen wie Tic-Tac-Toe Fehler mache.
Allerdings zeige o1-preview bei vielen Beispielen, mit denen bisher die Grenzen von Large Language Models (LLMs) aufgezeigt wurden, deutlich bessere Ergebnisse. Die vollständige Version o1 schneide sogar “erstaunlich” gut ab, so Brown.
Mehr Rechenleistung, mehr Denkleistung
Aktuell denke o1 nur wenige Sekunden nach, bevor es antwortet. Zukünftig solle das Modell aber Stunden, Tage oder sogar Wochen über eine Antwort nachdenken können, so die Vision von OpenAI.
Auch wenn dadurch die Kosten für Inferenzen steigen würden, sei dies für bahnbrechende Anwendungen wie die Entwicklung neuer Medikamente oder den Beweis der Riemann-Hypothese gerechtfertigt. “KI kann mehr sein als Chatbots”, betont Brown.
OpenAI hat die Modelle o1-preview und o1-mini mit sofortiger Wirkung via ChatGPT verfügbar gemacht. Darüber hinaus veröffentlicht das Unternehmen Evaluierungsergebnisse für das bisher nicht fertiggestellte o1-Modell.
Empfehlung
Damit wolle man zeigen, dass es sich nicht um eine einmalige Verbesserung handele, sondern um ein neues Paradigma für die Skalierung von KI-Modellen, so Brown. “Wir stehen erst am Anfang.”
O1-mini für MINT-Aufgaben
Neben o1-preview hat OpenAI mit o1-mini eine kostengünstigere Variante des Modells vorgestellt, die speziell für MINT-Anwendungen optimiert ist. o1-mini erzielt bei Mathematik- und Programmieraufgaben nahezu die gleiche Leistung wie o1, ist aber deutlich günstiger. Bei einem Mathematikwettbewerb für Highschool-Schüler erreicht o1-mini beispielsweise 70 Prozent der Punktzahl von o1, während o1-preview nur auf 44,6 Prozent kommt.
Auch bei Programmierherausforderungen auf der Plattform Codeforces schneidet o1-mini mit einem Elo-Wert von 1650 fast so gut ab wie o1 (1673) und deutlich besser als o1-preview (1258). Im Coding-Benchmark HumanEval liegen die o1-Modelle (92,4 % jedoch nur minimal vor GPT-4o (90,2 %).
Aufgrund seiner Spezialisierung auf MINT-Fähigkeiten ist das Faktenwissen von o1-mini in anderen Bereichen laut OpenAI mit kleineren Sprachmodellen wie GPT-4o mini vergleichbar.
ChatGPT Plus- und Team-Nutzer erhalten ab sofort Zugriff auf o1-preview und o1-mini, während Enterprise- und Edu-Nutzer Anfang nächster Woche Zugang erhalten. OpenAI plant, o1-mini auch allen kostenlosen ChatGPT-Nutzern zur Verfügung zu stellen, hat aber noch keinen Veröffentlichungstermin festgelegt.
In der API kostet o1-preview 15 US-Dollar pro 1 Million Eingabetokens und 60 US-Dollar pro 1 Million Ausgabetokens. GPT-4o ist hier mit 5 US-Dollar pro 1 Million Eingabetokens und 15 US-Dollar pro 1 Million Ausgabetokens deutlich günstiger. o1-mini ist für Tier-5-API-Nutzer verfügbar und 80 Prozent günstiger als o1-preview.