„
Thomas Wolf von Hugging Face sagt, dass es immer schwieriger wird zu sagen, welches KI-Modell das beste ist, da herkömmliche KI-Benchmarks gesättigt werden. Wolf sagte, dass die KI-Industrie in Zukunft auf zwei neue Benchmarking-Ansätze zurückgreifen könnte: agenturbasiert und nutzungsspezifisch.
Thomas Wolf, Mitbegründer und Chef-Wissenschaftler bei Hugging Face, glaubt, dass wir möglicherweise neue Möglichkeiten brauchen, um KI-Modelle zu messen.
Wolf sagte dem Publikum auf der Brainstorm AI in London, dass es mit zunehmend fortschrittlichen KI-Modellen immer schwieriger werde zu sagen, welches am besten performt.
„Es wird schwer zu sagen, welches das beste Modell ist“, sagte er und verwies auf die geringfügigen Unterschiede zwischen den neuesten Veröffentlichungen von OpenAI und Google. „Sie scheinen alle tatsächlich sehr nah beieinander zu liegen.“
„Die Welt der Benchmarks hat sich stark entwickelt. Früher hatten wir diesen sehr akademischen Benchmark, auf dem wir hauptsächlich das Wissen des Modells gemessen haben – ich denke, der berühmteste war MMLU (Massive Multitask Language Understanding), bei dem es sich im Grunde um eine Reihe von Fragen auf Graduate- oder Doktoratsniveau handelte, die das Modell beantworten musste“, sagte er. „Diese Benchmarks sind jetzt größtenteils gesättigt.“
Im Laufe des letzten Jahres gab es einen wachsenden Chor von Stimmen aus der Akademie, der Industrie und der Politik, die behaupten, dass gängige KI-Benchmarks wie MMLU, GLUE und HellaSwag gesättigt sind, manipuliert werden können und nicht mehr den realen Nutzen widerspiegeln.
In einer im Februar veröffentlichten Studie haben Forscher des Joint Research Centre der Europäischen Kommission ein Papier mit dem Titel „Können wir KI-Benchmarks vertrauen? Eine interdisziplinäre Überprüfung aktueller Probleme bei der KI-Bewertung“ veröffentlicht, in dem „systematische Mängel in den aktuellen Benchmarking-Praktiken“ festgestellt wurden – einschließlich falscher Anreize, Missverhältnissen bei der Konstruktvalidität, Manipulation von Ergebnissen und Datenkontamination.
Wolf sagte, dass die KI-Industrie ab 2025 auf zwei Haupttypen von Benchmarks setzen sollte: einen zur Bewertung der Handlungsfähigkeit der Modelle, bei dem von LLMs erwartet wird, Aufgaben zu erledigen, und den anderen, der auf jeden Anwendungsfall zugeschnitten ist.
Hugging Face arbeitet bereits an Letzterem.
Das neue Programm des Unternehmens, „Your Bench“, zielt darauf ab, Benutzern dabei zu helfen, zu bestimmen, welches Modell für eine bestimmte Aufgabe verwendet werden soll. Benutzer geben ein paar Dokumente in das Programm ein, das dann automatisch einen spezifischen Benchmark für die Art der Arbeit generiert, den Benutzer auf verschiedene Modelle anwenden können, um zu sehen, welches am besten für den Anwendungsfall geeignet ist.
„Nur weil diese Modelle alle gleich gut bei diesem akademischen Benchmark abschneiden, bedeutet das nicht wirklich, dass sie alle genau gleich sind“, sagte Wolf.
Open-Source ‚ChatGPT Moment‘
Gegründet von Wolf, Clément Delangue und Julien Chaumond im Jahr 2016, war Hugging Face schon lange ein Verfechter von Open-Source-KI.
Häufig als das GitHub des maschinellen Lernens bezeichnet, bietet das Unternehmen eine Open-Source-Plattform, die es Entwicklern, Forschern und Unternehmen ermöglicht, maschinelles Lernen Modelle, Datensätze und Anwendungen im großen Maßstab zu erstellen, zu teilen und bereitzustellen. Benutzer können auch Modelle und Datensätze durchsuchen, die von anderen hochgeladen wurden.
Wolfe sagte dem Publikum von Brainstorm AI, dass das „Geschäftsmodell von Hugging Face wirklich im Einklang mit Open Source“ sei und das Ziel des Unternehmens sei es, die maximale Anzahl von Menschen zur Teilnahme an dieser Art von offener Community zu bewegen und Modelle zu teilen.“
Wolf prognostizierte, dass Open-Source-KI weiterhin florieren werde, insbesondere nach dem Erfolg von DeepSeek Anfang dieses Jahres.
Nach seinem Start Ende letzten Jahres sorgte das chinesische KI-Modell DeepSeek R1 für Aufsehen in der KI-Welt, als Tester herausfanden, dass es amerikanische geschlossene KI-Modelle ebenbürtig oder sogar übertreffen konnte.
Wolf sagte, dass DeepSeek ein „ChatGPT-Moment“ für Open-Source-KI war.
Dieser Artikel wurde ursprünglich auf Fortune.com veröffentlicht.
„