DeepSeek R1 nachgebaut!

DeepSeek R1 nachgebaut!

DeepSeek R1 an der Uni Berkeley nachgebaut!

Eilmeldung: Forscherteam rekonstruiert zentrale Eigenschaften von DeepSeek R1

tl;dr: Ein Forschungsteam unter der Leitung des Doktoranden Jiayi Pan von der renommierten University of California, Berkeley, behauptet, die zentralen Eigenschaften von DeepSeek R1 erfolgreich nachgebaut zu haben. Sollte sich diese Behauptung bestätigen, könnte dies den Markt für KI-Modelle grundlegend verändern. Anwender dürfen sich auf eine wachsende Zahl kostengünstiger Alternativen zu den bisher dominierenden Anbietern wie OpenAI freuen. Gleichzeitig könnten die Turbulenzen an den Aktienmärkten anhalten, da die bisherigen Marktführer – darunter OpenAI und Nvidia – zunehmend unter Druck geraten. Die bisherige Annahme, dass gerade quasi-Monopole entstehen, gerät zunehmend ins Wanken.

Was hat Jiayi Pan / die Uni Berkeley genau gemacht?

Natürlich kann man nicht innerhalb weniger Tage ein komplettes KI-Modell wie DeepSeek R1 nachbauen. Stattdessen hat das Team einen gezielten Ansatz gewählt: Sie untersuchten die zentrale Behauptung von DeepSeek, dass eine alternative Trainingsmethode drastisch weniger Ressourcen erfordert als herkömmliche Verfahren.

Hierfür verwendete das Team eine stark vereinfachte Umgebung: das „Countdown Game“, ein Zahlenspiel, das sich gut für Experimente mit KI-Trainingsmethoden eignet. Als Ausgangspunkt diente eine frei verfügbare, konventionell trainierte KI.

Der entscheidende Schritt war der Unterschied in der Optimierung: Während OpenAI seine Modelle mit menschlichem Feedback weiter verbessert (Reinforcement Learning from Human Feedback, RLHF), setzte das Berkeley-Team auf eine automatisierte Kontrolle der Antworten – eine Methode, die als Reinforcement Learning with Proximal Policy Optimization (RL PPO) bekannt ist. Der „teuere“ Arbeitsschritt beim Training, das Einbinden der menschlichen Urteilskraft, wurde auf diese Weise umgangen.

Die Behauptung von DeepSeek ist: RL-PPO (also automatische Bewertung) liefert ähnlich gute Ergebnisse wie RLHF (menschliche Bewertung der Ergebnisse). Dass das Ganze für ein einfaches Zahlenspiel gut funktioniert, wie die U Berkeley gezeigt hat, ist theoretisch jedenfalls interessant.

Ob es eine Verallgemeinerung auf allgemeine Sprach-KI-Anwendungen zulässt, ist noch nicht klar.

Bisher wurden über R1 aus der Praxis gemischte Ergebnisse gemeldet. Es bleibt spannend.

Josef Dietl

Josef Dietl ist ein visionärer Technologie-Unternehmer und KI-Experte und zeichnet sich durch seine pragmatische Herangehensweise bei der Implementierung von KI-Lösungen aus. Als Mitgründer von Denke Digital verbindet er fundiertes technisches Know-how mit einem ausgeprägten Verständnis für die Bedürfnisse mittelständischer Unternehmen. Mit seinem Fokus auf der praktischen Umsetzung innovativer Ideen im Bereich der Künstlichen Intelligenz treibt er mit Christian Jarolim die digitale Transformation voran.

Adventkalender 2024

Bevorzugt informiert

Sie werden über DENKE DIGITAL UPDATE mit aktuellen Einblicken in KI-Entwicklungen, Interviews mit führenden Experten, praxisnahen Analysen technologischer Trends und kritischen Reflexionen über die Auswirkungen künstlicher Intelligenz bevorzugt informiert.

Wir verstehen KI nicht als abstraktes technisches Konzept, sondern als lebendige Technologie, die konkrete Lösungen für gesellschaftliche Herausforderungen bietet. Unsere Meldungen gehen über bloße technische Daten hinaus – wir beleuchten menschliche Geschichten hinter den Algorithmen, analysieren ethische Dimensionen und zeigen praktische Anwendungen für unser berufliches und privates Leben.

Begleiten Sie uns und entdecken Sie, wie KI unsere Zukunft gestaltet – fundiert, verständlich und immer am Puls der Zeit.

Melden Sie sich hier an

Link zur Anmeldeseite

Wir verwenden für unsere Updates den in Deutschland beheimateten Newsletter-Dienstanbieter Rapidmail. Sehen Sie dazu auch unsere Datenschutzerklärung.



Denke Digital
Nach oben scrollen