Gemini 3 im juristischen Staatsexamen: Wenn das Update zum Downgrade wird

Zweimal in diesem Jahr überschlugen sich die LinkedIn Beiträge mit Lobpreisungen eines neuen LLM-Modells. Zuletzt hieß es im November, dass mit Gemini in Version 3 alles besser und schneller wird. Grund genug für uns, einmal mehr eine unserer Klausuren für das erste juristische Staatsexamen heranzuziehen, um eine Neuauflage des LLM-Benchmarktests durchzuführen. (Hierzu wurde bereits in der kostenfreien Leseprobe dieses Infobriefs in der Rubrik „Thema im Fokus“ „LLMs im Einsatz bei Juristen: Neue Entwicklungen“ berichtet, zuletzt abgerufen am 4.1.2026.) Dabei bekommen verschiedene Sprachmodelle „out-of-the-box“ den Auftrag, eine Klausurlösung zum selben Sachverhalt zu erstellen. Der Prompt gibt dabei formale Anweisungen beispielsweise zum Gutachtenstil, enthält jedoch keine inhaltliche Hilfestellung zum Sachverhalt.

LLM-Benchmark: Gemini 2.5 pro experimental siegte

Das Resultat unseres ersten Tests war erstaunlich klar: Ein Modell, Gemini 2.5 pro experimental, deklassierte die Konkurrenz. Mit Bewertungen, die von menschlichen Korrektoren im befriedigenden bis vollbefriedigenden Bereich (7 bis 9 Punkte) angesiedelt wurden, bewies es eine beeindruckende juristische Tiefe und strukturelle Sauberkeit. Modelle anderer Anbieter, wie ChatGPT-4o, waren knapp in der Lage zu bestehen, aber an die Leistung des damaligen Testsiegers reichte keiner der Kandidaten heran. (Detaillierte Informationen zu den Benchmarks und den Testergebnissen können hier abgerufen werden: LinkedIn | Chan-jo Jun (1), LinkedIn | Chan-jo Jun (2), jeweils zuletzt abgerufen am 4.1.2026.)

In der schnelllebigen Welt der künstlichen Intelligenz sind einige Monate eine halbe Ewigkeit. Daher war die Erwartungshaltung hoch, als Gemini seine neue Version veröffentlicht hatte. Allerdings fiel das Ergebnis, um es vorwegzunehmen, überraschend und vor allem ernüchternd aus.

Gemini 3: Schneller, aber nicht besser

Für den neuen Testdurchlauf probierten wir Gemini 3 in den Modi „Thinking“, „Pro“, „Fast“ und „Flagship“ aus, die jeweils unterschiedliche Schwerpunkte setzen. (Detaillierte Informationen zu dem aktuellen Testdurchlauf können hier abgerufen werden, zuletzt abgerufen am 4.1.2026.) Eine erste Beobachtung war die signifikant höhere Geschwindigkeit. Das „Thinking“ Modell, das ja darauf ausgelegt ist, besonders intensiv „nachzudenken“, benötigte zum Beispiel rund 90 Sekunden für die vollständige Bearbeitung eines Prompts, dabei entfielen circa 20 Sekunden auf das Nachdenken. Das erscheint auf den ersten Blick wie ein Effizienzgewinn.

Allerdings ging diese Beschleunigung offenbar zulasten der Sorgfalt und Prompt-Treue – genau jener Disziplinen, in denen Gemini 2.5 pro zuvor so brillant abschnitt. Wo das alte Modell den Anweisungen unseres sehr detaillierten Prompts (Rollenbeschreibung, Erläuterung des Gutachtenstils, Vorgabe ausführlicher Formulierungen etc.) akribisch folgte, hielt sich die neue Modellversion nicht mehr so genau an den Auftrag.

Interessanterweise spiegelte sich dieser Qualitätsverlust nicht in der maschinellen Selbstkorrektur wider. Die KI-Korrektoren (Gemini 2.5 pro und GPT-4.1 mit angepasster Temperatur) bewerteten die Leistung von Gemini 3 mit 8 beziehungsweise 6 Punkten weiterhin hoch. Doch der menschliche Korrektor, ein erfahrener Jurist, kam zu einem völlig anderen Urteil.

Menschliches Urteil: Mehr Tiefen als Höhen

Mit 4 Punkten wurde die Leistung als gerade noch ausreichend, aber eben auch mit großen Lücken, bewertet. Die Analyse des Korrektors ist hart:

Fehlende Schwerpunktsetzung: Die Klausur hatte in Teil 1 eine Finesse mit einer Inzident-Prüfung von Ansprüchen, die ein guter Bearbeiter erkennen und herausarbeiten muss. Gemini 3 übersah diesen zentralen Punkt vollständig und demonstrierte damit ein mangelndes dogmatisches Verständnis im Kauf- und Werkvertragsrecht. Relevante Probleme, wie die detaillierte Ausarbeitung zum Sachmangel, wurden nur oberflächlich gestreift.
Mangelhafter Gutachtenstil: Die Subsumtionstechnik, das Herzstück juristischer Falllösung, wurde nicht durchgängig eingehalten. Normenketten wurden unsauber und unvollständig zitiert. Der Aufbau der Prüfung entsprach nicht der geforderten Struktur einer Gutachtenklausur.

Einzig der vierte Teil der Klausur, in dem reines Wissen abgefragt wurde, gelang dem Modell deutlich besser. Dies legt den Schluss nahe, dass die Fähigkeit zur reinen Wissensreproduktion zwar vorhanden ist, es sich aber eben nicht um strukturiertes, problemorientiertes Denken und Analyse handelt, die entscheidenden juristischen Kernkompetenzen. Diese Erkenntnis wurde jüngst bestätigt. In einem aktuellen LLM-Benchmarktest wurden verschiedene große Sprachmodelle in vier Kategorien untersucht. Allen Kategorien war gemeinsam, dass kein methodisches juristisches Arbeiten verlangt wurde.

Stattdessen wurden zum einen Kenntnisse zu gerichtlichen Leitsätzen sowie Fragen aus Literatur und Rechtsprechung abgeprüft, wobei es sich jeweils um Multiple-Choice-Fragen handelte. Zum anderen wurde das tatsächliche Kenntnisniveau von Gesetzestexten getestet, indem die Modelle den korrekten Gesetzeswortlaut wiedergeben mussten. Schließlich wurde auch das „Rechtsgefühl“ überprüft, indem untersucht wurde, ob das jeweilige LLM aus fünf Entscheidungsoptionen zu einem Sachverhalt und der daraus resultierenden Rechtsfrage dieselbe Entscheidung traf wie das Gericht. In diesem Benchmark belegten Gemini-3-Pro und Gemini-3-Flash jeweils den ersten Platz. (Für eine ausführliche Darstellung des Benchmarks sowie der angewandten Methodik siehe https://www.wostehtdas.de/benchmark/, zuletzt abgerufen am 10.1.2026.)