Beitrag

© rawintanpin | Adobe Stock

LLMs im Einsatz bei Juristen: Neue Entwicklungen

Große Sprachmodelle (LLMs) wie ChatGPT finden mittlerweile auch bei Juristen großen Anklang und sind bei vielen in deren tägliche Arbeit integriert. So lassen sich etwa lange Akten zusammenfassen, rechtliche Fragen beantworten, Übersetzungen anfertigen sowie Emails und Schriftsätze vorbereiten. Dabei ist insbesondere interessant, welches Modell die besten Ausgaben auf die Eingaben der Nutzer liefert. Die Anzahl an möglichen Kandidaten ist beträchtlich und reicht von großen proprietären Modellen wie ChatGPT (OpenAI) und Gemini (Google) zu Open-Source-Modellen wie Llama (Meta) oder Mistral. Seit den letzten Wochen stehen zwei neue Versionen im Fokus der Aufmerksamkeit: OpenAI’s GPT-4.5 und DeepSeek-R1.

Release ChatGPT-4.5

GPT-4.5 ist das neueste Modell von OpenAI und seit Februar 2025 als Preview verfügbar. Es baut auf den Vorgängermodellen (speziell GPT-4o) auf und wurde darüber hinaus mit zusätzlichen Daten trainiert. Es soll sich dadurch auszeichnen, konversationsfähiger, genauer in den Antworten und emotional intelligenter zu sein. (OpenAI, Introducing ChatGPT-4.5.)

Vorteil: Konversationsfähigkeit

Diese Versprechen decken sich aber nur teilweise mit ersten Erfahrungswerten beim Einsatz als Hilfsmittel – jedenfalls im juristischen Arbeitsalltag. Gerecht wird GPT-4.5 zumindest seiner angepriesenen Konversationsfreude. Es gibt merkbar natürlicheren und klareren Text aus als seine Vorgängerversionen, denen häufig noch anzumerken war, dass eine KI spricht. GPT-4.5 hingegen klingt überzeugend wie ein Mensch. Auch sonst verhält es sich wie ein Mensch: Es stellt aktiv Rückfragen und zeigt sich einfühlsam.

Das macht das Modell für jene Einsatzbereiche attraktiv, in denen es auf genau diese Eigenschaften ankommt. Für Juristen könnte es etwa bei der Mediation eines Konfliktes helfen. Wer sich eine KI als Mediator vorstellt, erwartet von dieser, den hilfesuchenden Parteien gegenüber empfindsam aufzutreten und sie Schritt für Schritt zu einer Lösung zu begleiten. (Wie sich LLMs noch im Herbst 2024 zu dem Thema verhalten haben, können Sie hier lesen: Challenge Mediation und generative KI: Kann ein Large Language Model den Konflikt aus Avengers: Infinity War besser lösen als der Mensch? – JUN Legal GmbH.)

Nachteil: Ungenauigkeiten

Negativ fällt indes auf, dass GPT-4.5 oftmals wichtige Details überspringt, wenn es um eine genaue Antwort geht. Häufig ignoriert es zudem Anweisungen in der Eingabe des Nutzers (= Prompt), z.B. zu einer vorgegebenen Reihenfolge, wie Tatbestandsmerkmale einer Norm nacheinander zu prüfen. Zudem lässt es gefragte Informationen in der Antwort teils ganz aus, etwa bei dem Versuch, eine Liste an Merkmalen aus einer Widerrufsbelehrung zu extrahieren.

GPT-4.5 zeigt sich geeignet für einfache und direkte Fragen, zu denen man wie mit einem Menschen interagieren möchte. Wer sich genauere Antworten mit mehr Tiefgang und Kontext wünscht, sollte beim älteren GPT-4o bleiben.

Release DeepSeek-R1

Ein weiteres Modell, das aktuell viel Aufmerksamkeit auf sich zieht, ist das in China entwickelte DeepSeek-R1. Dieses ist seit Anfang 2025 verfügbar und beeindruckte schon in seinen ersten Tagen mit Benchmarks, in denen es gleichauf war mit den großen etablierten LLMs. Und das, obwohl es angeblich mit weit weniger Daten, Rechenleistung und Zeit entwickelt wurde als die Konkurrenten aus den USA. (Kunzmann, DeepSeek R1: Chinas Antwort auf OpenAI übertrifft alle Erwartungen) Zudem ist DeepSeek in seinem Quellcode zu weiten Teilen frei verfügbar. (Vgl. DeepSeek auf GitHub.) Kritische Stimmen führen an, dass das Modell auf sensible Fragen bezüglich der chinesischen Regierung zurückhaltend reagiert und dass vom Nutzer eingegebene Daten regelmäßig auf Server in China übertragen werden. (dpa, DeepSeek: Große Sicherheitsbedenken gegen chinesische KI (zuletzt abgerufen am: 18.3.2025). Bereits mehrere Länder haben DeepSeek wegen fehlender Compliance mit Datenschutzvorschriften ausgesetzt, so auch Italien wegen möglicher Verstöße gegen die DSGVO, vgl. Tagesschau, Wegen Datenschutzbedenken: Südkorea nimmt DeepSeek aus den App-Stores (zuletzt abgerufen am 18.3.2025).)

Vorteil: logische Einordnung

Technisch handelt es sich bei DeepSeek-R1 um ein sog. Reasoning-Modell (ähnlich ChatGPt-o1). Von anderen Sprachmodellen unterscheidet es sich dadurch, dass es nicht nur Texte verstehen und ausgeben, sondern aus den mitgeteilten Informationen auch logische Schlüsse ziehen kann. Statt menschlichem Sprachfluss steht somit menschliches Problembewusstsein im Vordergrund. Diese Erwägungen decken sich mit ersten Tests: Besser als anderen Modellen gelingt es DeepSeek, komplexe juristische Probleme unter vorgegebene Normen zu fassen und logisch einzuordnen.

Nachteil: Wissen und Extraktion

DeepSeek-R1 tut sich hingegen schwerer darin, Informationen aus einem vorgegebenen Sachverhalt zu erfassen und zu ordnen. Auch bei einfachen Fragen zu spezifisch juristischem Wissen scheitert es öfter. Es eignet sich also für Einsatzbereiche, in denen es auf analytisches Denken und die strukturierte Anwendung von Rechtsnormen ankommt, insbesondere die Entwicklung rechtlicher Argumentationen, die vom Standard abweichen. Weniger geeignet ist es für Aufgaben, die eine präzise Extraktion von Details oder eine flüssige und natürliche Kommunikation erfordern. Für diese Bereiche bleiben Modelle wie GPT-4.5 überlegen.

LLM Benchmark

Solche mit gleichen Aufgaben unter gleichen Bedingungen durchgeführte Praxistests zeigen immer wieder, dass die unterschiedlichen Modelle, und sogar unterschiedliche Versionen desselben Modells, andere Stärken und Schwächen haben. (Nickl, ChatGPT als Rechtsdienstleister? – Praxistest: Rechtsberatende Leistung durch KI am Beispiel eines Softwarekaufvertrags, MMR 2023, 329, 330 ff. zeigt anhand eines Vergleichs von sechs durch ChatGPT-3 erstellten Softwareverträgen, dass sich die Ergebnisse jeweils unterscheiden und einer kritischen Nacharbeit durch einen Juristen bedürfen, gleichwohl jedoch einen soliden Einstieg in eine Aufgabe darstellen können.) Gerade wenn man die LLMs für verschiedene Aufgaben einsetzen möchte, sollte man vorab überlegen, den Zugriff auf unterschiedliche Modelle und Versionen einzurichten und die Aufgabenbereiche voneinander abzugrenzen. Das beobachten wir gerade auch beim Testen von Agentensystemen, bei denen jeder Agent für konkrete Aufgabenstellungen zuständig ist und diese für die Erledigung einzelner Anteile an komplizierten Tasks hintereinandergeschaltet werden.

Allen kritischen Stimmen und bekannten „Big Fails“ zum Trotz zeigen unsere kanzleiinternen Benchmark-Tests bereits eine gute Erfolgsquote für LLMs im juristischen Einsatz. Wir testen dabei neben der Fähigkeit zum Umgang mit deutscher Sprache sowohl reines Wissen aus Multiple-Choice-Fragen als auch die Inhaltsextraktion und juristische Bewertung von Vertragsauszügen. Allerdings beziehen wir uns für die guten Ergebnisse auf LLMs mit großen Parameterzahlen, die bei Quoten von teils über 80 % liegen, wohingegen kleinere Modelle ohne eigene Anpassung teils sogar weniger als 50 % der abgefragten Informationen richtig ausgeben konnten.

Tipp!

Mit mehr Detailtiefe haben wir unsere Erkenntnisse in folgendem Video aufgearbeitet: KI-Modelle: GPT4.5 taugt nicht für Jura und warum DeepSeek für Sicherheit sorgen könnte.

 

Eine umfassende Auswertung verschiedener LLM-Modelle und Versionen anhand standardisierter Aufgaben zeigt, welche LLMs „out of the box“ für den juristischen Einsatz am besten geeignet sind. 

Aktuell befinden wir uns in der finalen Auswertung unseres letzten LLM Benchmark Tests. Die Frage lautet diesmal: Können LLMs out-of-the-box ihnen unbekannte Klausuren des ersten juristischen Staatsexamens mit lediglich inhaltlich-formalistischer Anleitung bestehen? Auch dieses Ergebnis wird natürlich nur eine Momentaufnahme für eine spezifische Aufgabenstellung sein, für uns Juristinnen und Juristen aber dennoch den Stand unserer „Konkurrenz“ in der Ausbildung aufzeigen.

 

Bei diesem Beitrag handelt es sich um einen Auszug aus der ersten Ausgabe des Infobriefs „KI und Digitalisierung: Zur Zukunft des Rechts“, S. 3-5. Mit dem kostenlosen Probeabonnement erhalten Sie die Ausgaben eins und zwei des Infobriefes kostenfrei – erfahren Sie mehr hier: https://www.anwaltverlag.de/rechtsgebiete/rechtsgebiete-von-a-bis-z/berufsrecht/3268/infobrief-ki-und-digitalisierung-zur-zukunft-des-rechts?number=IBKI

Diesen Beitrag teilen

Facebook
Twitter
WhatsApp
LinkedIn
E-Mail

Unser KI-Spezial

Erfahren Sie hier mehr über Künstliche Intelligenz – u.a. moderne Chatbots und KI-basierte…