Beitrag

© sdecoret | Adobe Stock

ChatGPT & DeepSeek – Zwei Sprachmodelle im Vergleich

Zwei große Roboter stehen sich kampfbereit gegenüber. Der linke Roboter trägt die Aufschrift „ChatGPT“, der rechte „deepseek“. Beide haben die Arme erhoben und wirken entschlossen, als wollten sie gegeneinander kämpfen. Zwischen ihnen steht in großen Buchstaben „VS“, also „versus“. Im Hintergrund sind kleinere Roboter zu sehen. Rund um die Szene schweben verschiedene Schreibweisen der beiden Namen wie „CHATGPT“ oder „DEEPEEK“. Das Bild ist in einem comicartigen Schwarz-Weiß-Stil.
Bild: Dr. Sebastian Volk mit ChatGPT-4o

1. ChatGPT

Architektur und Training

ChatGPT ist ein auf generative KI gestütztes Sprachmodell von OpenAI, das auf der Transformer-Architektur basiert, einer grundlegenden Architektur, die auf Attention („Aufmerksamkeit“) fußt und so besonders gute Ergebnisse in Zusammenhängen langer Datensequenzen erzielt. Es wurde mit großen Textmengen aus dem Internet trainiert und durch Reinforcement Learning mit menschlichem Feedback (RLHF) optimiert. Dadurch kann es Texte generieren, Fragen beantworten, komplexe Sachverhalte erklären und in natürlicher Sprache interagieren. (OpenAI, Was ist ChatGPT?, zuletzt abgerufen am 17.3.2025.)

Modelle und Versionen

ChatGPT verfügt über unterschiedliche Modelle mit unterschiedlichen Fähigkeiten (Siehe zu den aktuellen Modellen und Versionen: https://platform.openai.com/docs/models (zuletzt abgerufen am 17.3.2025)):

  • Die Modelle reichen von Standardversionen wie GPT-3.5 bis GPT-4 über die API Versionen GPT-4.5, jetzt bald ersetzt von GPT-4.1, hin zu den o-Reihen (zum Beispiel GPT-o1 und -o3), die je nach Größe und Performance unterschiedliche Schwerpunkte in Geschwindigkeit, Kostenoptimierung und Komplexität setzen, um ein breites Spektrum von Anwendungsfällen effizient abzudecken.
  • Die o-Reihe sind sog. Reasoning-Modelle („Denk-Modell“). Dies sind Sprachmodelle, die speziell optimiert wurden, um komplexe logische Probleme, anspruchsvolle Schlussfolgerungen und Zusammenhänge besonders gut und präzise zu bearbeiten. Solche Modelle können schwierige Aufgaben schrittweise lösen (Chain-of-Thought Reasoning), explizit Zwischenresultate generieren, komplexe logische Abläufe nachvollziehbar machen und Probleme systematisch lösen. (Djeffal, CR 2025, 277, 276) Während GPT-4o für die gängigsten Alltagsfragen gut zu nutzen ist, verfügt bereits das o1-Modell über ein fortgeschrittenes Reasoning für komplexe Problemlösungen. (Einen Vergleich der beiden Modelle bietet Kerner, OpenAI o1 explained: Everything you need to know (zuletzt abgerufen am 17.3.2025))
  • GPT-o1 wurde inzwischen durch das Modell GPT-o3 ersetzt. Dieses soll überlegene Leistungen in Benchmarks in den Bereichen Mathematik, Wissenschaft und Programmierung gezeigt haben. Auch soll o3 über verbessertes visuelles „Denken“ verfügen, weshalb die Ver- und Bearbeitung von Bildern verbessert sein soll.
  • ChatGPT an sich, ist über die Web-App, API und als integrierte Lösung z.B. in Microsoft-Produkten (z.B. Copilot) oder libratech.de verfügbar.

2. DeepSeek

DeepSeek ist ein aufstrebendes chinesisches KI-Modell, das ebenfalls auf der Transformer-Architektur basiert. Es wurde von DeepSeek AI entwickelt und bringt als Besonderheit eine leistungsstarke FOSS Variante mit. (Kunzmann, DeepSeek R1: Chinas Antwort auf OpenAI übertrifft alle Erwartungen (zuletzt abgerufen am 17.3.2025))

Modelle und Architektur

Modelle und Fähigkeiten von DeepSeek:

  • Die Modelle von DeepSeek-V2 und -V3 setzen beide eine Multi-Head Latent Attention (MLA) und Mixture-of-Experts (MoE) Architektur ein und unterscheiden sich im Wesentlichen durch ihre Parameteranzahl. Die Parameteranzahl gibt die Größe des Modells an und kann ein Indikator für dessen Leistungsfähigkeit sein. (DeepSeek-AI, DeepSeek-V: A Strong, Economical, and Efficient Mixture-of-Experts Language Model (zuletzt abgerufen am 17.3.2025); sowie für V3: DeepSeek-AI, DeepSeek-V3 Technical Report (zuletzt abgerufen am 17.3.2025).)
  • MLA hilft dem Modell, mehrere Aspekte oder Bedeutungen eines Satzes gleichzeitig zu erfassen. Es teilt die Aufmerksamkeit des Modells in mehrere „Köpfe“, die parallel unterschiedliche Dinge betrachten und kombinieren können. Dies führt, insbesondere beim Reasoning, zu verbesserten Ergebnissen.
  • MoE bedeutet, dass das Modell nicht aus einem großen neuronalen Netzwerk besteht, sondern mehrere kleinere, spezialisierte Netzwerke („Experten“) nutzt. Jedes kleine Netzwerk erfüllt dabei seine eigene Aufgabe und wird automatisch durch ein Gate (Router) als der passende Experte ausgewählt. Das spart Ressourcen und verbessert die Leistung.
  • Mit DeepSeek-R1 gibt es seit Januar 2025 auch hier ein Reasoning Modell, welches durch Reinforcement Learning, allerdings wohl unüberwacht, trainiert wurde. Das Modell wurde unter der MIT-Lizenz veröffentlicht, wodurch ein breite Nutzung und Weiterentwicklung in der Forschungsgemeinschaft ermöglicht wird. (Siehe dazu die GitHub Seite zu DeepSeek-R1: https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file (zuletzt abgerufen am 17.3.2025).)

Während ChatGPT global führend und wohl das bekannteste Sprachmodell ist und für viele westliche Sprachen optimiert wurde, fokussiert sich DeepSeek stärker auf China und Open-Source-Modelle. Beide KI-Systeme stehen für die rasante Entwicklung in der KI-Landschaft und treiben Innovationen in der natürlichen Sprachverarbeitung voran.

 

Bei diesem Beitrag handelt es sich um einen Auszug aus der ersten Ausgabe des Infobriefs „KI und Digitalisierung: Zur Zukunft des Rechts“, S. 8-9. Mit dem kostenlosen Probeabonnement erhalten Sie die Ausgaben eins und zwei des Infobriefes kostenfrei – erfahren Sie mehr hier: https://www.anwaltverlag.de/rechtsgebiete/rechtsgebiete-von-a-bis-z/berufsrecht/3268/infobrief-ki-und-digitalisierung-zur-zukunft-des-rechts?number=IBKI

Diesen Beitrag teilen

Facebook
Twitter
WhatsApp
LinkedIn
E-Mail

Unser KI-Spezial

Erfahren Sie hier mehr über Künstliche Intelligenz – u.a. moderne Chatbots und KI-basierte…