Mit mehr als zwei Jahrzehnten Erfahrung in der Server- und Mobile-Entwicklung mit bewährter KI- und Machine-Learning-Technologie ist Christoph Henkelmann ein ausgewiesener Experte auf diesem Gebiet.
In dieser Podcast-Episode erklärt uns Christoph, CTO und Mitgründer von DIVISIO, wie die Produktentwicklung eines ChatGPTs und KI-Produkten im Allgemeinen funktioniert, wie die Datensammlung durchgeführt wird und welche Grenzen und Probleme das Tool mit sich bringt. Zudem erfahrt ihr, was es mit den CO2-Emissionen von ChatGPT wirklich auf sich hat und wie diese im Vergleich zu Kreuzfahrtschiffe, Blockchain, Privatjets zu bewerten sind.
Über den Podcast
Digitale Leute Insights ist der Podcast für Passionate Product People. Wir interviewen Top-Produktentwickler aus aller Welt und werfen einen tiefen Blick auf die Tools, Taktiken und Methoden digitaler Professionals und Unternehmen.
Host: Stefan Vosskötter
- In dieser Episode lernt ihr:
- Was KI überhaupt ist — “As soon as it works, no one calls it AI anymore.”
- Wie die Architektur von ChatGPT aufgebaut ist und welche Features es im Vergleich zu klassischer KI-Software aufweist
- Wie die Datenerfassung funktioniert und warum Daten einfach das A&O sind
- Welche Grenzen und Probleme das Tool mit sich bringt
- Wie die Auswirkungen aussehen können und ob OpenAI letztlich als großer Gewinner dasteht
ChatGPT — ein Einblick in die Produktarchitektur
Wie genau darf man sich den Aufbau der Produktarchitektur eines ChatGPTs vorstellen? Wenn Christoph Henkelmann über das Thema spricht, spürt man die langjährige Erfahrung, die ihn zu einem KI-Experten macht. Mit seinem Team von DIVISIO entwickelt er zum Beispiel KI Software für die Deutsche Post AG.
“Das Wichtigste bei allem, Machine Learning allgemein und Deep Learning noch mehr, ist, dass man Daten braucht…Unmengen und Unmengen und Unmengen von Daten.”
Bei einem Produkt wie ChatGPT können wir davon ausgehen, dass es sich um Terabytes oder sogar mehr handelt, und in diesem Fall ist es nur einfacher Text, erklärt Christoph.
Der Produktaufbau eines ChatGPT-Systems besteht dabei aus den folgenden drei Schritten:
Schritt 1: Datenbeschaffung — “crawlen” von Daten im Netz.
90% Geld, Energie, Zeit, Daten, Daten, Daten, Daten, Daten, Daten.”
Schritt 2: Datenbereinigung — Denn beim Crawlen von Websites fallen riesige Datenmengen an, darunter auch unnötige Informationen wie Navigation und Werbung, die bereinigt werden müssen. Dies wird als ETL (Extract Transform Load) bezeichnet. Im Falle von ChatGPT wird eine umfangreiche Infrastruktur vorhanden sein, die sich mit der Bereinigung dieser Datenmengen befasst, um sie im nächsten Schritt trainieren zu können.
Schritt 3: Das Trainieren der Daten — ChatGPT ist, wie der Name schon sagt, eine Variante von GPT, die von der Architektur und der Software her mit der von GPT identisch ist. Das bedeutet, dass ChatGPT quasi ein GPT-3.5 ist, der weiter trainiert wurde, so Christoph.
Wenn wir also ein ChatGPT erhalten möchten, dann muss ein GPT 3.5-System vorliegen, das sozusagen als Grundlage dient. Doch wie funktioniert das genau?
Ausgangspunkt sind Datenberge und das neuronale Netz, GPT als Architektur. Die Initialisierung erfolgt dabei zufällig. Man kann sich das vorstellen wie früher das weiße Rauschen im Fernsehen, erklärt Christoph. Ein neuronales Netz wird anfänglich also nur mit Zufallszahlen gefüllt, und dann beginne ich, diesen Text hineinzugeben, damit ich im nächsten Schritt mit dem Trainieren der Daten beginnen kann.
Und wie erfolgt nun das Trainieren der Daten?
Das Trainieren der Daten ist ein iterativer Prozess. Bei kleinen Netzen dauert es Minuten, bei einem ChatGPT Monate. Im Falle von ChatGPT gehen wir davon aus, dass wir einige hundert oder tausend GPUs für mehrere Wochen oder Monate benötigen.
Anschließend bekommt dieses Netzwerk Text zu sehen und beginnt, Textvorschläge zu machen, genau wie bei einem Handy, wenn man z.B. eine SMS schreibt oder einen Chat führt.
“Hallo Stefan, ich… und dann kommt wahrscheinlich “komme” und wenn ich komme auswähle, kommt meistens “5 Minuten oder so was” als Nächstes, weil das ein üblicher Verlauf ist.”
Und nichts anderes macht GPT. Es ist im Grunde die gleiche Technik wie T-9 früher auf den Nokia Handys — Textvorhersage auf Basis dessen was es bereits vorliegen hat. Beispielsweise einem Wikipedia Text, in dem nützliche Informationen zu einem Thema stehen, erklärt Christoph.
Schlussendlich lernt das GPT-System monatelang und permanent in Schleifen nichts anderes als Text zu vervollständigen — die Kosten hierfür sind immens.
Wie die Qualität des Output-Textes durch den Vergleich mit dem eingegeben Input im GPT-System dann ermittelt wird und wie OpenAI den Prozess ihrer Datensammlung und Trainings gestaltet, erfahrt ihr in dieser Podcast-Episode.
Wie wird jetzt aus dem zugrunde liegenden GPT-System, ChatGPT erschaffen?
Um dies zu tun, gibt es einen Trick: Theoretisch kann GPT schon Dialoge führen, da es diese in seinem Training schon gesehen hat, erläutert Christoph. Und wenn man dem System nun sozusagen eine Dialog-Form vorgibt, dann könnte es schon in trivialer Form einen Chat führen.
Was OpenAI schlussendlich in ausführlicher Fleißarbeit gemacht hat, um ChatGPT zu erschaffen, erklärt Christoph wie folgt: Sie haben erst einmal von GPT, Chatverläufe generieren lassen und sind dann hingegangen und haben vom System auf eine Frage gleich mehrere Antworten erzeugen lassen. Diese Antworten wurden dann wiederum von Menschen bewertet und ein zweites Modell, das sogenannte Teacher-Modell, trainiert. Dieses funktioniert auf einer eigenen KI, die auch Text als Input erhalten, jedoch keinen neuen Text generiert hat, sondern eine Sterne-Bewertung, beispielsweise von 1 bis 10, vornahm.
Warum OpenAI dieses Tandem-Modell aus GPT und Teacher-Modell erschaffen hat, welche Grenzen und Probleme mit ChatGPT auftreten können und weitere spannende Einblicke, zum Beispiel in die Monetarisierung des Tools, erfahrt ihr in unserer neuesten Podcastfolge. Hört gerne rein: Podcast Episode 55 — Christoph Henkelmann, CTO bei DIVISIO über die Architektur und Entwicklungsprinzipien von ChatGPT
Über Christoph Henkelmann
Christoph Henkelmann hat einen Abschluss in Informatik von der Universität Bonn. Er ist derzeit bei DIVISIO, einem KI-Unternehmen aus Köln, tätig, wo er CTO und Mitgründer ist. Bei DIVISIO kombiniert er praktisches Wissen aus zwei Jahrzehnten Server- und Mobile-Entwicklung mit bewährter KI- und ML-Technologie. In seiner Freizeit züchtet er Kakteen, übt Klavier und spielt Videospiele.
Über Stefan Vosskötter
Stefan Vosskötter ist der Gründer von Digitale Leute und Deutsche Startups. Seit 2005 hat er mehrere Internet-Startups gegründet und regelmäßig die Rolle des Product Owners oder Head of Product eingenommen. Mit Digitale Leute geben er und sein Team einen Einblick in die Arbeitsweisen erfolgreicher digitaler Professionals.