Die Newsspalten der Tech-Welt werden derzeit von Künstlichen Intelligenzen bestimmt. Besonders beliebt sind die KIs, die jeder und jede nutzen kann – Chattools oder Bildgeneratoren beispielsweise. Mit Google Gemini greift Google jetzt den Platzhirsch ChatGPT an. Ich möchte Ihnen zeigen, was Gemini kann, wie es funktioniert und was es von anderen KIs unterscheidet.
- Was ist Google Gemini?
- Funktionen: Was kann Google Gemini?
- Auf welchem KI-Modell basiert Google Gemini?
- Gemini Nano, Pro und Ultra: Die verschiedenen Versionen
- Was unterscheidet Google Gemini von anderen Künstlichen Intelligenzen?
- In welchen Produkten soll Gemini verwendet werden?
- Fazit: Google mischt kräftig im KI-Markt mit
Was ist Google Gemini?
Google Gemini ist ein KI-Modell aus dem Hause des US-amerikanischen Tech-Konzerns Alphabet. Ab Dezember 2023 ist es für die breite Masse verfügbar, in Deutschland vermutlich erst in 2024. Es funktioniert ähnlich wie das Konkurrenzprodukt GPT-4 von OpenAI, an dem Microsoft beteiligt ist. Gemini soll als KI-Sprachgenerator allerdings die fünffache Leistung besitzen.
„Enthüllt“ wurden die Pläne erstmals im Frühjahr 2023, als Google-CEO Sundar Pichai auf der Google I/O 2023 die neue ChatGPT-Konkurrenz ankündigte. Zur Entwicklung der KI hat Google zwei seiner Teams zusammengelegt: DeepMind und Brain Team.
Das Ziel dahinter ist eine schnelle(re) Antwort auf das, was der Markt und allen voran OpenAI und damit indirekt Microsoft laufend präsentieren. So kommt Google Gemini GPT-5, dem Nachfolgemodell von GPT-4, zuvor und soll leistungsstärker als GPT-4 sein.
Ob das wirklich stimmt, lässt sich jetzt in 170 Ländern weltweit auf Englisch testen. Anfang Dezember veröffentlichte Google „die ersten Versionen der Gemini-Ära und das erste Ergebnis unserer Vision“, wie Pichai im offiziellen Statement verlauten ließ.
Funktionen: Was kann Google Gemini?
Gemini ist in verschiedenen Versionen und „Stärken“ erhältlich, ganz ähnlich wie PaLM 2 (Pathways Language Model 2), eines der vorherigen KI-Systeme von Google.
Wie die wichtigsten Funktionen von Gemini wirklich funktionieren werden, wird sich herausstellen, sobald das Tool für eine Weile auf dem Markt verfügbar und auch dann auch in anderen Sprachen nutzbar ist.
Multimodaler Ansatz
Google Gemini soll ein vielseitiges KI-Modell werden, dass die menschliche Sprache verstehen und generieren kann. Die sogenannte „multimodale Datenverarbeitung“ soll es möglich machen, Texte, Bilder, Audiodateien, Videos, 3D-Modelle und mehr gleichzeitig über eine Oberfläche zu verarbeiten.
Wichtige Info zu dieser Demo: Google hat mittlerweile zugegeben, dass die Demo bearbeitet ist. „Alle Prompts und -ausgaben in dem Video sind echt und der Einfachheit halber gekürzt“, hat Oriol Vinyals (Co-Entwicklungsleiter von Gemini bei Google DeepMind) eingeräumt. Ganz so schnell und reibungslos wie im Video funktioniert die KI also (noch) nicht.
Das Tool ist trotzdem eine integrierte Suite großer Sprachmodelle (Large Language Models, LLMs), die derzeit von Googles AI-Spezialisten und -Spezialistinnen entwickelt wird. Diese Foundation-Modelle wurden von Anfang an als multimodal konzipiert, um eine Vielzahl von Aufgaben gleichzeitig bewältigen zu können.
Vereinfacht kann ich sagen: Gemini wird nicht nur ein Modell sein, sondern aus mehreren bestehen, die zusammenarbeiten.
Kreative Antworten
Gemini zeichnet sich unter anderem auch durch seine Kreativität aus. Es kann neuartigen Content generieren, der zuvor nicht zwingend in den Trainingsdaten vorhanden sein muss. Das macht Gemini zu einem sehr spannenden Werkzeug für Kreative. Die Ausgaben können dabei nicht nur in Textform, sondern verschiedenen Formaten wie auch Bildern, Audio und mehr geleistet werden.
Auf welchem KI-Modell basiert Google Gemini?
Wenig verwunderlich war Google bislang nicht untätig, was die Entwicklung Künstlicher Intelligenzen angeht. Gemini kommt daher nicht aus dem Nichts – schon zuvor war der US-Tech-Riese mit verschiedenen KI-Modellen wie etwa PaLM aktiv. Gemini basiert jetzt auf der KI AlphaGo, die von DeepMind entwickelt wurde.
Vielleicht erinnern Sie sich auch: Das ist die Künstliche Intelligenz, die als erste 2016 einen Menschen beim komplizierten Spiel „Go“ geschlagen hat. Das kam damals einem Ritterschlag gleich und bis heute gilt AlphaGo dadurch als einer der Platzhirsche im Bereich des maschinellen Lernens (Machine Learning), genauer gesagt des Reinforcement Learnings.
Dieses funktioniert nach dem Trial-and-Error-Prinzip, bei dem ein System lernt, die besten Entscheidungen zu treffen, indem es für positive Handlungen belohnt und für negative bestraft wird. Sie können sich das wie das Trainieren eines Hunds vorstellen.
Zudem basiert Gemini rein physisch-technologisch auf Googles TPUv2-Chips. Aus diesem Umstand kommt die Schätzung der fünffachen Leistungsfähigkeit gegenüber GPT-4, dem neuesten Modell von OpenAI, das unter anderem von ChatGPT genutzt wird. Es ist dadurch schneller und übertrifft laut Googles Angaben andere KI-Modelle in 30 von 32 Benchmark-Tests.
Gemini Nano, Pro und Ultra: Die verschiedenen Versionen im Überblick
Google Gemini wird wie auch PaLM 2 in verschiedenen Stufen erhältlich sein, die unterschiedlich leistungsfähig und dann vermutlich auch preislich abgestuft sind:
- Gemini Ultra: leistungsstärkste Version für hochkomplexe Aufgaben, die allerdings von Google noch unter Verschluss gehalten wird und damit noch nicht verfügbar ist
- Gemini Pro: „normale“ Version für ein breites Publikum und Aufgabenspektrum, die bereits seit Anfang Dezember 2023 als Upgrade in Bard integriert ist, jedoch noch nicht in europäischen Staaten
- Gemini Nano: effiziente Version, die das KI-Modell für Android-Nutzende sowie Entwickelnde verfügbar macht und bereits im Pixel 8 Pro integriert ist
Mehr ist zu den Versionen aktuell noch nicht bekannt.
Was unterscheidet Google Gemini von anderen Künstlichen Intelligenzen?
Google ist, zumindest in Anbetracht dessen, was innerhalb eines Jahres für die breite Masse zugänglich gemacht wurde – ein Stück weit „late to the party“ mit seinem KI-Modell.
ChatGPT, Bing Chat, Claude 2 sowie zahlreiche weitere Tools, die alle auf den OpenAI-KI-Modellen GPT-3.5 und GPT-4 basieren: Es gibt bereits viele KI-Tools auf dem Markt, die als ChatGPT-Alternativen gelten. Und zu diesen Tools in Konkurrenz zu treten, ist das klar formulierte Ziel von Google mit Gemini.
Wie ich weiter oben bereits erwähnt habe, kann Gemini allerdings noch mehr (Multimodalität) und soll leistungsstärker als GPT-4 sein. Trotzdem stellt sich unweigerlich die Frage, wie Gemini im Vergleich mit ChatGPT abschneidet. Interessant ist auch der Vergleich mit dem „alten“ Bard, das auf PaLM 2 basierte, jetzt aber mit Gemini Pro ausgestattet ist.
Ich stelle die Tools kurz in tabellenform gegenüber und gehe dann näher ins Detail:
Gemini | ChatGPT | Bard mit PaLM 2-L | |
Varianten | 3 (Nano, Pro, Ultra) | 2 (Standard, Plus) | 1 |
Verfügbarkeit | Ja (Pro und Nano), in 170 Ländern exkl. der EU und damit Deutschland | Ja, kostenlos und als Plus-Version | Ja, offiziell als „Experiment“ (Beta) |
KI-Modell | Google Gemini | GPT-4 (in der Plus-Version) | PaLM 2 |
Datei-Upload | Ja | Ja (in der Plus-Version) | Ja |
Bildverarbeitung | Ja | Ja (in der Plus-Version) | Ja |
Aktuelle Daten (Internetzugriff) | Ja | Ja (in der Plus-Version) | Ja |
Genauigkeit beim MMLU-Test* | 90 % | 87,3 % | 78,4 % |
Genauigkeit beim MATH-Test** | 53,2 % | 52,9 % | 34,4 % |
* Massive Multitask Language Understanding mit 57 Fragen aus verschiedenen Themengebieten (getestet mit Gemini Ultra) (Google DeepMind)
** Matheaufgaben in fünf Schwierigkeitsstufen und sieben Teilbereichen (getestet mit Gemini Ultra) (BusinessInsider, 2023)
Google Gemini vs. ChatGPT
Es ist nicht einfach, zwei Systeme miteinander zu vergleichen, bei denen eines seit kurzem verfügbar und für den EU- und deutschen Markt noch nicht zugänglich ist.
Eines kann ich jedoch auf alle Fälle bereits jetzt festhalten: Während ChatGPT lange gebraucht hat, um Daten und Dokumente zu verarbeiten, wird das Gemini direkt können. Zumal das bei ChatGPT auch nur in der Plus-Version möglich ist. Das Google-KI-Modell wird also voraussichtlich vielseitiger als ChatGPT, was das folgende Video zeigt:
Google Gemini vs. Bard
Bard galt vor der Einführung von Gemini als ChatGPT-Konkurrenz von Google. Allerdings war die Leistung doch deutlich schwächer, wie meine tabellarische Übersicht weiter oben zeigt. Bard war bisher, basierend auf PaLM 2, auf das Verständnis von Kontext und das Generieren von Chat-ähnlichen Antworten spezialisiert – ähnlich wie ChatGPT.
Es eignete sich also ideal für kontextbewusste Antworten und die Integration in Googles Dienste. Genau das soll „das neue Bard“ mit integrierter Gemini-KI noch deutlich besser machen. Dafür wird übrigens Gemini Pro verwendet, also die mittlere der drei verfügbaren Versionen.
Laut Demis Hassabis (Chef von Google DeepMind) soll Gemini Bard „fortgeschrittenes Denken, Planen, Verstehen und mehr“ beibringen. Gemini ist damit das „größte Upgrade für Bard seit seiner Einführung“.
Anfang nächstes Jahr soll dann auch Bard Advanced eingeführt werden, dass die leistungsstärkste Gemini-Version Ultra nutzen wird. Ob dann auch Kosten für die Nutzung anfallen, ist jedoch noch offen.
In welchen Produkten soll Gemini verwendet werden?
Wie bereits erwähnt, ist Google Gemini Pro ab sofort in über 170 Ländern und Regionen in englischer Sprache verfügbar und kann über Google Bard genutzt werden. Zudem erfolgt eine Integration von Gemini in verschiedene weitere Google-Produkte, allen voran die neuen Pixel-Smartphones des US-Konzerns.
Aus deutscher Sicht gibt es einen Wermutstropfen: Hierzulande ist das neue KI-Modell, wie in der ganzen EU, noch nicht erhältlich. Verschiedenen Quellen zufolge dürfte Gemini allerdings auch bald in Deutschland und weiteren Sprachen nutzbar sein – Experten und Expertinnen rechnen mit Anfang 2024.
Später soll Gemini als Cloud-Produkt für Unternehmen und nicht nur in Bard, sondern weiteren Endkundenprodukten Googles integriert werden. Dazu zählen die Google Suche, der Chrome-Browser und Workspace, wie Google Anfang Dezember 2023 im Rahmen der Veröffentlichung bekanntgegeben hat.
Fazit: Google mischt kräftig im KI-Markt mit
Betrachte ich die Einführung von Google Gemini, wird deutlich, dass Google sich entschlossen hat, seine Präsenz auf dem KI-Markt zu stärken. Vor allem OpenAI und damit auch das daran beteiligte Microsoft haben in den letzten Monaten hier ordentlich vorgelegt.
Gemini, das vor allem in der Ultra-Version mit hoher Leistungsfähigkeit GPT-4 in nichts nachstehen wird, sticht vor allem durch seine multimodale Funktionalität hervor. Das heißt: Das KI-Modell wird verschiedene Datentypen wie Text, Bilder, Audio, Video und 3D-Modelle verarbeiten können.
Spannend ist die geplante Integration in Endkundendienste und die Google-Smartphones – so wird die KI immer stärker in unseren Alltag integriert. Ich bin auf jeden Fall gespannt Google Gemini zu testen, wenn es in Deutschland verfügbar ist.
Titelbild: HubSpot