KI-Modelle können seit Jahren Bilder betrachten und Ihnen sagen, was sie im Bild sehen können, aber mit dem Frühjahrsupdate hat OpenAI die Dinge auf ein neues Niveau gebracht.
Mit der Einführung von GPT-4o in ChatGPT – auch ohne Audio- und Videofunktionalität – hat OpenAI eines der besten KI-Vision-Modelle vorgestellt, die bisher veröffentlicht wurden.
Sein Erfolg ist zum Teil auf die Tatsache zurückzuführen, dass es multimedial ist und ein tieferes Verständnis von Bildern, Video, Audio und Text bietet. Es kann über Bild, Sprache, Video und Text hinweg argumentieren, wobei andere Formen zunächst in Text umgewandelt werden.
Um seine Fähigkeiten zu testen, gab ich ihm eine Reihe von Bildern und bat ihn, zu beschreiben, was er sehen konnte. Je genauer das Modell. Oftmals übersehen KI-Vision-Modelle – einschließlich GPT-4 – ein oder zwei Objekte oder erhalten eine falsche Beschreibung.
GPT-4o-Sehtest
Bei jedem Test erhielt ChatGPT-4o das Bild und die Aufforderung „Was ist das?“ Ohne jeglichen Kontext oder zusätzliche Informationen. Dies entspricht eher der Art und Weise, wie Menschen diese Funktion in der realen Welt nutzen werden und wie ich sie kürzlich bei einer Veranstaltung in Paris genutzt habe.
Das Ziel besteht darin, zu sehen, wie gut das Bild analysiert wird. Ich habe jedes Mal nachgefragt, ob es erkennen kann, ob ein Bild KI-generiert wurde oder nicht. Sie werden alle mithilfe eines Ideogramms aus der von Claude 3 erstellten Beschreibung erstellt – also komplett KI.
Nach den ersten paar Fotos im Gespräch begann er spontan, mir zu sagen, ob das Foto seiner Meinung nach KI-generiert sei oder nicht, ohne dass ich danach fragen musste.
Ich habe mit der ChatGPT-Desktop-App angefangen, aber diese reagierte nicht mehr, also bin ich ins Internet gegangen und es hat gut funktioniert.
1. Objekte erkennen
Für dieses erste Bild habe ich ein Bild einer roten Keramiktasse erstellt, die mit heißem Kaffee gefüllt ist. Es lag auf einem Teller auf einem Holztisch in einem Café, aber das Café war undeutlich zu erkennen. Die Idee besteht darin, zu sehen, wie GPT-4o den Hintergrund und das Szenario interpretiert.
GPT-4o schrieb: „Dieses Bild zeigt eine dampfende Tasse Kaffee in einer roten Tasse und Untertasse, die auf einem rustikalen Holztisch steht. Der Hintergrund ist unscharf und zeigt eine gemütliche Innenumgebung mit Menschen, die in einer Höhle sitzen und sich unterhalten.“ wie ein Café oder ein einzigartiges Interieur mit Steinwänden.“ Der Fokus liegt auf der Tasse Kaffee, wobei der aus dem heißen Getränk aufsteigende Dampf hervorgehoben wird.
Dies ist so genau und beschreibend, wie es nur geht. Selbst das Zeichnen eines Bildes der Szene geht über eine einfache Beschreibung hinaus. Als Scherz fragte ich ihn: „Beschreiben Sie die Gedanken der Person, die mit diesem trinkfertigen Kaffee am Tisch sitzt.“
Sie antwortete mit einem ziemlich beschreibenden Überblick, aber diese Zeile stach heraus: „Dieser Kaffee ist mehr als nur ein Getränk; Es ist ein Ritual, ein geschätzter Moment der Einsamkeit und Besinnung inmitten der Hektik des Alltags.
2. Optische Zeichenerkennung (OCR)
Die optische Zeichenerkennung (OCR) ist eine Technologie, die so alt ist wie die Computertechnik, daher sollte sie für jedes Vision-Modell trivial sein, selbst Smartphones können sie auf dem Gerät ausführen. Ich gab ihr ein einfaches Foto, das eine Nahaufnahme eines alten Holzschilds zeigte, auf dem in handgeschriebenem Vintage-Stil „Willkommen in Oakville“ stand. Ich möchte mehr als nur Text von der KI.
GPT-4o geliefert; Schreiben: „Dieses Foto zeigt ein Schild im Vintage-Look mit der Aufschrift „Willkommen in Oakville“. Das Schild wirkt verwittert und hat eine alte, rustikale Oberfläche, was darauf hindeutet, dass es schon seit einiger Zeit den Elementen ausgesetzt war. Der Text ist in fetter weißer Schrift auf rotem Grund, mit einigen Gebrauchsspuren, die seinen nostalgischen Charme verstärken. Das Schild ist teilweise von Grün umgeben, was darauf hindeutet, dass es möglicherweise draußen angebracht wurde, vielleicht am Eingang einer Stadt oder Gemeinde namens Oakville.
Der Text ließ sich nicht nur korrekt lesen, sondern enthielt auch detailliertere Angaben zum Standort, zur Identifizierung einer möglichen Stadt oder Siedlung und zur Hervorhebung von Einzelheiten des Schildes selbst.
3. Gesichtserkennung
Dies ist ein umstrittener Einsatz der KI-Technologie und in der Europäischen Union teilweise verboten. Aber wie gut kann GPT-4o ein Gesicht beschreiben? Das Bild war eine KI-generierte Darstellung einer Frau in den Vierzigern mit dunklem Haar und warmen braunen Augen. Sie hatte ein freundliches Lächeln.
GPT-4o beschrieb es wie folgt: „Dieses Bild ist eine Nahaufnahme einer lächelnden Frau mit dunklem, lockigem Haar. Der Fokus liegt auf ihrem Gesicht, das gut beleuchtet ist und Details der Hautstruktur und -merkmale zeigt Freundlicher Gesichtsausdruck, und ihre Augen blicken direkt in die Kamera. Der Hintergrund ist unscharf und konzentriert sich auf das Thema.
Ich wollte ein bisschen mehr, auch ab einem gewissen Alter. Ich fragte sie: „Wie alt ist diese Person und wie ist ihr emotionaler Zustand?“ Sie antwortete mit der Tatsache, dass sie Ende 30 bis Anfang 40 sei und sich in einem positiven Geisteszustand befinde, und erklärte: „Der allgemeine Eindruck ist, dass es ihr emotional gut geht und sie sich wahrscheinlich gut und wohl fühlt.“
4. Gefühle offenbaren
Als nächstes wollte ich sehen, wie gut GPT-4o mit dem Bild eines alten Mannes mit traurigem Gesichtsausdruck zurechtkommt. Wird er das einfangen oder nur die Szene beschreiben? Denken Sie daran, dass die einzigen Eingaben „Was ist das?“ und das Bild waren.
GPT-4o hat eine gute Leistung erbracht. Auf dem Foto stand: „Dieses Foto ist ein Foto eines älteren Mannes, der draußen auf einer Bank sitzt, höchstwahrscheinlich in einem Park. Die Beleuchtung deutet darauf hin, dass das Foto während der goldenen Stunde aufgenommen wurde, wobei sanftes Sonnenlicht seinen Gesichtsausdruck hervorhebt.“ nachdenklich, mit einem leichten Hauch von Melancholie oder Kontemplation. Er trägt ein Hemd und eine Jacke mit Kragen, und der Hintergrund ist unscharf, was die Aufmerksamkeit auf den Mann lenkt und gleichzeitig eine angenehme, natürliche Umgebung bietet.
Das KI-Modell tat genau das, was ich mir erhofft hatte: Es beschrieb die Szene und machte Vorschläge dazu, was der Mann in diesem Moment fühlen könnte.
5. Verstehen Sie die Szene
Wie gut ist GPT-4o in der Lage, eine Szene anhand eines Bildes zu beschreiben und Elemente innerhalb der Szene zu identifizieren? Dies ist eine nützliche Fähigkeit, da KI-Modelle zunehmend zur Beschreibung der realen Welt eingesetzt werden. Dies ist eine der Hauptfunktionen des neuen Audiomodus von ChatGPT.
„Dieses Foto zeigt einen lebhaften Bauernmarkt im Freien an einem sonnigen Tag“, kündigte GPT-4o an. „Unter Zelten wurden verschiedene Stände aufgebaut, an denen eine Fülle frischer Produkte, darunter Obst, Gemüse und andere Waren, ausgestellt sind. Stöbern, einkaufen und mit Verkäufern interagieren.“ Der Markt scheint in einer wunderschönen, von Bäumen gesäumten Gegend zu liegen, mit grünem Laub im Hintergrund. Die Atmosphäre wirkt lebendig und gemeinschaftsorientiert, wobei der Schwerpunkt auf lokalen und frischen Produkten liegt.
Nicht viel zu sagen. Er beschrieb das Bild und die Situation genau. Sie haben detailliertere Angaben gemacht, als ich erwartet hatte, und einige der zum Verkauf stehenden Produkte hervorgehoben.
6. Bewertung der Bildqualität
Ich habe Ideogram gebeten, vier nahezu identische Bilder in einem Raster zu erstellen, jedem jedoch eine andere Auflösung oder Kompositionsebene zu geben. Ich wollte sehen, wie GPT-4o das beschreiben würde. Es kann mit dem Grundbild umgehen, aber was ist mit vier davon, jedes etwas anders?
„Das Bild ist eine Sammlung von vier in einem Raster angeordneten Landschaftsfotos, die jeweils einen atemberaubenden Blick auf sanfte Hügel mit grünem Gras und Wildblumen unter einem wolkenverhangenen Himmel zeigen“, schrieb GPT-4o. So weit, ist es gut.
Weiter heißt es: „Das Foto oben links zeigt einen sanften rosa-blauen Himmel mit Farbverlauf, der auf Morgen- oder Abenddämmerung hindeutet, mit Hügeln, die in warmes goldenes Licht getaucht sind und das leuchtend grüne Gras und die gelben und weißen Blumen hervorheben. Das Foto oben rechts zeigt eine ähnliche Szene, aber.“ in gedämpften Tönen, was darauf hindeutet, dass das Bild unten links kühlere Farben und einen klareren blauen Himmel aufweist, was auf Mittag mit sanfterer Beleuchtung schließen lässt. Das Bild unten rechts ist wärmer und gesättigter, mit einem rosa Farbton am Himmel , was an das Licht eines Sonnenuntergangs erinnert Warm Diese Unterschiede in der Beleuchtung und im Farbton veranschaulichen, wie unterschiedliche Tageszeiten und fotografische Techniken die Stimmung und das Erscheinungsbild derselben natürlichen Szene beeinflussen können.
Obwohl sie den Zweck des Rasters aus vier Bildern – den Vergleich der Komposition – nicht verstand, konnte sie jedes einzelne Bild einzeln beschreiben, was beeindruckend war. Sie hat die Fotos tatsächlich selbst verglichen.
7. Erkennung mehrerer Objekte
Schließlich gibt es einen wichtigen Test, ob ein Modell als Barrierefreiheitstool nützlich sein soll – wie gut es Objekte in einer überfüllten Szene erkennt. Gleicher Anspruch wie andere. Das Foto zeigt einen vollgestopften Schreibtisch und ich erwarte, dass er mindestens eine Kleinigkeit herausholt.
GPT-4o schrieb: „Das Foto zeigt einen modernen, organisierten Büroarbeitsplatz mit Blick auf die Stadt, der durch große Fenster im Hintergrund sichtbar ist. Der Schreibtisch ist ordentlich angeordnet und enthält viele Gegenstände, die normalerweise in einer produktiven Arbeitsumgebung zu finden sind, darunter ein Laptop in einem zentralen,.“ Eine Schreibtischlampe aus Metall und eine Kaffeetasse sorgen für eine entspannte und dennoch konzentrierte Atmosphäre. Verstreute Notizbücher und Papiere suggerieren aktives Arbeiten und Notizenmachen, während eine kleine Topfpflanze für einen Hauch von Grün sorgt und möglicherweise für eine persönliche Note sorgt dient als Motivationsquelle. Der Arbeitsplatz ist mit Büroutensilien wie Stiften, Bleistiften und Organizern gefüllt und sorgt für Funktionalität. Die urbane Kulisse der Stadtsilhouette mit modernen Hochhäusern schafft eine dynamische und inspirierende Umgebung.
Es funktionierte. Ich beschloss, nachzufragen und ihn zu bitten, mir die Farbe des Blumentopfs mitzuteilen, und es funktionierte sofort. Also bat ich ihn, meine Brille auf dem Foto zu finden, und er sagte richtig: „Ihre Brille liegt auf dem Schreibtisch rechts neben dem Laptop, auf einem Notebook.“
Zusammenfassung
Jedes Vision-Modell, das ich in der Vergangenheit verwendet habe, hat mindestens einen Fehler gemacht, normalerweise einen schwerwiegenden, wie die falsche Identifizierung eines Objekts oder die Nichtauswahl einer Farbe oder Marke.
GPT-4o erhält jeden dieser Punkte. Der Übergang zu echter Multimodalität hat für OpenAI eine entscheidende Wende gebracht.
Es zeigt auch den potenziellen Wert von Datenbrillen als wahre Zukunft der Dateninteraktion. Vergessen Sie das Smartphone, nutzen wir die Vision, um das Reale und das Digitale zu verschmelzen.
Mehr aus Toms Reiseführer
„Kommunikator. Freiberuflicher Gamer. Absoluter Musik-Nerd. Neigt zu Apathieanfällen. Freundlicher Webspezialist.“
More Stories
Dieses 100-W-GaN-Ladegerät ist dünn und faltbar
Kuo: Das RAM-Upgrade auf 12 GB im nächsten Jahr wird auf das iPhone 17 Pro Max beschränkt sein
Verdansk kehrt endlich zu Call of Duty Warzone zurück und die Fans freuen sich darüber