Inhaltsverzeichnis:
Im vergangenen Monat gab es eine bedeutende Entwicklung im KI-Bereich: OpenAI integrierte sein neuestes Bildgenerierungsmodell direkt in ChatGPT. Die Qualität der generierten Bilder wurde im Vergleich zu früheren Modellen, darunter auch beliebten wie Midjourney, deutlich verbessert. Wenig überraschend sorgte dies insbesondere in der Fotografie-, Illustrations- und Grafikdesign-Community für Aufsehen. Diese neue Technologie scheint potenziell eine noch unbekannte Anzahl von Arbeitsplätzen in einem bereits wettbewerbsintensiven Markt zu gefährden.
Als Fotografen waren wir besonders beeindruckt von der Fähigkeit des neuen Modells, konsistente Ergebnisse in der Produktfotografie zu erzielen, die zuvor eine Herausforderung für KI-Modelle darstellte. Mittlerweile scheint ein einfacher Smartphone-Schnappschuss oft auszureichen, um hochwertige Produktbilder in verschiedenen Umgebungen zu erstellen, ohne dass umfangreiche Vorkenntnisse erforderlich sind. Nach unseren Online-Beobachtungen ist die einzige verbleibende Schwachstelle der KI derzeit möglicherweise die präzise Darstellung komplexer Etiketten mit viel Text.
Über das Experiment
Wir sind von dieser Technologie sehr beeindruckt und haben lange darüber nachgedacht, wie sich dieser rasante Fortschritt auf unsere eigene Arbeit auswirkt. So kamen wir auf die Idee, einen direkten Vergleich zwischen realer Fotografie und dem neuesten Modell von OpenAI anzustellen. Dieser Test ist weder umfassend noch wissenschaftlich angelegt; wir sehen ihn vielmehr als ein unterhaltsames, praktisches Experiment zum eigenen Lernen. Wir wollten sehen, wie weit wir mit der KI kommen.
Um die Sache weniger vorhersehbar und interessanter zu gestalten, haben wir eine recht komplexe Produktaufnahme erstellt, die wir anschließend mit ChatGPT nachstellen wollten. Wir sind keine Experten im Prompten, aber wir wollten uns Zeit nehmen und unser Bestes geben, um ein gutes Ergebnis zu erzielen. Wenn Leser Verbesserungsvorschläge für unseren Prompt haben, freuen wir uns über Ihre Rückmeldung.
Die einzige Bedingung, die wir uns selbst stellten, war, ChatGPT nicht unser eigenes Foto als Referenz zu geben, das wir bereits vor Beginn dieses Prozesses aufgenommen hatten. Es handelt sich um ein echtes Foto, aufgenommen in unserem Studio ohne Photoshop-Bearbeitung. Nur die Kamera, echte Beleuchtung und leichte Bearbeitung in Capture One (unserer bevorzugten Software für Tethered Shooting).
Foto
Beginnen wir also mit dem Experiment. Hier ist zunächst das Bild, das wir nachbilden wollten:

Es zeigt einen „Acqua di Gioia“-Parfümflakon auf einer Spiegelfläche. Während des Shootings wurde der Spiegel um 90 Grad im Uhrzeigersinn gedreht, damit wir Wasser darauf gießen konnten. Aufgrund der Oberflächenspannung blieb das Wasser auf dem Spiegel, sodass wir durch leichtes Bewegen des Flakons Wellen erzeugen konnten. Nach der Aufnahme drehten wir das fertige Bild um 90 Grad gegen den Uhrzeigersinn, um den „flüssigen Spiegel“-Effekt zu erzeugen. Natürlich waren noch ein paar weitere kleine Tricks nötig, aber nichts, was nicht direkt in der Kamera ohne aufwändige Nachbearbeitung möglich gewesen wäre. Zum Vergleich: Die Erstellung dieses Bildes dauerte von Anfang bis Ende etwa 9 bis 10 Stunden.










Arbeiten an der Eingabeaufforderung
Nachdem das Originalfoto fertig war, begannen wir mit der Arbeit an unserer Eingabeaufforderung für ChatGPT. Als Erstes merkten wir, wie schwierig es war, ChatGPT zu erklären, dass der Spiegel vertikal sein sollte und die Flasche aufrecht auf ihrer Wasseroberfläche stehen sollte. Immer wieder schien sich die KI unserer Eingabeaufforderung zu widersetzen und versuchte, die Elemente in einer konventionelleren Komposition anzuordnen. Es war, als hätte sie solche Bilder noch nie zuvor gesehen oder keine ähnlichen Beispiele in ihren Trainingsdaten. Sie hatte Mühe, das Konzept der Flasche auf einer vertikalen Oberfläche zu begreifen. Dies war der frustrierendste Teil des Prozesses. Schließlich gaben wir den vertikalen Spiegel auf und beschlossen, ihn horizontal in der Eingabeaufforderung schweben zu lassen. Unser Plan war dann, das generierte Bild in Photoshop zu drehen und den Hintergrundverlauf anzupassen, um den Himmel korrekt zu simulieren, was einfacher erschien, als gegen die KI zu kämpfen.
Wir haben auch festgestellt, dass die Eingabeaufforderung selbst sehr zeitaufwändig sein kann. Während das Erreichen eines ersten Ergebnisses unglaublich schnell und aufregend sein kann, ist das Vornehmen kleiner, präziser Anpassungen oft das Gegenteil – langsam und mühsam. Ein weiteres Problem ist die Unberechenbarkeit der KI. Manchmal erhält man ein recht gutes Ergebnis, das nur geringfügige Anpassungen benötigt. Doch oft, wenn man versucht, es zu verfeinern, ändert die KI zufällig andere Elemente, die bereits perfekt waren. Je mehr man versucht, sie wieder in einen guten Zustand zu bringen, desto mehr scheint sie die ursprünglichen Anweisungen zu vergessen und sich weiter davon zu entfernen.
Wir haben außerdem versucht, der KI die gleiche Skizze bereitzustellen, die wir im Studio verwendet haben. Das hilft zwar ein wenig bei der Komposition, aber die KI war immer noch mit der Position der Flasche verwirrt. Daher haben wir beschlossen, sie eine normale stehende Flasche ohne Skizze generieren zu lassen.

Nach über einer Stunde Experimentieren haben wir uns für diese Eingabeaufforderung entschieden. Sie führt zu dem Ergebnis, das uns am nächsten kommt.
Erstellen Sie ein hyperrealistisches Bild mit einem Acqua di Gioia-Parfümflakon, der genau in der Mitte eines gewölbten Spiegels mit einem filigranen, kupferfarbenen Metallrahmen steht. Der Spiegel schwebt horizontal (um 90° gedreht) im Mittelrahmen, die reflektierende Oberfläche zeigt nach oben. Die Spiegeloberfläche besteht vollständig aus Wasser und erzeugt anmutige Wellen, die sich in konzentrischen Kreisen ausbreiten. Der Hintergrund ist ein klarer, offener Himmel in sanften, stimmungsvollen Blautönen unter wolkigem, diffusem Licht, das die Szene ohne harte Schatten schmeichelt. Es sind keine weiteren Elemente vorhanden – nur der schwebende Wasserspiegel und der Flakon. Die Farben sollten sanft gedämpft sein, wobei eine analoge Palette mit geringer Sättigung für eine ruhige, atmosphärische Atmosphäre verwendet wird. Integrieren Sie das subtile Zusammenspiel von Licht, Reflexion und Wassertextur, um ein Gefühl surrealer Ruhe zu erzeugen. Referenzbilder: Acqua di Gioia-Flakon, Spiegelform und Rahmenstil.
KI-generiertes Bild
Und hier ist das generierte Bild:

Und das passiert, wenn wir versuchen, die KI zu zwingen, den Spiegel um 90 Grad zu drehen:

Ehrlich gesagt waren wir zwar zuversichtlich, dass das Originalfoto besser und eindrucksvoller sein würde, hatten aber gehofft, dass die KI zumindest für ein spannenderes Experiment etwas Ähnlicheres produzieren würde. Ein erfahrener Souffleur könnte wahrscheinlich ein besseres Ergebnis erzielen, aber die Frage bleibt: Ist sie für ein so spezifisches Konzept tatsächlich effizienter als herkömmliche Fotografie? Effizienz ist schließlich eines der wichtigsten Verkaufsargumente von KI. Wir müssen zugeben, dass wir von der Leistung der KI in diesem Fall enttäuscht waren. Gleichzeitig könnte man argumentieren, dass dieses spezielle, ungewöhnliche Setup nicht der beste Testfall für die Stärken von KI war. Bei einer anderen Art von Aufgabe würde sie wahrscheinlich deutlich besser abschneiden.
Abschluss
Abschließend möchten wir unsere Gedanken zusammenfassen. Wir würden sagen, wenn Sie ein Bild benötigen, das Tausenden bereits existierenden Bildern ähnelt, kann KI enorme Produktivitätssteigerungen bieten. Bei knappem Budget oder sehr begrenzter Zeit oder Ressourcen kann KI in manchen Fällen sogar einen traditionellen Fotografen übertreffen. Wir werden jedoch das Gefühl nicht los, dass KI in ihrem aktuellen Zustand oft eine gewisse Mittelmäßigkeit fördert. Die Ergebnisse wirken oft wie ein Durchschnitt, der aus Millionen von Bildern abgeleitet wurde, mit denen die KI trainiert wurde. Wir vermuten, dass es deshalb so schwierig sein kann, sie dazu zu bringen, etwas wirklich Einzigartiges oder Unkonventionelles zu schaffen – etwas, das sich vom Üblichen unterscheidet.
Die Frage, die uns beschäftigt, ist: Wenn das Erstellen von Bildern so einfach wird und jeder sie erstellt, wie attraktiv bleiben sie dann für die Zielgruppe? Ist die Fähigkeit, sich abzuheben, nicht eines der wertvollsten Vermögenswerte im Marketing wie auch in der Kunst?