Bildbeschreibungen generieren mit Pixtral

Ich erzeuge aus einem RSS Feed für Mastodon Toots. Im RSS Feed sind für die enthaltenen Bilder keine Bildbeschreibungen verfügbar. Die Mastodon Toots sollen dennoch ALT Texte für die Bilder enthalten. Zusätzlich versuche ich irgendwie herauszufinden, wozu LLM nützlich sind und nach der MAGA Machtübernahme in den USA sollte es ein europäisches KI-Modell sein. Da stehen die Modelle von Mistral ziehmlich einsam da.

Disclaimer

Mir ist klar, dass die Generierung von Bildbeschreibungen für Sehbehinderte nicht optimal ist. Für einen automatischen Prozess mit der Alternative ohne Bildbeschreibung ist es für mich eine akzeptable Lösung.

Ausgangslage

RSS Feed Berlin.de / Aktuelles
Mastodon Bot Account @berlin_aktuelles
Code https://codeberg.org/wrdlbrmpft/fedirss

Funktion

Es wird eine Chat-Verbindung zu „Mistral Pixtral“ augebaut.
Zusammen mit einem initialen Prompt wird die Teaser-Überschrift und Beschreibung und die Bild-URL übergeben.
Die erhaltene Beschreibung wird für die Toots als ALT Text für die Bilder genutzt.

Erfahrungen

Die Qualität der Beschreibungen ist sehr wechselhaft. Neben Beschreibungen, die den Teaser und das Bild treffen, tauchen bestimmte Eigenheiten relativ häufig auf:

So enden die Beschreibungen oft in einer Vermutung, beispielsweise „Der Müll wurde vermutlich illegal abgeladen.“, obwohl diese Vermutung im Teaser-Text nicht unterstützt wird.

Bei einigen Bildern frage ich mich, ob Pixtral ein ganz anderes Bild ausgewertet hat. Das trifft auf diesen Teaser zur Berliner Olympiabewerbung zu.

Fehlersuche

Neben den Schwächen des Models kann es auch andere Ursachen geben:

ungeeigneter initialer Prompt
Einfluss des Teaser Text-Kontext
Bild-Qualität

Der initiale Prompt entstand nach mehreren Versuchen und ist:

„Du sollst eine Bildbeschreibung für Menschen mit Sehbeinträchtigung erstellen. Das Bild ist Teil eines Teasers. Du erhälst eine Anfrage in mehreren Teilen. Der ersten beiden Teile enthalten den Titel und Beschreibung des Teasers. Der letzte Teil enthält den URL des Teaserbildes. Beschreibe das Bild mit bis zu 30 Worten im Kontext des Teasers. Fasse dich möglichst kurz.“

Den Einfluss des Text-Kontext und der Bild-Qualität habe ich versucht in einem Chat herauszufinden. Es geht um dieses Bild (Original-Größe)

Chat …

Du sollst eine Bildbeschreibung für Menschen mit Sehbeinträchtigung erstellen. Das Bild ist Teil eines Teasers. Du erhälst eine Anfrage in mehreren Teilen. Der ersten beiden Teile enthalten den Titel und Beschreibung des Teasers. Der letzte Teil enthält den URL des Teaserbildes. Beschreibe das Bild mit bis zu 30 Worten im Kontext des Teasers. Fasse dich möglichst kurz.
Senat erteilt für ein Jahr keine neuen Taxengenehmigungen

<div style="overflow:hidden"><img src="https://www.berlin.de/binaries/asset/image_assets/8997159/ratio_4_3/300x225/" alt="Berliner Taxis" title="Seit Anfang Juni gibt es in Berlin auch für Taxifahrten Festpreise - und die erste Bilanz fällt positiv aus. (Archivfoto)" style="float:left; margin-right:0.3em; margin-bottom:0.3em"/>Der Senat sieht in Berlin ein &Uuml;berangebot an Taxen. Die Unternehmen k&ouml;nnten den Dienst kaum noch wirtschaftlich betreiben. Deshalb sollen nun zun&auml;chst keine neuen Fahrzeuge hinzukommen.</div>

https://www.berlin.de/binaries/asset/image_assets/8997159/ratio_4_3/300x225/

Das Teaserbild zeigt ein typisches gelbes Berliner Taxi auf einer Straße, erkennbar am weißen Schriftzug „Taxi“ und dem Berliner Wappen. Das Fahrzeug steht bereit, symbolisiert das aktuelle Überangebot und die Diskussion um neue Genehmigungen.
Kann ich dir noch weiterhelfen?

Wie viele Taxis sieht du?

Auf dem Bild ist ein gelbes Berliner Taxi zu sehen.

Wie würdest du das Bild beschreiben, wenn du nicht den Text Kontext hättest?

Ein gelbes Auto mit dem weißen Aufdruck „Taxi“ und dem Berliner Wappen steht auf einer Straße, vermutlich in einer Stadt. Das Fahrzeug wirkt bereit zur Fahrt.

(Wieder die Vermutung am Ende!)

Ich sehe eine lange Reihe von wartenden Taxis

Vielen Dank für den Hinweis! Da ich auf dem Bild nur ein einzelnes Taxi erkennen konnte, könnte es sein, dass die Miniaturansicht oder der Ausschnitt nicht die gesamte Szene zeigt. Wenn du eine Reihe von wartenden Taxis siehst, würde ich die Beschreibung wie folgt anpassen:
“Mehrere gelbe Berliner Taxis mit dem weißen Schriftzug ‚Taxi‘ und dem Berliner Wappen stehen in einer Reihe auf einer Straße, bereit für Fahrgäste.”
Falls du möchtest, kann ich versuchen, das Bild genauer zu analysieren oder weitere Details zu klären. Lass es mich wissen!

Betrachtest du nur einen Bildausschnitt?

Ja, genau. Ich sehe nur den spezifischen Bildausschnitt, der über die URL bereitgestellt wurde. Dieser zeigt ein einzelnes gelbes Berliner Taxi. Falls du eine längere Reihe von Taxis siehst, könnte das Originalbild breiter oder aus einem anderen Blickwinkel aufgenommen sein.
Möchtest du, dass ich versuche, das Originalbild oder eine größere Version zu finden, um eine genauere Beschreibung zu geben?

Das Bild an der URL zeigt die Reihe der wartenden Taxis. Aber probieren wir es mit der Originalgröße: https://www.berlin.de/binaries/asset/image_assets/8997159/source/0x0/

Danke für den Hinweis! Basierend auf der Originalgröße des Bildes hier die präzisere Beschreibung:
Mehrere gelbe Berliner Taxis mit dem weißen „Taxi“-Schriftzug und dem Berliner Wappen stehen in einer Reihe auf einer Straße, bereit für Fahrgäste.
Das Bild vermittelt den Eindruck eines typischen Taxistands in Berlin.

Gibt es eine mindestgröße für Bilder, damit du sie optimal beschreiben kannst?

Ja, für eine optimale Beschreibung von Bildern – besonders wenn es um Details wie Objekte, Personen oder komplexe Szenen geht – sind folgende Punkte hilfreich:
Auflösung: Mindestens 800x600 Pixel, besser 1200x800 Pixel oder höher.
Dateigröße: Keine strikte Mindestgröße, aber Bilder unter 50 KB sind oft stark komprimiert und verlieren Details.
Format: Klare, unkomprimierte Formate wie JPEG (hohe Qualität) oder PNG sind ideal.
Warum?
Kleinere oder stark komprimierte Bilder können unscharf sein, sodass Details wie Gesichter, Texte oder kleine Objekte schwer erkennbar sind. Bei großen, hochauflösenden Bildern kann ich präzisere Beschreibungen liefern.
Falls du ein Bild hast, das du beschrieben möchtest, lass es mich wissen – ich helfe gern!

Es ist schon interessant zu sehen, dass 300×225 als Bildgröße nicht reicht, obwohl unsere organische Sicht damit kein Problem hat.