Bildbeschreibungen generieren mit Pixtral
Ich erzeuge aus einem RSS Feed für Mastodon Toots. Im RSS Feed sind für die enthaltenen Bilder keine Bildbeschreibungen verfügbar. Die Mastodon Toots sollen dennoch ALT Texte für die Bilder enthalten. Zusätzlich versuche ich irgendwie herauszufinden, wozu LLM nützlich sind und nach der MAGA Machtübernahme in den USA sollte es ein europäisches KI-Modell sein. Da stehen die Modelle von Mistral ziehmlich einsam da.
Disclaimer
Mir ist klar, dass die Generierung von Bildbeschreibungen für Sehbehinderte nicht optimal ist. Für einen automatischen Prozess mit der Alternative ohne Bildbeschreibung ist es für mich eine akzeptable Lösung.
Ausgangslage
- RSS Feed Berlin.de / Aktuelles
- Mastodon Bot Account @berlin_aktuelles
- Code https://codeberg.org/wrdlbrmpft/fedirss
Funktion
- Es wird eine Chat-Verbindung zu „Mistral Pixtral“ augebaut.
- Zusammen mit einem initialen Prompt wird die Teaser-Überschrift und Beschreibung und die Bild-URL übergeben.
- Die erhaltene Beschreibung wird für die Toots als ALT Text für die Bilder genutzt.
Erfahrungen
Die Qualität der Beschreibungen ist sehr wechselhaft. Neben Beschreibungen, die den Teaser und das Bild treffen, tauchen bestimmte Eigenheiten relativ häufig auf:
So enden die Beschreibungen oft in einer Vermutung, beispielsweise „Der Müll wurde vermutlich illegal abgeladen.“, obwohl diese Vermutung im Teaser-Text nicht unterstützt wird.
Bei einigen Bildern frage ich mich, ob Pixtral ein ganz anderes Bild ausgewertet hat. Das trifft auf diesen Teaser zur Berliner Olympiabewerbung zu.
Fehlersuche
Neben den Schwächen des Models kann es auch andere Ursachen geben:
- ungeeigneter initialer Prompt
- Einfluss des Teaser Text-Kontext
- Bild-Qualität
Der initiale Prompt entstand nach mehreren Versuchen und ist:
„Du sollst eine Bildbeschreibung für Menschen mit Sehbeinträchtigung erstellen. Das Bild ist Teil eines Teasers. Du erhälst eine Anfrage in mehreren Teilen. Der ersten beiden Teile enthalten den Titel und Beschreibung des Teasers. Der letzte Teil enthält den URL des Teaserbildes. Beschreibe das Bild mit bis zu 30 Worten im Kontext des Teasers. Fasse dich möglichst kurz.“
Den Einfluss des Text-Kontext und der Bild-Qualität habe ich versucht in einem Chat herauszufinden. Es geht um dieses Bild (Original-Größe)
Es ist schon interessant zu sehen, dass 300×225 als Bildgröße nicht reicht, obwohl unsere organische Sicht damit kein Problem hat.