Bildbeschreibungen generieren mit Pixtral
Ich erzeuge aus einem RSS Feed für Mastodon Toots. Im RSS Feed sind für die enthaltenen Bilder keine Bildbeschreibungen verfügbar. Die Mastodon Toots sollen dennoch ALT Texte für die Bilder enthalten. Zusätzlich versuche ich irgendwie herauszufinden, wozu LLM nützlich sind und nach der MAGA Machtübernahme in den USA sollte es ein europäisches KI-Modell sein. Da stehen die Modelle von Mistral ziehmlich einsam da.
Disclaimer
Mir ist klar, dass die Generierung von Bildbeschreibungen für Sehbehinderte nicht optimal ist. Für einen automatischen Prozess mit der Alternative ohne Bildbeschreibung ist es für mich eine akzeptable Lösung.
Ausgangslage
- RSS Feed Berlin.de / Aktuelles
- Mastodon Bot Account @berlin_aktuelles
- Code https://codeberg.org/wrdlbrmpft/fedirss
Funktion
- Es wird eine Chat-Verbindung zu „Mistral Pixtral“ augebaut.
- Zusammen mit einem initialen Prompt wird die Teaser-Überschrift und Beschreibung und die Bild-URL übergeben.
- Die erhaltene Beschreibung wird für die Toots als ALT Text für die Bilder genutzt.
Erfahrungen
Die Qualität der Beschreibungen ist sehr wechselhaft. Neben Beschreibungen, die den Teaser und das Bild treffen, tauchen bestimmte Eigenheiten relativ häufig auf:
So enden die Beschreibungen oft in einer Vermutung, beispielsweise „Der Müll wurde vermutlich illegal abgeladen.“, obwohl diese Vermutung im Teaser-Text nicht unterstützt wird.
Bei einigen Bildern frage ich mich, ob Pixtral ein ganz anderes Bild ausgewertet hat. Das trifft auf diesen Teaser zur Berliner Olympiabewerbung zu.
Fehlersuche
Neben den Schwächen des Models kann es auch andere Ursachen geben:
- ungeeigneter initialer Prompt
- Einfluss des Teaser Text-Kontext
- Bild-Qualität
Der initiale Prompt entstand nach mehreren Versuchen und ist:
Erstelle eine Bildbeschreibung für Menschen mit Sehbeinträchtigung im Kontext des Teasers für einen Artikel. Die ersten beiden Teile des Prompts enthalten Titel und Beschreibung des Teasers. Fasse dich kurz und nutze bis zu 30 Worte. Vermeide Vermutungen. Der Text soll keine Einleitung wie zum Beispiel “Bildbeschreibung:” erhalten. Lasse die Beschreibung leer, wenn du das Bild nicht laden oder aus anderen Gründen den Inhalt nicht erkennen kannst.
Den Einfluss des Text-Kontext und der Bild-Qualität habe ich versucht in einem Chat herauszufinden. Es geht um dieses Bild (Original-Größe)
Es ist schon interessant zu sehen, dass 300×225 als Bildgröße nicht reicht, obwohl unsere organische Sicht damit kein Problem hat.