Alternativen Text in PDF/UA für Bilder automatisch generieren

Die Beschreibung der Bilder (Alternativer Text) ist eine wesentliche Voraussetzung für barrierefreie und PDF/UA-konforme Dokumente. Mit den „Alt-Text“ in PDF-Dokumenten wird sichergestellt, dass die Inhalte inkl. Bilder für eine größere Anzahl von Nutzern barrierefrei zugänglich sind, insbesondere bei Sehbehinderungen, die Lesegeräte für Bildschirme erfordern. Die echten Inhalten eines Bildes müssen genau beschrieben werden, damit die notwendige Informationen werden kann.

Automatisierung durch den Einsatz von künstlicher Intelligenz

Obwohl das „Alt-Text“-Attribut im PDF-Format die Zugänglichkeit des Dokuments verbessern soll, wird es oft nicht sinnvoll eingesetzt. Um kontextrelevanten „Alt-Text“ bereitzustellen, muss jedes einzelne Bild manuell überprüft und eine entsprechende Beschreibung erstellt werden. Dieser Prozess ist sehr zeit- sowie ressourcenaufwändig sein und erfordert damit eine erhebliche Investition in die Erstellung von barrierefreien Inhalten.

Künstliche Intelligenz bietet durch den Einsatz von automatisch generierten Bildbeschreibungen eine potenzielle Lösung, die erstaunlich gute gute Ergebnisse liefert. Die Erstellung von PDF/UA-konformen Dokumenten wird damit erheblich einfacher, schneller und günstiger.

Bildunterschriften erzeugen

Deep Learning hat bemerkenswerte Fortschritte bei der visuellen Erkennung gemacht, die von der Objekterkennung bis zur Verarbeitung natürlicher Sprache reicht. Image Captioning, eine Kombination aus Bild- und Texterkennung, ist ein spezielles Deep-Learning-Modell, welches Bildunterschriften generiert und sich damit auch zur automatischen Generierung von „Alt-Text“ für Bilder eignet.

PDFix hat in Github ein Beispiel für die Aktualisierung von Alternativtexten in einer PDF-Datei mit Hilfe von AI Image Captioning zur Verfügung gestellt: https://github.com/pdfix/pdf-update-image-alt

Um das Image-Captioning-Beispiel zu testen, kann man sich die Ausgabe bei HuggingFace ansehen: https://huggingface.co/nlpconnect/vit-gpt2-image-captioning

Künstliche Intelligenz mit PDFix nutzen

Das SDK von PDFix arbeitet lokal und ermöglicht die Einbindung unterschiedlicher AI Engines. Unternehmen und Organisationen können die geeignete KI einbinden und die gewünschte Prozesse individuell gestalten. „Dies ist ein wichtiger Schritt zur wirtschaftlichen Erstellung barrierefreier Dokumente und der Unterstützung der Standars wie PDF/UA.“ so Michael Karbe, Geschäftsführer Actino Software GmbH.