Inhalte mit AWS erkennen und mit PDFix taggen

PDFix stellt in seinem Actions Marketplace einen weiteren Docker zur automatischen Erstellung barrierefreier PDF kostenlos zur Verfügung. In dem Referenzprojekt zeigt das Unternehmen auf, wie man sich die Funktion von Amazon Textract zur Erkennung der Inhalte zu nutze machen und die Ergebnisse zur Erstellung der Tags für barrierefreier PDF verwenden kann.

Amazon Textract ist ein Machine-Learning (ML)-Service, der Text, Handschrift, Layoutelemente und Daten aus gescannten Dokumenten extrahiert. Dies geht über die Zeichenerkennung (OCR) hinaus, um spezifische Daten zu identifizieren und zu verstehen. Dabei können vordefinierte oder benutzerspezifische Funktionen verwendet werden, um die Verarbeitung der PDF vollständig zu automatisieren.

„Bei der automatischen Erstellung von barrierefreien PDF kommt es immer auf die korrekte Erkennung und Zuordnung der Inhalte an.“ so Michael Karbe, Geschäftsführer der Actino Software GmbH. „Wenn die Gestaltung der PDF bekannt und immer identisch ist, dann kann mit Templates gearbeitet werden. Wenn man es mit unterschiedlichen Dokumenten zu tun hat, dann bietet sich die Nutzung einer KI zur Layouterkennung an.“

Zielgruppe sind Softwarehersteller und Integratoren, die Lösungen zur automatischen Erstellung von PDF/UA entwickeln und implementieren. Das PDFix SDK bietet die notwendigen Funktionen zur Erstellung der notwendigen Tags auf Basis der Erkennung. Textract ist nur ein möglicher Webservice, mit Paddle oder dem Azure Form Recognizer von Microsoft stehen noch weitere Alternativen zur Verfügung. Die zur Ansteuerung des PDFix SKD notwendigen Funktionen können aus dem Projekt exemplarisch übernommen und als Vorlage für eigene Workflows verwendet werden.

Euskirchen, Februar 2025