PDFlib TET 5 und TET PDF IFilter 5

PDFlib TET extrahiert Text, Bilder, Metadaten und andere Elemente aus PDF-Dokumenten für eine Wiederverwendung der Inhalte. Mit der aktualisierten Version PDFlib TET 5 gibt es neben neuen Funktionen auch eine Änderung bei der Produktbezeichnung, denn aus dem »Text Extraction Toolkit« wurde das »Text and Image Extraction Toolkit«.

Diese Umbenennung trägt den umfangreichen Verbesserungen bei der Extraktion von Rasterbildern Rechnung. TET bietet in der Version 5 viele signifikante funktionale Erweiterungen, vor allem in folgenden Bereichen:

Textextraktion

  • Abfragen von Füll- und Linienfarbe des Textes,
  • verbesserte Layout-Erkennung

Bildextraktion

  • verbessertes Zusammensetzen fragmentierter Rasterbilder,
  • Extraktion von Bildmasken und Transparenzmasken

Seitenverarbeitung

  • Berücksichtigung von Ebenen und Beschneidungspfaden

TETML-Inhalt

  • Ausgabe von Füll- und Linienfarbe der Glyphen,
  • Details zu Farbraum und ICC-Profilen,
  • mehrere neue pCOS-Pseudo-Objekte

Die neue Version PDFlib TET PDF IFilter 5 (Enterprise PDF Search für Windows) ist ebenfalls verfügbar. TET PDF IFilter extrahiert Text und Metadaten aus PDF-Dokumenten, um sie Retrieval-Produkten und Suchmaschinen unter Windows zugänglich zu machen.