PDF/UA Splitting

Wofür braucht man das?

Monetarisierung durch Verkauf von Einzelkapiteln

  • Erstellung von Gesamt- und Kapitel-PDFs im Produktionsworkflow
  • Aufarbeitung von Bestandsdaten

Im Produktionsworkflow

  • Alternative: Erstellung von Einzel-PDFs
  • Hoher manueller Aufwand: Einzel-Export in InDesign
  • Hoher Zeitbedarf bei Titeln mit großen Datenmengen
  • Komplexität durch Verweise in andere Kapitel
  • Prüfungen und automatische Nachbearbeitung an vielen Objekten erforderlich

Entfernen und Einfügen von Seiten

  • Vakatseiten in Online-PDFs entfernen
  • (Unpaginierte) Anzeigenseiten einfügen

Wie geht das?

GUI-basierte PDF-Anwendungen

  • z.B. Acrobat Pro, 7-PDF (Split & Merge)
  • nicht oder schlecht automatisierbar
  • sehr langsam bei großen Dateien

Online-Tools

  • z.B. pdf.io, www.adsimple.at/pdf-tools
  • für uns nicht anwendbar

Kommandozeilen-Tools

  • pdfsplit, pdfmerge, pdfsam, pdftk
  • pdftk, pdfsam auch per GUI verfügbar, teilweise Lizenzprodukte (pdfSAM enhanced und PDFsam Visual)

Generelle Probleme

  • Bookmarks werden nicht angepasst
  • Tote (ggf. farbige) Links
  • Tagging-Struktur stimmt nicht mehr

Unser Ansatz

  • Einsatz von pdfsam zum Splitten und Mergen von PDFs
  • Reparatur der Strukturen mittels eigenem Code unter Nutzung von poppler

Erstellen der Splitting-Informationen

  • Integriert im Produktionsworkflow
  • Anfangs- und Endseiten der Parts und Kapitel liegen im Produktionssystem vor
  • Namen und Seitenbereiche werden als einfache YAML-Datei übergeben

Extraktion des Tag-Baumes

  • Tag-Baum ist eine XML-Struktur, die ausgelesen werden kann
  • Verbindung zum "Content Stream" ist über Objekt-Ids realisiert

Erstellen der Einzel-PDFs

  • mit pdfsam anhand der Splitting-Informationen
  • ggf. Entfernen von Vakatseiten

Korrektur der Bookmarks

  • Entfernen von „toten“ Bookmarks
  • ggf. Anpassung der Hierarchieebenen (z.B. beim Wegfall einer Part-Struktur)

Korrektur der Links

  • Ersetzung durch URL-Links (DOI)
  • oder Entfernen von „toten“ Links und Entfärben des Link-Textes

Korrektur des Tag-Baumes

  • Entfernen der Knoten, die auf entfernte Inhalte zeigen
  • ggf. Strukturanpassungen
  • Einfügen von Alternativtexten für Abbildungen und Formeln
  • Verankern von Abbildungen (InDesign)
  • Reparatur von Strukturfehlern im Tag-Baum

PDF-Splitting mit Xerif?

  • möglicher Ansatz zur Erstellung von Kapitel-PDFs gegenüber einer Implementierung eines kapitelweisen Renderings
  • Tool, das potenziell auch für andere Workflows bereitgestellt werden könnte
  • Ist PDF-Splitting ein Thema?
  • Wie gehen Sie vor? Welche Erfahrungen gab es dabei?