AWS Textract

Einführung

Amazon Textract ist ein vollständig von Amazon verwalteter Service aus der Gruppe der Machine-Learning-Services. Anhand von Optical Character Recognition (OCR) können Zeichen aus .jpg, .png oder .pdf Files extrahiert und verarbeitet werden. Somit stellt Textract eine Möglichkeit dar, alte Dokumentenbestände auf relevante Größen zu durchsuchen und für die digitale Weiterverarbeitung zur Verfügung zu stellen.

Am Ende dieses Artikels werden Sie mit den grundsätzlichen Fähigkeiten, Einschränkungen und Funktionalitäten von AWS-Textract vertraut sein und werden in der Lage sein, den Nutzen diese Services für Ihr Unternehmen einzuschätzen.

Limitation von Textract

Bei der Nutzung von Textract gilt es folgende Einschränkungen zu beachten:

Amazon Textract kann nur Latin-Script Zeichen und ASCII-Symbole auswerten, d.h. Umlaute, griechische Buchstaben und andere Sonderzeichen können nicht erkannt werden.
Die synchronous API unterstützt nur .png und .jpg Format, während die asynchronous API auch PDF-Files unterstützt.
JPEG/PNG-Files dürfen maximal 10 MB groß sein.
PDF-Files dürfen maximal 500 MB groß sein und maximal 3000 Seiten besitzen.
Die Erkennung von Hand geschriebenem Text wird nicht unterstützt.
Die minimale Font-Größe ist 8‑pt.
Das Dokument darf maximal um +/- 10° gegen die vertikale Axe verkippt sein.
Es gibt Grenzen für die Höhe und Breite des Dokumentes (2880 Punkte oder 101cm)

Was kann Textract leisten?

Das Auswertungsergebnis von Textract ist abhängig von der Wahl der API, die von den Entwicklern gewählt wird. Textract stellt Versionen der API für die synchrone und asynchrone Verarbeitung zur Verfügung. Da die asynchrone Verarbeitung alle Ergebnistypen der synchronen API unterstützt und die Zahl der potenziellen Use Cases für die asynchrone Verarbeitung wesentlich größer ist, werden wir uns im Rahmen dieses Blogbeitrags auf die Diskussion der asynchronen API beschränken. Um auf die ursprüngliche Frage zurück zu kommen: Textract kann das folgende leisten:

Eine vollständige Konvertierung von JPEG, PNG und PDF-Textinhalten zu durchsuchbaren und programmatisch verarbeitbaren txt-Files.
Analyse und Rückgabe von strukturellen Informationen (z.B. sind Textelement Teil einer Tabelle oder eines Formulars?)

Um zu verstehen, welchen Mehrwert die Strukturinformationen dem Nutzer bieten muss betrachtet werden, wie Textract die analysierten Textstellen wiedergibt.

Was sieht der Output von Textract aus?

AWS Textract Bild1 — **Abbildung 1** Objekthierarchie

Bei der Übergabe des Files an den Textract-Service kann zwischen zwei Betriebsmodi gewählt werden. Diese Tragen die Bezeichnungen DETECT und ANALYSE und können über die SDK als Parameter übergeben oder in der Management Konsole ausgewählt werden. In beiden Modi findet eine vollständige Analyse des Dokumentes statt.

Textract wertet das übergebene Dokument Seite für Seite aus und erstellt eine Hierarchie aus JSON-Blöcken, die sich gegenseitig über Parent-Child-Relationships referenzieren. Abbildung 1. zeigt eine Objekthierarchie für Worte, die in tabellarischen Strukturen vorliegen und in Abbildung 2. ist ein Beispiel für einen JSON-Block angegeben.

Wie in der Abbildung 2. zu sehen ist, liefert Textract neben den Referenzen zu anderen Feldern („Relationships“) zu jedem Objekt eine ID, Informationen zur Geometrie/ Position auf der Seite, sowie den Blocktypen und einen Wert für die Wahrscheinlichkeit, dass Textracts Analyse korrekt ist. Es ist wichtig festzuhalten, dass Wörter in einer Tabelle sowohl die Zeile, in der sie stehen, als auch das Zellobjekt, in dem Sie sich befinden referenzieren. Die Feldeinträge variieren auf jeder Hierarchieebene, so liefert ein JSON-Objekt des Blocktyps = „Page“ zusätzlich die Seitenzahl. Hier ist ein Stolperstein in der programmatischen Auswertung versteckt. Bei eingescannten Dokumenten wertet Textract das gesamte Dokument als einseitiges Dokument aus.

Programmatische Auswertung

Bei der programmatischen Verarbeitung mit der asynchronen API sind zwei wichtige Faktoren zu berücksichtigen. Zum einen erfolgt die Rückgabe von JSON-Blöcken in Gruppen, die durch pagination Tokens markiert sind. Die Ausgabe der Analyseergebnisse erfolgt also nicht auf einen Schlag. Zum anderen müssen die asynchron produzierten Ergebnisse abgerufen werden.

# Beispiel eines JSON-Blocks geliefert durch AWS-Textract.

{
    "Geometry": {...},
    "Relationships": [
        {
            "Type": "CHILD",
            "Ids": [
                "505e9581-0d1c-42fb-a214-6ff736822e8c",
                "6fca44d4-d3d3-46ab-b22f-7fca1fbaaf02",
                "9778bd78-f3fe-4ae1-9b78-e6d29b89e5e9",
                "55404b05-ae12-4159-9003-92b7c129532e"
            ]
        }
    ],
    "BlockType": "TABLE",
    "Confidence": 92.5705337524414,
    "Id:" "3f9665be-379d-4ae7-be44-d02f32b049c2"
},

Hier ist von Vorteil, dass sich Textract leicht mit dem AWS Message Services SNS und SQS integrieren lässt. Die AWS-Dokumentation enthält einen Beispielcode für die Analyse von mehrseitigen PDF-Dokumenten, der die SNS und SQS Integration nutzt. Dadurch wird die Durchführung eines Proof of Concepts mit AWS Textract in kurzer Zeit und dadurch bereits mit geringer Investition möglich.

Strukturinformationen sind für die Auswertung immer dann interessant, wenn für den Use Case relevante, zu erfassende Informationen in diesen enthalten sind. In solchen Fällen kann programmatisch direkt nach den entsprechenden Blocktypen gefiltert werden und es ist einfach dies Informationen aus der Tabelle für die Weiterverarbeitung in CSV-Format zur Verfügung zu stellen.

Kosten

Die Kosten werden in Textract pro Seite und Art der verwendeten API berechnet. Strukturinformationen sollten nur dann entnommen werden, wenn Sie für den Use Case tatsächlichen Mehrwert bieten. Es gibt mehrere Möglichkeiten Kosten einzusparen, die jedoch eine gewisse Vorarbeit erfordern.

Im Falle von längeren Dokumenten, welche Tabellen und Formulare enthalten, deren Inhalt keinen Mehrwert für das Unternehmen bietet, kann das Dokument vorab in mehrere Files zerlegt werden. Anschließend können die Files einzeln ausgewertet werden und der teure Modus nur für relevante Inhalte genutzt werden.

Einer der größten potenziale zur Kostenminimierung von Unternehmen bietet sich durch die leichte Integration von Textract in das Serverless-Framework von AWS. So kann zum Beispiel AWS-S3 genutzt werden, um die Kosten für die Datenspeicherung zu reduzieren und AWS-Lambda für eine kostengünstige, eventgetriebene Verarbeitung der Files.

Tabelle 1: Preise für die unterschiedlichen AWS-Textract APIs und Modi stand 29.10.2020

Monatlich	Effektiver Preis pro 1000 Seiten
Detect Document Text API (OCR)
Erste 1 Millionen Seiten	1.875 USD
Über 1 Millionen Seiten	0.75 USD
Analyze Document API für Seiten und Tabellen
Erste 1 Millionen Seiten	18.75 USD
Über 1 Millionen Seiten	12.50 USD
Analyse Document API für Seiten mit Formularen
Erste 1 Millionen Seiten	62.50 USD
Über 1 Millionen Seiten	50.00 USD

Zusammenfassung

AWS-Textract bietet eine sehr gute Möglichkeit für Unternehmen bestehende digitalisierte Dokumentenbestände nach geschäftsrelevanten Informationen zu durchsuchen und diese in strukturierter Form zur Weiterverarbeitung zur Verfügung zu stellen. Strukturelle Informationen wie Tabellen und Formulare können programmatisch zugänglich gemacht werden. Der Entwickler sollte sich an die AWS Best Practices halten. Die Verwendung des Textract Serives sollte an den Use Case angepasst sein, um die Kosten so gering wie möglich zu halten. Es ist empfehlenswert für die Test während der Entwicklung ein Beispiel-File mit 1–2 Seiten zu erstellen, welches die relevanten Strukturen enthält.

Die Einschränkungen auf ASCII und Latin-Script Zeichen ist nur bedingt problematisch, da diese durch regular expressions leicht im Code abgefangen werden können.

Akzeptieren
Name	YouTube
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Youtube zu Marketingzwecken. Die Daten werden an einen Server in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://policies.google.com/privacy

Akzeptieren
Name	hellotrust
Anbieter	Keyed GmbH
Zweck	hellotrust speichert den Zustimmungsstatus des Benutzers für Cookies auf der aktuellen Domain.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://hellotrust.de/datenschutz

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Google Analytics zur Analyse der Websitebenutzung durch Nutzer. Die Daten werden an einen Server von Google in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden. In der Regel werden die Cookies von Google für eine Dauer von 2 Jahren gespeichert.
Weiterführende Infos	https://policies.google.com/privacy

Einführung

Limitation von Textract

Was kann Textract leisten?

Was sieht der Output von Textract aus?

Programmatische Auswertung

Kosten

Zusammenfassung

Weitere interessante synvert saracus Materialien

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

Best Practices für die Nutzung von Azure für maximale Zuverlässigkeit

Kommende Webinare

Gen AI für das HR Management

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

dbt – viel mehr als nur ein Transform Tool

Snowflake vs. BigQuery

Bringing GenAI to Production

AIOps – IT-Herausforderungen in Echtzeit

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Change Management aus der IT-Perspektive

Einführung in Iceberg Tables – Teil I

Das synvert saracus Data Governance Vorgehensmodell

Integration von Iceberg Tables in Big Data Architekturen und Snowflake – Teil II

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Webinare auf Abruf

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Ähnliche Artikel

Der ultimative Leitfaden für eine sinnvolle Nutzung von Daten

Automatisiertes Fehlerlösen mit Databricks und Apache Airflow

Die Datendiskrepanz: Warum die digitale Transformation eine Datenstrategie braucht

Das Problem mit Data Governance

Wir verwenden Cookies

Ein­füh­rung

Limi­ta­tion von Textract

Was kann Tex­tract leisten?

Was sieht der Out­put von Tex­tract aus?

Pro­gram­ma­ti­sche Auswertung

Kos­ten

Zusam­men­fas­sung

Beitrag teilen

Wei­tere inter­es­sante syn­vert saracus Materialien

Ein­füh­rung in Cloud Data Ware­housing: Schwer­punkt Snow­flake vs. Redshift

Best Prac­ti­ces für die Nut­zung von Azure für maxi­male Zuverlässigkeit

Kommende Webinare

Gen AI für das HR Management

Ein­füh­rung in Cloud Data Ware­housing: Schwer­punkt Snow­flake vs. Redshift

dbt – viel mehr als nur ein Trans­form Tool

Snow­flake vs. BigQuery

Brin­ging GenAI to Production

AIOps – IT-Her­aus­for­de­run­gen in Echtzeit

Data Inges­tion aus SAP-Sys­te­men mit Azure Data Factory

Change Manage­ment aus der IT-Perspektive

Ein­füh­rung in Ice­berg Tables – Teil I

Das syn­vert saracus Data Gover­nance Vorgehensmodell

Inte­gra­tion von Ice­berg Tables in Big Data Archi­tek­tu­ren und Snow­flake – Teil II

Dat­ab­ricks: Beschleu­ni­gung von Data Ware­housing und ETL mit PySpark

Webinare auf Abruf

Data Cata­logs Part I: Ein­füh­rung in Meta­da­ten­ma­nage­ment und Data Catalogs

Data Cata­logs Part II: Data Cata­log in Action: Alation

Data Cata­logs Part III: Data Cata­log in Action: Infor­ma­tica Enter­prise Data Catalog

Ähnliche Artikel

Der ulti­ma­tive Leit­fa­den für eine sinn­volle Nut­zung von Daten

Auto­ma­ti­sier­tes Feh­ler­lö­sen mit Dat­ab­ricks und Apa­che Airflow

Die Daten­dis­kre­panz: Warum die digi­tale Trans­for­ma­tion eine Daten­stra­te­gie braucht

Das Pro­blem mit Data Governance

Abonnieren Sie unseren Newsletter, um aktuelle Infos von synvert saracus zu erhalten

Dan­ke­schön!

Anmel­dung

Um Zugang zu all unse­ren On-Demand-Web­i­na­ren und White­pa­pers zu erhalten!

Ein­log­gen

Stö­bern Sie jeder­zeit in Web­i­nar-Videos und White­pa­pers von syn­vert saracus

Pass­wort zurücksetzen

Pass­wort ver­ges­sen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhal­ten einen Link zum Zurück­set­zen des Passworts

Wir verwenden Cookies

Einführung

Limitation von Textract

Was kann Textract leisten?

Was sieht der Output von Textract aus?

Programmatische Auswertung

Kosten

Zusammenfassung

Weitere interessante synvert saracus Materialien

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

Best Practices für die Nutzung von Azure für maximale Zuverlässigkeit

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

dbt – viel mehr als nur ein Transform Tool

Snowflake vs. BigQuery

Bringing GenAI to Production

AIOps – IT-Herausforderungen in Echtzeit

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Change Management aus der IT-Perspektive

Einführung in Iceberg Tables – Teil I

Das synvert saracus Data Governance Vorgehensmodell

Integration von Iceberg Tables in Big Data Architekturen und Snowflake – Teil II

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Der ultimative Leitfaden für eine sinnvolle Nutzung von Daten

Automatisiertes Fehlerlösen mit Databricks und Apache Airflow

Die Datendiskrepanz: Warum die digitale Transformation eine Datenstrategie braucht

Das Problem mit Data Governance

Abonnieren Sie unseren Newsletter,
um aktuelle Infos von synvert saracus zu erhalten

Dankeschön!

Anmeldung

Um Zugang zu all unseren On-Demand-Webinaren und Whitepapers zu erhalten!

Einloggen

Stöbern Sie jederzeit in Webinar-Videos und Whitepapers von synvert saracus

Passwort zurücksetzen

Passwort vergessen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhalten einen Link zum Zurücksetzen des Passworts