Datenübertragung mit IBM Change Data Capture

Wenn es um die Übertragung von Daten zwischen zwei Systemen geht, so fällt die Wahl schnell auf das Versenden von Files z.B. via SFTP. Dies ist zwar altbewährt, doch deckt es bei weitem nicht mehr die aktuellen Anforderungen an eine dynamische Schnittstelle ab.

Bereits relativ simple Anforderungen, wie das Erkennen von Löschungen können ohne Aktiv-Flags oder das Laden von Vollbeständen nicht erkannt werden. Selbst das Anpassen eines Files ist in der Regel mit sehr hohem Aufwand verbunden. Die Datenübertragung mittels IBM CDC stellt unter anderem genau für diese Probleme eine Lösung dar und bietet sogar die Möglichkeit von Realtime Anbindungen.

Funktionalität, Verwaltung und technische Anbindung

Zunächst stellt sich die Frage danach, wie diese Form der Datenübertragung funktioniert.

IBM CDC ist eine Datenübertragungssoftware, die auf dem Auslesen von Datenbanklogs basiert. DB-Änderungen, in Form von Updates, Inserts oder Löschungen werden erkannt, ausgelesen und an die angebundenen Ziele weitergeleitet.

Ein Einblick in die Datenübertragung mit IBM Change Data Capture (CDC) Replication Bild1 — **Abbildung 1** Technische Übersicht der Komponenten von IBM CDC. Quelle

Das technische Herz der Gesamtfunktionalität ist der Access Server. Hier werden Quell- und Zieldatenbanken angeschlossen und als solche definiert. Die Daten können zum einen zwischen homogenen Datenbanken als auch zwischen unterschiedlichen Systemen übertragen werden z.B. Oracle nach DB2. Da es möglich ist eine Datenbank als Dual (Quelle und Ziel) zu definieren, können auch System interne Replikationen ohne weiteres mit CDC umgesetzt werden.

Die Anbindung und damit das Auslesen der Information ist individuell gestaltbar. Die GUI von IBM CDC ist die Management Console. Hierüber werden über das Ansprechen des Access Servers die sog. Subscriptions und die darunter liegenden Mappings verwaltet. Über die Subscriptions wird angegeben zwischen welcher Quell- und Zieldatenbank Daten übertragen werden sollen. In diesem Zusammenhang definieren die Mappings, welche konkrete Quelltabelle ausgelesen wird. Dabei ist es sowohl möglich bereits vorhandene Tabellen zu befüllen, neue nach Vorlage der Quelltabelle zu erstellen als auch die Änderungen als Messages an Queues zu senden. Letzteres ist vor allem für Unternehmen interessant, die Technologien wie Apache Kafka nutzen wollen.

Zusätzlich bietet IBM CDC die Möglichkeit Filter auf die Quelltabelle anzuwenden und Fixwerte für Zielspalten zu definieren. Sog. Journal Control Fields dienen dazu z.B. den Zeitpunkt der Änderung, die Nutzer ID und den Typ der Änderung (Update, Insert, Delete oder Refresh) festzuhalten, um individuell auf alle Bedürfnisse einzugehen. Alle Anforderungen können im Laufe der Zeit ohne große Aufwände angepasst werden.

Das direkte Erkennen von Änderungen bietet hierbei eine effiziente Grundlage für Realtime Schnittstellen.

Des Weiteren ist es möglich neben der reinen Konfiguration, die Subscriptions zu überwachen und zu analysieren. Neben der Anzahl der übertragenen Datenmengen werden somit vor allem auch Fehler und Warnungen festgehalten, die zu einem Absturz des Abbildungsprozesses führen können.

Unterstützte Datenbanken

Die Nutzung von IBM CDC wird von einer Vielzahl von Datenbanken unterstützt. Die folgende Tabelle beinhaltet eine Gesamtübersicht der Quell- und Zieldatenbanken, welche die CDC Replication v.11.4 unterstützen:

Unterstützte Quelldatenbanken	Unterstützte Zieldatenbanken
	IBM Db2 for Linux, UNIX and Windows (LUW)
	IBM Db2 for i
	IBM Db2 for z/OS
	IBM InfoSphere® DataStage®
IBM® Db2® for Linux, UNIX and Windows (LUW)	Microsoft SQL Server
IBM Db2 for i	CDC Replication Engine for FlexRep
IBM Db2 for z/OS®	Netezza®
IMS	Oracle
Microsoft SQL Server	Sybase 1
Oracle	Informix 1
Sybase 1	CDC Replication Engine for Event Server 1
Informix® 1	IBM Cloudant®
Db2 on Cloud (formerly dashDB® for Transactions) 2	Apache™ Hadoop
VSAM	Apache Kafka
PostgreSQL	Db2 Warehouse on Cloud (formerly dashDB for Analytics)
Db2 Warehouse on Cloud (formerly dashDB for Analytics) 3	Db2 on Cloud (formerly dashDB for Transactions) 2
Db2 Warehouse (formerly dashDB Local) 3	Db2 Warehouse (formerly dashDB Local)
MySQL	IBM MQ for z/OS (using Classic CDC for z/OS)
	Teradata
	Microsoft Azure SQL Database
	Microsoft Azure SQL Database Managed Instance
	IBM Integrated Analytics System

Quelle

Je nachdem welche Quell- oder Zieldatenbank angesprochen wird, können zum Teil zusätzliche oder nur eingeschränkte Funktionalitäten gegeben sein.

Ein Beispiel, bei dem die Funktionalität abweichen kann, ist die Durchführung eines Refresh, die Beladung eines Datenvollbestandes. Analog zur Fileanlieferung erwartet man hier in der Regel riesige Datenmengen, wodurch sich die Serverauslastung stark erhöhen kann. Eine Alternative hierfür ist der differential Refresh. Im Gegensatz zu einem Standard Refresh, bei dem die Zieltabelle zunächst geleert wird, werden bei einem differential Refresh Abweichungen zwischen Quell- und Zieltabelle erkannt und das Ziel somit an die Quelle angeglichen. Hierdurch ist es möglich die Anzahl der Anpassungen auf der Zieltabelle ggf. deutlich zu reduzieren. Unterstützt wird diese Funktion allerdings nicht von den folgenden Datenbanken:

CDC Replication Engine for Netezza® Technology
CDC Replication Engine for FlexRep
CDC Replication Engine for Db2 for i

Es ist somit ratsam im Vorfeld zu prüfen, welche Funktionalitäten ggf. eingeschränkt sind.

IBM CDC mehr als eine Datenübertragungssoftware – Automatisierung

Neben der eigentlichen Hauptfunktionalität der Datenübertragung kann IBM CDC auch in anderer Form genutzt werden, um darüberhinausgehende Aufgabenfelder zu erschließen.

Diverse Vorteile bieten in diesem Zusammenhang speziell von IBM entwickelte CLI-Befehle (sog. CHCCLP) für PowerShell und individuelle Device Mapper für die Unix Umgebung. Sie stellen die Alternative zur manuellen Verwendung der Management Console dar. Hierdurch lassen sich beispielsweise das Anlegen von Anbindungen automatisieren. Doch neben der Möglichkeit der automatisierten Verwaltung kann unter anderem die Status Erkennung für Themen wie Monitoring oder ein automatisiertes Fehlermanagement genutzt werden.

Fazit

IBM CDC bietet in jedem Fall eine Alternative, wahrscheinlich sogar Verbesserung zur herkömmlichen Datenanlieferung durch Files.

Die Art der Anbindung ist sehr vielseitig und es kann auf die Bedürfnisse und Gegebenheiten des jeweiligen Quell- bzw. Zielsystems eingegangen werden. Darüber hinaus werden Löschungen erkannt sowie Realtime Anbindungen wie die Koppelung mit Kafka ermöglicht. Durch die geschickte Anwendung von z.B. CLI Befehlen, kann es sogar die betrieblichen Abläufe unterstützen und ist somit mehr als nur ein reines Datenübertragungstool.

Akzeptieren
Name	YouTube
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Youtube zu Marketingzwecken. Die Daten werden an einen Server in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://policies.google.com/privacy

Akzeptieren
Name	hellotrust
Anbieter	Keyed GmbH
Zweck	hellotrust speichert den Zustimmungsstatus des Benutzers für Cookies auf der aktuellen Domain.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://hellotrust.de/datenschutz

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Google Analytics zur Analyse der Websitebenutzung durch Nutzer. Die Daten werden an einen Server von Google in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden. In der Regel werden die Cookies von Google für eine Dauer von 2 Jahren gespeichert.
Weiterführende Infos	https://policies.google.com/privacy

Ein Einblick in die Datenübertragung mit IBM Change Data Capture (CDC) Replication

Funktionalität, Verwaltung und technische Anbindung

Unterstützte Datenbanken

IBM CDC mehr als eine Datenübertragungssoftware – Automatisierung

Fazit

Weitere interessante synvert saracus Materialien

Das synvert saracus Data Governance Vorgehensmodell

Der ultimative Leitfaden für eine sinnvolle Nutzung von Daten

Kommende Webinare

Gen AI für das HR Management

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

dbt – viel mehr als nur ein Transform Tool

Snowflake vs. BigQuery

Bringing GenAI to Production

AIOps – IT-Herausforderungen in Echtzeit

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Change Management aus der IT-Perspektive

Einführung in Iceberg Tables – Teil I

Das synvert saracus Data Governance Vorgehensmodell

Integration von Iceberg Tables in Big Data Architekturen und Snowflake – Teil II

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Webinare auf Abruf

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Ähnliche Artikel

Der ultimative Leitfaden für eine sinnvolle Nutzung von Daten

Automatisiertes Fehlerlösen mit Databricks und Apache Airflow

Die Datendiskrepanz: Warum die digitale Transformation eine Datenstrategie braucht

Das Problem mit Data Governance

Wir verwenden Cookies

Funk­tio­na­li­tät, Ver­wal­tung und tech­ni­sche Anbindung

Unter­stützte Datenbanken

IBM CDC mehr als eine Daten­über­tra­gungs­soft­ware – Automatisierung

Fazit

Beitrag teilen

Wei­tere inter­es­sante syn­vert saracus Materialien

Das syn­vert saracus Data Gover­nance Vorgehensmodell

Der ulti­ma­tive Leit­fa­den für eine sinn­volle Nut­zung von Daten

Kommende Webinare

Gen AI für das HR Management

Ein­füh­rung in Cloud Data Ware­housing: Schwer­punkt Snow­flake vs. Redshift

dbt – viel mehr als nur ein Trans­form Tool

Snow­flake vs. BigQuery

Brin­ging GenAI to Production

AIOps – IT-Her­aus­for­de­run­gen in Echtzeit

Data Inges­tion aus SAP-Sys­te­men mit Azure Data Factory

Change Manage­ment aus der IT-Perspektive

Ein­füh­rung in Ice­berg Tables – Teil I

Das syn­vert saracus Data Gover­nance Vorgehensmodell

Inte­gra­tion von Ice­berg Tables in Big Data Archi­tek­tu­ren und Snow­flake – Teil II

Dat­ab­ricks: Beschleu­ni­gung von Data Ware­housing und ETL mit PySpark

Webinare auf Abruf

Data Cata­logs Part I: Ein­füh­rung in Meta­da­ten­ma­nage­ment und Data Catalogs

Data Cata­logs Part II: Data Cata­log in Action: Alation

Data Cata­logs Part III: Data Cata­log in Action: Infor­ma­tica Enter­prise Data Catalog

Ähnliche Artikel

Der ulti­ma­tive Leit­fa­den für eine sinn­volle Nut­zung von Daten

Auto­ma­ti­sier­tes Feh­ler­lö­sen mit Dat­ab­ricks und Apa­che Airflow

Die Daten­dis­kre­panz: Warum die digi­tale Trans­for­ma­tion eine Daten­stra­te­gie braucht

Das Pro­blem mit Data Governance

Abonnieren Sie unseren Newsletter, um aktuelle Infos von synvert saracus zu erhalten

Dan­ke­schön!

Anmel­dung

Um Zugang zu all unse­ren On-Demand-Web­i­na­ren und White­pa­pers zu erhalten!

Ein­log­gen

Stö­bern Sie jeder­zeit in Web­i­nar-Videos und White­pa­pers von syn­vert saracus

Pass­wort zurücksetzen

Pass­wort ver­ges­sen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhal­ten einen Link zum Zurück­set­zen des Passworts

Wir verwenden Cookies

Funktionalität, Verwaltung und technische Anbindung

Unterstützte Datenbanken

IBM CDC mehr als eine Datenübertragungssoftware – Automatisierung

Weitere interessante synvert saracus Materialien

Das synvert saracus Data Governance Vorgehensmodell

Der ultimative Leitfaden für eine sinnvolle Nutzung von Daten

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

dbt – viel mehr als nur ein Transform Tool

Snowflake vs. BigQuery

Bringing GenAI to Production

AIOps – IT-Herausforderungen in Echtzeit

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Change Management aus der IT-Perspektive

Einführung in Iceberg Tables – Teil I

Das synvert saracus Data Governance Vorgehensmodell

Integration von Iceberg Tables in Big Data Architekturen und Snowflake – Teil II

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Der ultimative Leitfaden für eine sinnvolle Nutzung von Daten

Automatisiertes Fehlerlösen mit Databricks und Apache Airflow

Die Datendiskrepanz: Warum die digitale Transformation eine Datenstrategie braucht

Das Problem mit Data Governance

Abonnieren Sie unseren Newsletter,
um aktuelle Infos von synvert saracus zu erhalten

Dankeschön!

Anmeldung

Um Zugang zu all unseren On-Demand-Webinaren und Whitepapers zu erhalten!

Einloggen

Stöbern Sie jederzeit in Webinar-Videos und Whitepapers von synvert saracus

Passwort zurücksetzen

Passwort vergessen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhalten einen Link zum Zurücksetzen des Passworts