13. Februar 2026 von Dr. Michael Peichl
Unity Catalog und Open-Source: Compliance & Security für den Mittelstand
„Daten für alle!“ ist der Traum der Data Scientists – und oft ein Warnsignal für jeden deutschen CISO. Gerade im regulierten Mittelstand gilt Sicherheit oft als Innovationsbremse, was sich durch neue Anforderungen aus dem EU AI Act und NIS-2 noch verschärft.
Doch was wäre, wenn Governance nicht blockiert, sondern beschleunigt? In diesem Deep Dive zeigen wir euch, wie ihr mit dem Unity Catalog und offenen Standards technische Compliance und organisatorische Hürden meistert, ohne eure Agilität zu verlieren.
In Governance-Workshops zeigt sich oft ein klassischer Zielkonflikt: Data Scientists benötigen einen breiten und schnellen Zugriff auf Daten, um Modelle effizient zu trainieren. Security- und Datenschutzverantwortliche hingegen sind gezwungen, den Zugriff restriktiv zu handhaben, um persönliche Haftungsrisiken (DSGVO, NIS-2) zu minimieren. Dieses Spannungsfeld kann Digitalisierungsinitiativen im Mittelstand lähmen. Die Lösung liegt jedoch nicht in umfangreicheren Regelwerken, sondern in einer Technologie, die Kontrolle und Zugriff vereint.
Was ist der Unity Catalog eigentlich?
Bevor wir die Compliance-Fragen lösen können, müssen wir das Werkzeug verstehen. Der Unity Catalog (UC) ist nämlich weit mehr als nur ein einfaches Bestandsverzeichnis für Tabellen. Er fungiert als zentrale, vereinheitlichte Governance-Schicht für Daten und KI auf der Databricks-Plattform.
Stellt euch den UC als eine Art intelligente Steuerungsebene vor, die über all euren Workspaces und Clouds liegt. Er zentralisiert Metadaten, Zugriffsrechte, Audit-Logs und die Datenherkunft (Lineage) an einem einzigen Ort. Das Prinzip lautet „Define once, secure everywhere“: Eine Sicherheitsrichtlinie wird einmal zentral definiert und gilt dann automatisch für alle Nutzerinnen und Nutzer, egal ob sie via SQL, Python oder über ein Dashboard zugreifen.
Mit diesem Verständnis der Technologie können wir nun die vier zentralen Herausforderungen des deutschen Marktes angehen.
Wenn wir bei adesso Governance-Workshops in deutschen Unternehmen leiten, fühlen wir uns oft wie Mediatoren zwischen zwei Welten.
Quelle: Unity Catalog with Full Interoperality Unity Catalog | Databricks
Echte Datensouveränität: Warum Open Source eure beste Versicherung ist
Ein zentraler Diskussionspunkt bei Cloud-Transformationen ist die Wahrung der Datenhoheit. Während bei geschlossenen SaaS-Lösungen („Walled Gardens“) durch proprietäre Speicherformate oft hohe Migrationshürden bestehen, verfolgt Databricks einen anderen architektonischen Ansatz, der auch im Hinblick auf den EU Data Act relevant ist.
Die Plattform basiert konsequent auf offenen Standards. Die Daten werden nicht in einem geschlossenen Speichersystem des Anbieters persistiert, sondern verbleiben physisch im eigenen Cloud-Account des Unternehmens (zum Beispiel AWS S3 oder Azure Data Lake). Als Speicherformat dient Delta Lake, das auf dem offenen Industriestandard Apache Parquet aufsetzt.
Dies hat wesentliche strategische Implikationen für die Exit-Strategie: Im Falle einer Beendigung der Nutzung ist keine physikalische Datenmigration erforderlich. Da die Daten in offenen Formaten im kundeneigenen Speicher liegen, verbleibt die technische Kontrolle beim Unternehmen. Ein Zugriff wäre unmittelbar auch durch andere Open-Source-Engines (wie Apache Spark oder Trino) möglich. Dies gewährleistet digitale Souveränität und vermeidet einen effektiven Vendor Lock-in auf der Datenebene.
Diese Strategie wird durch die seit 2025 verfügbare Unterstützung für Apache Iceberg als zusätzliches Table Format weiter gestärkt. Neben Delta Lake können Unternehmen nun auch Iceberg Managed Tables im Unity Catalog verwalten – inklusive nativer REST Catalog API und voller Interoperabilität mit Trino, Snowflake und weiteren Spark-Engines. Die zentrale Governance-Schicht bleibt dabei identisch: Unabhängig vom gewählten Open Table Format gelten dieselben Zugriffskontroll- und Audit-Mechanismen. Diese Multi-Format-Fähigkeit ist besonders für heterogene IT-Landschaften im Mittelstand relevant und unterstreicht die konsequente Open-Source-First-Strategie.
NIS-2 und C5: Das technische Fundament für Audits
Während regulatorische Vorgaben wie BAIT/VAIT im Finanzsektor bereits etabliert sind, erweitert die NIS-2-Richtlinie nun auch die Anforderungen an die Cyber-Resilienz auf kritische Sektoren wie den Maschinenbau, die Logistik und die Energiebranche. Damit gehen verschärfte Sorgfaltspflichten für die Geschäftsleitung einher.
Der Unity Catalog unterstützt die Compliance-Strategie hierbei durch zertifizierte technische Bausteine. Da die Databricks-Plattform nach dem C5-Kriterienkatalog des BSI zertifiziert ist, ist eine geprüfte Infrastrukturbasis gewährleistet. Ein Kernaspekt der NIS-2 ist die lückenlose Nachvollziehbarkeit: Im Verdachtsfall müssen Unternehmen präzise darlegen können, welche Identitäten auf kritische Daten zugegriffen haben.
Anstatt Audit-Informationen aus isolierten Datensilos manuell konsolidieren zu müssen, bietet der Unity Catalog eine zentrale Governance-Schicht für die Protokollierung. Dadurch ist eine effiziente technische Integration in übergeordnete ISMS- und Incident-Management-Prozesse möglich. Zwar ersetzt die Technologie nicht die organisatorische Verantwortung, sie reduziert jedoch den operativen Aufwand zur Erfüllung der Nachweispflichten erheblich.
Skalierbare DSGVO-Compliance: Attributbasierte Rechte und das „Recht auf Vergessenwerden“
In komplexen Organisationsstrukturen stößt das klassische rollenbasierte Zugriffsmanagement (RBAC) häufig an administrative Grenzen. Die Notwendigkeit, Berechtigungen für jede Permutation aus Projekt, Standort und Datenklassifizierung einzeln zu definieren, führt zu einer schwer wartbaren Rolleninflation.
Der Unity Catalog ermöglicht den Übergang zu einer attributbasierten Zugriffskontrolle (ABAC). Anstelle statischer Zuweisungslisten werden hierbei dynamische Regelwerke definiert. In der Praxis werden Datenspalten (etwa Steuer-IDs oder Gesundheitsdaten) durch automatisierte Klassifizierungsmechanismen als PII (Personally Identifiable Information) identifiziert und mit entsprechenden Tags im Katalog versehen.
Darauf aufbauend greift eine zentrale Policy, beispielsweise: „Daten mit dem Tag ‚PII‘ werden standardmäßig maskiert, außer für die Benutzergruppe ‚HR-Admin‘.“ Dies etabliert einen „Compliance by Default“-Ansatz: Sobald eine neue Tabelle mit sensiblen Daten erstellt wird, greifen die Schutzmechanismen unmittelbar, ohne dass manuelle Eingriffe erforderlich sind.
Ein weiterer kritischer Aspekt ist die technische Umsetzung des Rechts auf Vergessenwerden (Art. 17 DSGVO). In klassischen Data Lakes (zum Beispiel auf rein Parquet-Dateibasis) ist das selektive Löschen einzelner Datensätze oft technisch aufwendig und ineffizient. Hier bietet das zugrundeliegende Delta-Lake-Format einen entscheidenden Vorteil: Durch die Unterstützung von ACID-Transaktionen lassen sich gezielte DELETE- oder UPDATE-Operationen auf Zeilenebene durchführen. Löschanfragen können somit transaktionssicher ausgeführt und im Transaction Log audit-sicher nachgewiesen werden, ohne dass ganze Datenpartitionen neu geschrieben werden müssen.
Quelle: Unity Catalog with Fine-Grained Access Controls Unity Catalog | Databricks
Fit für den EU AI Act: Transparenz in der „Gläsernen Fabrik“
Der EU AI Act definiert hohe Transparenzanforderungen für sogenannte „Hochrisiko-KI-Systeme“, die beispielsweise in der Personalverwaltung oder beim Kreditscoring zum Einsatz kommen. Eine zentrale Compliance-Vorgabe ist die lückenlose Dokumentation der Datenherkunft. So muss überprüfbar sein, welche Datensätze in Trainings- und Evaluationsprozesse eingeflossen sind und ob geeignete Maßnahmen zur Qualitätssicherung, beispielsweise zur Bias-Prävention, ergriffen wurden.
Der Unity Catalog bietet in Kombination mit der integrierten Model Registry die technologische Basis, um diese Nachweispflichten zu erfüllen. Durch die automatisierte Data Lineage wird eine durchgängige Transparenz geschaffen. Datenflüsse lassen sich über Tabellen, Views und Pipelines hinweg bis zum spezifischen KI-Modell nachverfolgen.
In Verbindung mit etablierten MLOps-Prozessen ermöglicht dies eine präzise Governance:
- Traceability: Für jede Modellversion ist technisch rekonstruierbar, auf welchen spezifischen Datenquellen sie basiert und welche Transformationsschritte erfolgten.
- Versionierung & Freigabe: Modelle werden versioniert, mit Metadaten angereichert und können an verbindliche Genehmigungs-Workflows gekoppelt werden.
Damit könnt ihr für jede relevante Modellversion nachvollziehen, auf welchen Datenquellen sie basiert, welche Verarbeitungsschritte dazwischen lagen und welche Teams beteiligt waren. Zwar stellt die Technologie allein keine Compliance „out of the box“ sicher, sie liefert jedoch die notwendigen Instrumente, um die geforderte technische Dokumentation, Risikobewertung und Revisionssicherheit effizient in die Entwicklungsprozesse zu integrieren.
Quelle: Unity Catalog and Automated Lineage Unity Catalog | Databricks
Der „Betriebsrats‑Faktor“: Transparenz ohne Überwachung
Ein kritischer Erfolgsfaktor für Datenprojekte im DACH-Raum ist die Wahrung der Arbeitnehmerrechte, insbesondere im Hinblick auf das Verbot einer unzulässigen Verhaltens- und Leistungskontrolle. Der Unity Catalog protokolliert aus technischen Gründen detaillierte Metadaten zu Benutzeraktivitäten, ausgeführten Abfragen und Laufzeiten. Diese Daten sind für Security Operations und Forensik unverzichtbar, erfordern im Kontext der betrieblichen Mitbestimmung jedoch eine differenzierte Handhabung.
Um Compliance-Risiken und Projektverzögerungen zu vermeiden, empfiehlt sich eine frühzeitige Abstimmung eines Governance-Konzepts mit dem Datenschutzbeauftragten und dem Betriebsrat. Bewährte technische Maßnahmen umfassen:
- Restriktives Berechtigungsmanagement: Der Zugriff auf granulare Audit-Logs (etwa System Tables, Audit Events) wird technisch streng auf einen definierten Kreis von Security-Administratoren limitiert.
- Pseudonymisierung im Monitoring: Für allgemeine Plattform-Reports (etwa zur Performance-Optimierung oder Kostenkontrolle) werden Benutzerkennungen standardmäßig aggregiert oder pseudonymisiert. Dies schließt Rückschlüsse auf die individuelle Arbeitsleistung technisch aus.
- Protokollierte De-Anonymisierung: Die Auflösung von Pseudonymen zu Klarnamen erfolgt ausschließlich in definierten Verdachtsfällen (etwa bei Sicherheitsinzidenzen) und unter Anwendung eines dokumentierten Vier-Augen-Prinzips.
Der Unity Catalog ermöglicht durch die transparente Festlegung dieser Parameter einen Plattformbetrieb, der hohe Sicherheitsstandards mit den Anforderungen der betrieblichen Mitbestimmung in Einklang bringt.
Fazit & Ausblick: Governance als Fundament für skalierbare Innovation
Informationssicherheit ist kein statischer Zustand, sondern ein kontinuierlicher Prozess. Der Einsatz des Unity Catalog transformiert die Governance von manuellen Kontrollmechanismen hin zu automatisierten, code-basierten Richtlinien („Policy as Code“). Dadurch entsteht eine Entwicklungsumgebung, in der regulatorische Anforderungen aus der DSGVO, der NIS-2-Richtlinie und dem EU AI Act – wie Zugriffskontrolle, Protokollierung und Lineage – bereits architektonisch verankert sind. So wandelt sich Governance vom limitierenden Faktor zum notwendigen Enabler für den produktiven KI-Betrieb.
Dabei ist die technologische Unabhängigkeit entscheidend: Durch die konsequente Nutzung von Open-Source-Standards (Delta Lake, Apache Parquet) im Kern der Architektur wird Sicherheit nicht durch proprietäre Abhängigkeiten erkauft. Unternehmen profitieren somit von Enterprise-Grade-Governance, ohne ihre Datensouveränität oder die langfristige Interoperabilität ihrer Datenbestände aufzugeben.
Der Unity Catalog geht dabei über reine Zugriffssteuerung hinaus: Mit dem integrierten Metrics Layer (Unity Catalog metric views | Databricks on AWS) lassen sich Business-Kennzahlen zentral definieren und wiederverwendbar in Dashboards, SQL-Abfragen oder AI-Tools wie Genie nutzen. Dies etabliert eine Single Source of Truth für kritische KPIs und verhindert inkonsistente Metrik-Definitionen, die zu Fehlentscheidungen führen können. Die Discover UI (Ermitteln von Daten – Azure Databricks | Microsoft Learn) ergänzt dies um einen kuratierten internen Marktplatz für Datenprodukte, der insbesondere für Data-Mesh-Architekturen in größeren Organisationen relevant ist und separate Data-Catalog-Tools ersetzen kann.
Ausblick
Mit einer auf offenen Standards basierenden, compliance-konformen Datenarchitektur ist das Fundament gelegt. Im nächsten Teil unserer Serie werden wir uns auf die wertschöpfende Anwendung dieser Datenbasis fokussieren.
Sicherheit „Made for Germany“
Macht keine Kompromisse zwischen Innovation und Regulierung. Wir bei adesso kennen die Feinheiten des deutschen Marktes – vom BSI‑Umfeld über NIS‑2 und DSGVO bis zum Betriebsrat. Wir unterstützen euch dabei, Unity Catalog so zu konfigurieren und organisatorisch einzubetten, dass die Plattform nicht nur sicher, sondern auch audit‑ und organisationstauglich ist.