Best Practices zum Einsatz von ERwin Data Modeler (Version Versionen r7 / r8) in Data Warehouse und Business Intelligence Umgebungen.
Inhaltliche Kurzfassung
Vom einzelnen Data Mart bis hin zum mehrschichtigen Enterprise Data Warehouse System – das Datenmodell Ihres Business Intelligence Systems ist ein entscheidendes Artefakt Ihres Entwicklungsprozesses. Auf dieser Grundlage baut die ETL- und Berichtsentwicklung auf. Der Modellierer kann die Datenanforderungen der Fachbereiche visualisieren und auf effiziente Weise definieren, um die Erreichung der Geschäftsziele sicherzustellen. Der Artikel zeigt Ihnen, wie ERwin Data Modeler Sie bei typischen Anforderungen im Kontext von Business Intelligence Projekten unterstützt.
Themen Serie 1
- Multidimensionales Datenmodell einrichten (Star- oder
Snowflake-Schema) - Organisation der Star-Schemas in einem Galaxy-Schema / BUS Matrix Design.
- Dokumentation von Tabellentypen: Dimensionen, Fakttabellen, Bridge-Tables, Outrigger (Snowflakes) – sowie von Dimensionstypen (Standard, Junk), Fakttabellen-Typen (Transaction, Snapshot)
- Dokumentation von Historisierungsverfahren (Slowly-Changing-Dim. Type 2, etc.)
- Von Granularitäten, Business Keys, Dimensionshierarchien
- Mengengerüste und Wachstumsprognosen
- Quellsystem und Star-Schema verlinken
- Abbildung der Data Linage und Erstellung einer ETL-Spezifikation
- Source-To-Target Mapping Generierung: Dokumentation der Data Lineage inkl. Transformationsregeln
- Dokumentation der ETL-Bewirtschaftungsverfahren (Data Movement Rules)
- Metadaten-Austausch mit ETL-Werkzeug (Bsp. Informatica) und BI-Reportingsystem (Bsp. Cognos)
- Performance-Tuning im Data Warehouse Datenmodell
- Definition / Dokumentation von Role-Playing Dimensions
- Datenmodell Organisation im Enterprise Umfeld: Organisation der Modelle bei mehrschichtigen BI Systemen; Schneidung und Einsatz von Subject
Areas
1. Multidimensionales Datenmodell einrichten
(Star- oder Snowflake-Schema)
Wir bereiten unser ERwin Tool zunächst für den Einsatz in einer Data Warehouse Umgebung vor – in dem wir verschiedene Einstellungen optimieren – und zwar auf 4 Ebenen:
Ebene 1: Optionen (globale Einstellungen von ERwin)
Ebene 2: Modell
Ebene 3: Subject Area
Ebene 4: Diagram
Hier sollten Sie die maximale Zeichenlänge von Datenbank Objekten festlegen. So stellen
Sie sicher, dass bereits während der Modellierung nicht gegen wesentliche Namenskonventionen verstoßen werden kann. Leider sind diese Einstellungen eine Einstellung der lokalen ERwin Installation. Sie müssen also von jedem User einzelen vorgenommen werden. Tipp: Gleichen Sie die Zeichenlängen mit den Anforderungen Ihrer DBA bzw. Ihrer Abteilung ab, die für den Betrieb der Anwendungen verantwortlich ist.
prüft – egal welche Einstellung Sie wählen. Zumindest gilt das für die mir bekannten Versionen r7 und r8.
Mit Klick auf „Set Default Owners“ im obigen Screenshot,kommt man zum Dialog „Set default Owner“.
Auch gebe ich die Empfehlung einen „auffälligen“ Default-Owner zu definieren, damit sofort erkennbar auffällt, dass hier vergessen wurde, den Owner -also den Schema Namen – zu definieren. Dies passiert zum Bsp. sehr oft bei der Anlage von Indizes.Eine generelle Empfehlung für das Design Data Warehouse Datenmodellen lautet: Keine Prüfung auf referentielle Integrität durch das Datenbank System! Die Relationen werden trotzdem definiert. Zum einen dient dies der Dokumentation des Datenmodelles. Zum anderen werden die Relationen auch in der Datenbank implementiert – jedoch mit der Option „NOT ENFORCED“. Die Relationen werden ferner mit der Option „ENABLE QUERY OPTIMIZATION“ (z.B. bei IBM DB2) versehen.Beides zusammen unterstützt den Datenbank Optimizer bei der Berechnung seiner Ausführungspläne. Dies ist umso wichtiger, wenn Materialized Views für die Persistierung von Aggregaten eingesetzt werden.
Weiter geht es mit den Empfehlungen zu Einstellungen für die „Subject Area“ (Ebene 3).