Fachgespräch Datenbanken - Cheat Sheet¶

Schnelle Navigation

Diese Seite enthält alle wichtigen Fragen und kurze, prägnante Antworten für das Fachgespräch. Die Antworten sind bewusst knapp gehalten für schnelles Scannen.

Lernfeld 1: Data-Driven Organizations (Module 2)¶

1. Was versteht man unter einer "Data-Driven Organization"?¶

Antwort: - Definition: Organisation, die Entscheidungen primär auf Datenanalysen basiert - Gegenteil: Traditionelle Firmen nutzen Bauchgefühl oder Erfahrung - Beispiel: Amazon analysiert Kaufverhalten → bessere Produktempfehlungen - Kern: Jede wichtige Entscheidung wird durch Daten gestützt

2. Welche Vorteile bieten datengetriebene Entscheidungen gegenüber intuitiven Entscheidungen?¶

Antwort: - 🎯 Objektivität: Fakten statt persönliche Meinungen - 📊 Messbarkeit: Erfolg kann quantifiziert werden - ⚡ Schnelligkeit: Automated decision making möglich - 🔄 Reproduzierbarkeit: Entscheidungen können wiederholt werden - 📉 Risikominimierung: Weniger Fehler durch falsche Annahmen - 💰 ROI-Optimierung: Bessere Investitionsentscheidungen

3. Beschreiben Sie einen konkreten Anwendungsfall, in dem ein Unternehmen durch datengetriebene Entscheidungen einen Wettbewerbsvorteil erzielt hat¶

Antwort: - Netflix Beispiel: - Was: Analyse von Viewing-Daten (was, wann, wie lange geschaut) - Wie: Algorithmen erstellen personalisierte Empfehlungen - Resultat: 80% der geschauten Inhalte kommen aus Empfehlungen - Vorteil: Höhere Kundenbindung, weniger Kündigungen, bessere Content-Investitionen

4. Welche Rolle spielen Datenanalysten und Datenwissenschaftler in einer datengetriebenen Organisation?¶

Antwort: - 👨‍💼 Datenanalysten: - Sammeln und bereinigen Daten - Erstellen Reports und Dashboards - Interpretieren historische Trends - Tool-Beispiele: Excel, SQL, Tableau - 👨‍🔬 Datenwissenschaftler: - Entwickeln Machine Learning Modelle - Erstellen Vorhersage-Algorithmen - Arbeiten mit unstrukturierten Daten - Tool-Beispiele: Python, R, TensorFlow

5. Erklären Sie die Zusammenhänge im folgenden Diagramm¶

Antwort: Analytics-Pyramide - von einfach zu komplex: - 📈 Descriptive: - Was ist passiert? (Vergangenheit) - Beispiel: Umsatz letztes Quartal war 10% niedriger - 🔍 Diagnostic: - Warum ist es passiert? (Ursachen finden) - Beispiel: Umsatzrückgang wegen COVID-19 Lockdown - 🔮 Predictive: - Was wird passieren? (Zukunft vorhersagen) - Beispiel: Umsatz wird nächstes Quartal 5% steigen - 🎯 Prescriptive: - Was sollen wir tun? (Handlungsempfehlungen) - Beispiel: Investiere 50k€ in Online-Marketing

6. Kennen Sie die Elemente einer Data-Pipeline?¶

Antwort: Datenfluss von Quelle zu Entscheidung: - 📥 Data Sources: - Rohdaten aus verschiedenen Quellen (Datenbanken, APIs, Files) - Beispiele: Kundendaten, Sensordaten, Web-Logs - ⚙️ Processing/Transformation: - Datenbereinigung, Formatierung, Anreicherung - Tools: ETL-Pipelines, AWS Glue - 🎯 Predictions and Decisions: - Analyse-Ergebnisse für Business-Entscheidungen - Output: Reports, Dashboards, Automated Actions

7. Welche Methoden zur Datenauswertung stehen einer datengetriebenen Organisation zur Verfügung?¶

Antwort: 4 Stufen der Analytics (von Basic zu Advanced): - 📊 Descriptive Analytics: - Historische Daten zusammenfassen - Tools: Dashboards, Reports, KPIs - 🔎 Diagnostic Analytics: - Ursachen für Trends finden - Tools: Drill-down Analysis, Root Cause Analysis - 🔮 Predictive Analytics: - Zukunft vorhersagen mit ML-Modellen - Tools: Machine Learning, Statistical Models - 🎯 Prescriptive Analytics: - Optimale Handlungen empfehlen - Tools: AI, Optimization Algorithms

Lernfeld 2: The Elements of Data (Module 3)¶

1. Was sind strukturierte, halbstrukturierte und unstrukturierte Datentypen?¶

Antwort: 3 Arten wie Daten organisiert werden: - 🏗️ Strukturiert: - Feste Tabellen-Struktur (Spalten/Zeilen) - Beispiele: SQL-Datenbanken, Excel, CSV - Vorteil: Schnelle Queries, gut organisiert - 🔧 Halbstrukturiert: - Flexibles Schema, aber noch organisiert - Beispiele: JSON, XML, NoSQL - Vorteil: Flexibel + trotzdem searchable - 🌪️ Unstrukturiert: - Keine feste Struktur - Beispiele: Text, Bilder, Videos, E-Mails - Herausforderung: Schwer zu analysieren ohne KI

2. Was sind die fünf V's im Data-Bereich?¶

Antwort: Die 5 V's von Big Data: Volume, Velocity, Variety, Veracity, Value - Merkhilfe: Alle beginnen mit "V" und beschreiben Big Data Eigenschaften

3. Was bedeutet Value, Veracity, Variety, Velocity und Volume?¶

Antwort: Big Data Charakteristiken im Detail: - 📊 Volume (Menge): - Wie viele Daten? (GB, TB, PB) - Beispiel: Facebook speichert 100 Petabytes täglich - ⚡ Velocity (Geschwindigkeit): - Wie schnell entstehen/werden verarbeitet? - Beispiel: Twitter: 6000 Tweets/Sekunde - 🎨 Variety (Vielfalt): - Wie viele verschiedene Datentypen? - Beispiel: Text + Bilder + Videos + Sensordaten - ✅ Veracity (Qualität): - Wie vertrauenswürdig/korrekt sind die Daten? - Problem: Fake News, Sensor-Fehler - 💎 Value (Wert): - Welchen Business-Nutzen bringen die Daten? - Wichtigste V: Ohne Value sind andere V's nutzlos

4. Welches der fünf V's ist schlussendlich entscheidend für die Firma, welche die Datenpipeline nutzt und warum?¶

Antwort: 💎 VALUE ist das Wichtigste! - Warum: Ohne Business-Nutzen sind alle anderen V's verschwendete Ressourcen - Beispiel: - Viel Volume + hohe Velocity = nutzlos ohne Value - Kleine Datenmenge mit hohem Value = sehr wertvoll - Business-Realität: Firmen investieren nur wenn ROI erkennbar ist

5. Wie beeinflussen sich Volumen und Geschwindigkeit einer Datenpipeline?¶

Antwort: ⚖️ Trade-off zwischen Volume & Velocity: - Mehr Volume = Langsamere Verarbeitung - Grund: Mehr Daten brauchen mehr Zeit zum Processing - Beispiel: 1GB in 1 Sekunde vs 1TB in 100 Sekunden - Höhere Velocity = Weniger Volume pro Batch - Grund: Kleine Pakete können schneller verarbeitet werden - Lösung: Stream Processing für Echtzeit

6. An der Börse müssen sehr viele Handelsaufträge (Hochfrequenzhandel) gleichzeitig verarbeitet und in Echtzeit analysiert werden. Wie lautet Ihre Analyse hinsichtlich Volumen und Geschwindigkeit in einer solchen Datenpipeline?¶

Antwort: ⚡ VELOCITY >>> VOLUME (Geschwindigkeit schlägt Menge) - Warum kritisch: - 1 Millisekunde Verzögerung = Millionen Verlust - Andere Trader sind schneller → Arbitrage-Chancen weg - Lösung: - Stream Processing statt Batch - In-Memory Databases (Redis) - Edge Computing näher zur Börse - Trade-off akzeptiert: Lieber weniger Daten, aber in Echtzeit

7. Schätzen Sie für die Börse aus der vorherigen Frage Value, Veracity und Variety ein¶

Antwort: Börsen-Kontext Bewertung: - 💎 Value: EXTREM HOCH - Jeder Trade kann Millionen bewegen - 0.1% Vorteil = Riesige Gewinne - ✅ Veracity: KRITISCH - Falsche Daten = Sofortige Verluste - Beispiel: Falscher Kurs → Fehlinvestition - Redundante Datenquellen nötig - 🎨 Variety: MITTEL-NIEDRIG - Hauptsächlich strukturierte Finanzdaten - Kurse, Volumen, Order Books - Aber: Auch News-Feeds, Social Media für Sentiment

Lernfeld 3: Design Principles and Patterns for Data Pipelines (Module 4)¶

1. Wie werden mit den Amazon Services unterschiedliche Quellen vereinheitlicht um eine einzige Informationsquelle bereitzustellen?¶

Antwort: 🏗️ Unified Data Architecture: - AWS Glue als ETL-Service transformiert verschiedene Datenquellen - Data Lake (S3) als zentrale Speicherstelle für alle Formate - Einheitliche Formate durch standardisierte Schemas - Beispiel: CSV + JSON + XML → alle zu Parquet Format konvertiert

2. Erklären Sie den Aufbau einer modernen Datenarchitektur am Beispiel der Amazon-Web-Services¶

Antwort: ☁️ AWS Data Architecture Layers: - 🏊‍♂️ Data Lake (S3): Raw Data Storage - alle Formate - 🏭 Data Warehouse (Redshift): Strukturierte, bereinigte Daten
- 📊 Data Marts: Spezifische Business-Bereiche (Sales, Marketing) - 🔄 ETL/ELT: AWS Glue für Datentransformation - 🔍 Analytics: Athena, QuickSight für Auswertungen - Vorteil: Skalierbar, kosteneffizient, managed services

3. In welcher Ebene (Verarbeitungsschicht, Verarbeitungsebene, Nutzungsebene und Verbrauchsebene) der Datenpipeline werden a) SQL-Abfragen getätigt und b) in nahezu Echtzeit Big-Data verarbeitet?¶

Antwort: 🏗️ Pipeline Architecture Layers: - a) SQL-Abfragen: - Verarbeitungsebene (Processing Layer) - Mit Tools wie Athena, Redshift, RDS - b) Big-Data Echtzeit: - Nutzungsebene (Consumption Layer) - Mit Kinesis, Lambda, EMR für Analytics

4. Was ist eine Streaming-Analytics-Pipeline, die Produzenten und Konsumenten umfasst?¶

Antwort: ⚡ Real-time Data Processing: - 👥 Produzenten: Datenquellen (IoT, Apps, Logs) - 🌊 Stream: Kontinuierlicher Datenfluss (Kinesis) - ⚙️ Processing: Echtzeit-Analyse (Lambda, Analytics) - 👨‍💼 Konsumenten: Dashboards, Alerts, Decisions - Beispiel: Fraud Detection bei Kreditkarten

5. Geben Sie einen Beispielworkflow an, wie Amazon Athena und Glue-Datenbanken miteinander zusammen arbeiten¶

Antwort: 🔍 Serverless Analytics Workflow: 1. 📥 Data Ingestion: Daten landen in S3 2. 🔍 Glue Crawler: Scannt S3 und erstellt Schema 3. 📚 Glue Data Catalog: Zentrale Metadaten-Registry
4. 🔎 Athena Queries: SQL auf S3 Daten ohne Server 5. 📊 Results: Direkt zu BI-Tools oder S3 - Vorteil: Pay-per-Query, kein Server-Management

6. Begriffsklärung: Für was steht SQL, DDL und DML?¶

Antwort: - SQL: Structured Query Language - DDL: Data Definition Language (CREATE, ALTER, DROP) - DML: Data Manipulation Language (INSERT, UPDATE, DELETE)

7. Woher kommen die Daten für den CREATE-Befehl für die Tabelle? Gehen Sie dabei im speziellen auf die Zeilen 20-25 ein.¶

Antwort: 📄 Externe Datenquellen via SERDE:

-- Vollständiges CREATE EXTERNAL TABLE Statement
CREATE EXTERNAL TABLE IF NOT EXISTS taxidata.yellow (
  vendor string,
  pickup timestamp,
  dropoff timestamp,
  count int,
  distance int,
  ratecode string,
  storeflag string,
  pulccid string,
  dolccid string,
  paytype string,
  fare decimal,
  extra decimal,
  mta_tax decimal,
  tip decimal,
  tolls decimal,
  surcharge decimal,
  total decimal
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'serialization.format' = ',',
  'field.delim' = ','
) LOCATION 's3://aws-tc-largeobjects/CUR-TF-200-ACDSCI-1/Lab2/yellow/'
TBLPROPERTIES ('has_encrypted_data' = 'false');

- Zeilen 20-25: Definieren wie CSV-Dateien aus S3 gelesen werden - SERDE: Serializer/Deserializer für Hadoop/Hive Kompatibilität - CSV-Format: Komma-getrennte Werte mit Feldtrenner ',' - S3-Location: Externe Dateien in AWS S3 Bucket - Resultat: CREATE EXTERNAL TABLE ohne Daten zu kopieren

8. Erklären Sie folgende SELECT-Anfrage im Detail:¶

SELECT count (count) AS "Number of trips",
       sum (total) AS "Total fares",
       pickup AS "Trip date"
FROM yellow WHERE pickup
between TIMESTAMP '2017-01-01 00:00:00'
    and TIMESTAMP '2017-02-01 00:00:01'
GROUP BY pickup;

Antwort: 📊 Komplexe Aggregations-Abfrage: - SELECT-Klauseln: - count(count): Zählt die Anzahl der Fahrten (Spalte "count") - sum(total): Summiert alle Fahrpreise auf - pickup: Abhol-Zeitpunkt als Gruppierungskriterium - WHERE-Klausel: - Filtert Daten zwischen 1. Januar und 1. Februar 2017 - Verwendet TIMESTAMP für exakte Zeitbereichsfilterung - GROUP BY: - Gruppiert Ergebnisse nach Abhol-Zeitpunkt - Ermöglicht Aggregation pro Zeitpunkt - Resultat: Anzahl Fahrten und Gesamtumsatz pro Abholzeitpunkt im Zeitraum

9. Erklären Sie den SQL-DQL-Befehl:¶

SELECT sum(total), paytype FROM creditcard
WHERE paytype = '1' GROUP BY paytype;

Antwort: 💳 Zahlungsart-Analyse: - DQL: Data Query Language (SELECT-Statements) - sum(total): Summiert alle Beträge der Spalte "total" - paytype: Zahlungsart (hier '1' = Kreditkarte) - WHERE paytype = '1': Filtert nur Kreditkarten-Zahlungen - GROUP BY paytype: Gruppiert nach Zahlungsart - Logik-Problem: WHERE filtert bereits auf paytype='1', daher ist GROUP BY redundant - Bessere Version: SELECT sum(total) FROM creditcard WHERE paytype = '1'; - Resultat: Gesamtsumme aller Kreditkarten-Transaktionen

10. Was macht eine View in SQL, für was wird sie verwendet?¶

Antwort: 👁️ VIEW = Virtuelle Tabelle:

CREATE VIEW cctrips AS
SELECT "sum"("fare") "CreditCardFares"
FROM yellow
WHERE ("paytype"='1');

- Definition: VIEW ist eine gespeicherte SELECT-Abfrage - Virtuelle Tabelle: Speichert keine Daten, nur die Abfrage-Definition - Verwendung: - Sicherheit: Versteckt komplexe Tabellen-Strukturen - Vereinfachung: Häufige Abfragen als wiederverwendbare Views - Zugriffskontrolle: Beschränkt Sicht auf bestimmte Spalten/Zeilen - Beispiel cctrips: Zeigt nur Kreditkarten-Fahrpreise aus der yellow-Tabelle

11. Was macht die Anfrage `SELECT * FROM ccstrips` bezugnehmend auf folgende View:¶

CREATE VIEW cctrips AS
SELECT "sum"("fare") "CreditCardFares"
FROM yellow
WHERE ("paytype"='1');

Antwort: 🔍 View-Abfrage Ausführung: - SELECT * FROM ccstrips: Wählt alle Spalten aus der View cctrips - Tatsächliche Ausführung:

SELECT "sum"("fare") "CreditCardFares"
FROM yellow
WHERE ("paytype"='1');

- Ergebnis: Eine Spalte namens "CreditCardFares" mit der Summe aller Kreditkarten-Fahrpreise - Hinweis: Typo in der Frage - "ccstrips" sollte "cctrips" sein

12. Was machen folgende SQL-Code-Zeilen (AWS CloudFormation Template)?¶

AWSTemplateFormatVersion: 2010-09-09
Resources:
  AthenaNamedQuery:
    Type: AWS::Athena::NamedQuery
    Properties:
      Database: "taxidata"
      Description: "A query that selects all fares over $100.00 (US)"
      Name: "FaresOver100DollarsUS"
      QueryString: >
        SELECT distance, paytype, fare, tip, tolls, surcharge, total
        FROM yellow
        WHERE total >= 100.0
        ORDER BY total DESC
Outputs:
  AthenaNamedQuery:
    Value: !Ref AthenaNamedQuery

Antwort: ☁️ AWS CloudFormation für Athena: - CloudFormation: Infrastructure-as-Code für AWS-Ressourcen - AthenaNamedQuery: Erstellt eine gespeicherte SQL-Abfrage in AWS Athena - Query-Details: - Database: taxidata (Ziel-Datenbank) - Purpose: Findet alle Fahrten über $100 Fahrpreis - SELECT: Wählt relevante Spalten (Distanz, Zahlungsart, Preise) - WHERE: Filtert total >= 100.0 Dollar - ORDER BY: Sortiert nach Gesamtpreis absteigend - Output: Referenz zur erstellten Named Query - Vorteil: Wiederverwendbare, vordefinierte Abfrage in Athena Console

Lernfeld 4: Securing and Scaling, Ingesting and Preparing Data, Ingesting by Batch or Stream (Module 5,6,7)¶

Securing and Scaling (M5)¶

1. In Ihrem Environment gab es verdächtige Aktivitäten. Nennen Sie zwei Maßnahmen, mit denen Sie gegensteuern können.¶

Antwort: - Monitoring/Logging (CloudWatch, CloudTrail für Aktivitätsverfolgung) - Access Control (IAM, Multi-Factor Authentication, Least Privilege)

2. Wie können Sie die Skalierbarkeit Ihrer Datenpipeline sicherstellen?¶

Antwort: - Auto Scaling (elastische Ressourcen) - Serverless Architecture (Lambda, managed services) - Load Balancing und horizontale Skalierung

Ingesting and Preparing Data (M6)¶

1. Was ist ein ETL-Dienst wie AWS Glue?¶

Antwort: 🔄 ETL = Extract, Transform, Load - 📥 Extract: Daten aus verschiedenen Quellen holen - Beispiele: Datenbanken, APIs, Files, Streams - ⚙️ Transform: Daten bereinigen und formatieren - Tasks: Duplikate entfernen, Formate anpassen, Validierung - 📤 Load: Bereinigte Daten in Zielsystem laden - Ziele: Data Warehouse, Data Lake, Analytics-Tools - AWS Glue Specifics: - Serverless (kein Server-Management) - Visual ETL Editor - Auto-scaling

2. Welche Vorteile ergeben sich durch ETL anstelle von ELT? Nehmen Sie folgende Grafik als Hilfe¶

Antwort: 🏭 ETL Vorteile (Transform BEFORE Load): - ✅ Bessere Datenqualität: - Fehler werden VOR dem Speichern gefunden - Nur saubere Daten im Zielsystem - 💾 Weniger Storage: - Müll wird vorher aussortiert - Kompaktere Datenstrukturen - 🔒 Sicherheit: - Sensitive Daten können vor Load anonymisiert werden - ⚡ Faster Queries: - Daten sind bereits optimiert für Analytics - 💰 Kosten: - Weniger Storage = weniger Kosten

3. Welche Vorteile ergeben sich durch ELT anstelle von ETL? Nehmen Sie folgende Grafik als Hilfe¶

Antwort: ☁️ ELT Vorteile (Load BEFORE Transform): - 🚀 Schnellere Datenaufnahme: - Rohdaten sofort verfügbar - Keine Wartezeit für Transformation - 🔧 Mehr Flexibilität: - Schema-on-Read: Struktur später definieren - Verschiedene Transformationen möglich - 🎯 Better for Big Data: - Cloud-Storage ist günstig und skalierbar - Parallel processing möglich - 🔄 Raw Data Preservation: - Original-Daten bleiben erhalten - Neue Analysemöglichkeiten später - ⚙️ Modern Architecture: - Passt besser zu Cloud-Native Systemen

4. Was versteht man unter Data Wrangling, wenn die Daten aus unterschiedlichen Quellen angezapft werden sollen?¶

Antwort: 🧹 Data Wrangling = Datenbereinigung für Analytics: - Definition: Rohdaten in analysierfähige Form bringen - Problem: Verschiedene Quellen = verschiedene Formate, Qualität - Ziel: Saubere, einheitliche Daten für ML/Analytics - Tools: Pandas, AWS Glue, Trifacta

5. Welche Schritte werden im Data Wrangling durchlaufen? Nehmen Sie folgende Grafik als Hilfe¶

Antwort: 🔄 4-Stufen Data Wrangling Process: Cleaning → Structuring → Enriching → Validating

6. Erklären Sie die vier Bereiche Cleaning, Structuring, Enriching und Validating in kurzen Worten. (Grafik oben als Hilfe)¶

Antwort: 📋 Data Wrangling Schritte im Detail: - 🧹 Cleaning (Säubern): - Duplikate entfernen, Null-Werte behandeln - Beispiel: "N/A" → NULL, Duplikate löschen - 🏗️ Structuring (Strukturieren): - Datentypen anpassen, Spalten umbenennen - Beispiel: String → DateTime, "Name" → "customer_name" - 💎 Enriching (Anreichern): - Externe Daten hinzufügen, neue Features erstellen - Beispiel: Geo-Coordinates zu Adressen hinzufügen - ✅ Validating (Validieren): - Datenqualität prüfen, Business Rules checken - Beispiel: Alter zwischen 0-120, E-Mail Format korrekt

Ingesting by Batch or Stream (M7)¶

1. Wenn Daten in eine Pipeline kommen sollen, kann das per Batch oder Stream erfolgen. Erklären Sie die grundlegenden Abläufe und Unterschiede.¶

Antwort: ⚖️ Batch vs Stream - Unterschiedliche Ansätze:

Aspekt	📦 Batch Processing	🌊 Stream Processing
Timing	Scheduled (z.B. täglich)	Kontinuierlich (24/7)
Datenmenge	Große Blöcke	Kleine Pakete
Latenz	Hoch (Stunden/Tage)	Niedrig (Sekunden)
Kosten	Günstig	Teuer
Beispiel	Tägliche Sales Reports	Live Fraud Detection

2. Können Sie sagen, welche Methode (Batch oder Stream) sich besser eignet um Daten einer Pipeline hinzuzufügen?¶

Antwort: 🎯 Use Case bestimmt die Methode: - 📦 Batch besser für: - Historische Analysen, Reports - Kostensensitive Anwendungen - Nicht-zeitkritische Daten - 🌊 Stream besser für: - Real-time Monitoring, Alerts - Interactive Applications - Zeitkritische Entscheidungen - 💡 Hybrid: Viele Firmen nutzen beide parallel

Lernfeld 5: Storing, Organizing and Processing Data (Module 8,9)¶

Storing and Organizing (M 8)¶

1. In AWS gibt es neben dem Simple Storage Service (S3) weitere Möglichkeiten Daten zu speichern. Nennen und beschreiben Sie zwei Weitere¶

Antwort: - EBS: Elastic Block Store für EC2-Instanzen (persistenter Block Storage) - EFS: Elastic File System für mehrere Instanzen (Network File System)

2. Nennen Sie die Unterschiede der beiden Ansätze Data Lake und Data Warehouse hinsichtlich Speicherung und Verwaltung der Daten.¶

Antwort: 🏊‍♂️ Data Lake vs 🏭 Data Warehouse:

Aspekt	🏊‍♂️ Data Lake	🏭 Data Warehouse
Datentyp	Alle Formate (Raw Data)	Nur strukturierte Daten
Schema	Schema-on-Read (später)	Schema-on-Write (vorher)
Flexibilität	Sehr hoch	Niedrig
Kosten	Günstig	Teuer
Verarbeitung	Langsam	Schnell
Use Case	Exploration, ML	Reports, BI

3. Nennen Sie einen Anwendungsfall, dessen Daten besser per Data Lake bzw. Data Warehouse verwaltet werden. Begründen Sie.¶

Antwort: Praktische Anwendungsfälle:

🏊‍♂️ Data Lake - Netflix Content Analysis: - Datentypen: Videos, Thumbnails, User-Logs, Reviews, Metadaten - Warum Lake: Verschiedene Formate, ML für Recommendations - Vorteil: Alle Rohdaten für zukünftige AI-Experimente

🏭 Data Warehouse - Bank Quarterly Reports: - Datentypen: Transaktionen, Kontostände, KPIs - Warum Warehouse: Strukturiert, compliance-ready, fast queries - Vorteil: Schnelle Finanzberichte für Regulatoren

4. Welche Kriterien spielen bei der Suche nach der optimalen Datenbank eine Rolle?¶

Antwort: 🎯 Datenbank-Auswahl Kriterien: - ⚡ Performance: Wie schnell sind Queries? (Latenz, Durchsatz) - 📈 Skalierbarkeit: Kann sie mit Datenwachstum mithalten? - 🔄 Konsistenz: ACID vs BASE (Strong vs Eventual Consistency) - 🔒 Verfügbarkeit: 99.9% Uptime? Disaster Recovery? - 💰 Kosten: Lizenz, Hardware, Personal, Wartung

5. Neben relationalen DB gibt es weitere Möglichkeiten Daten in DB zu verwalten. Nennen Sie eine weitere und geben Sie einen konkreten Anwendungsfall an.¶

Antwort: 🗄️ Alternative Datenbank-Typen: - 📄 NoSQL (MongoDB): - Use Case: E-Commerce Produktkataloge - Warum: Flexible Schemas für verschiedene Produkttypen - 🕸️ Graph DB (Neo4j): - Use Case: LinkedIn Verbindungen - Warum: Komplexe Beziehungen zwischen Personen - 📊 Time Series (InfluxDB): - Use Case: IoT Sensordaten - Warum: Optimiert für zeitbasierte Daten - ⚡ In-Memory (Redis): - Use Case: Session Storage, Caching - Warum: Ultra-schnelle Zugriffe

6. Amazon Redshift soll die Sicherheit der Daten gewährleisten. Dabei wird die Sicherheit des Service und der DB getrennt verwaltet. Was ist damit gemeint?¶

Antwort: Separation of Concerns - Service-Sicherheit (AWS-managed) getrennt von Daten-Sicherheit (Customer-managed) für bessere Kontrolle und Compliance.

Processing Big Data (M 9)¶

1. Was versteht man unter Big Data? Nennen Sie zwei Beispiele in der realen Welt?¶

Antwort: Daten, die traditionelle Verarbeitungsmethoden übersteigen. - Social Media Posts (Facebook, Twitter) - IoT-Sensordaten (Smart Cities, Industrie 4.0)

2. Big Data wird entweder per Batch data processing oder Streaming data processing verwaltet. Was sind Vor- und Nachteile der beiden Optionen hinsichtlich der Verwaltung von Big Data?¶

Antwort: - Batch: Hoher Durchsatz, Latenz akzeptabel, kostengünstiger ❌ Keine Echtzeit - Stream: Niedrige Latenz, Echtzeit-Insights ❌ Höhere Kosten, komplexer

3. Was sind die Herausforderungen bei der Analyse von Big Data?¶

Antwort: Storage-Kosten, Processing-Power, Datenqualität, Privacy/Security, Skalierung

Lernfeld 6: Processing Data for ML, Analyzing/Visualizing Data (Module 10,11)¶

Processing Data for Machine Learning (M 10)¶

1. Wie können Sie den Datenverarbeitungsprozess mit Pipelines automatisieren?¶

Antwort: CI/CD für Daten: Automated workflows, scheduled jobs, trigger-based processing mit Tools wie Airflow oder AWS Step Functions.

2. Was versteht man unter Data-Splitting im Kontext des Machine Learnings?¶

Antwort: Train/Validation/Test Split - Aufteilung der Daten zum Trainieren, Optimieren und Bewerten von ML-Modellen (z.B. 70/15/15).

3. Wie gehen Sie mit unbalancierten/unvollständigen Datensätzen um, wenn Sie ein Machine Learning Model trainieren möchten?¶

Antwort: - Unbalanciert: SMOTE, Undersampling, gewichtete Loss-Functions - Unvollständig: Imputation, Deletion, oder spezielle ML-Algorithmen

Analyzing and Visualizing Data (M 11)¶

1. Was sind Data Insights? Warum sind diese wichtig?¶

Antwort: Erkenntnisse aus Datenanalysen - wichtig für fundierte Geschäftsentscheidungen und Strategieentwicklung.

2. Welche grafischen Darstellungsmöglichkeiten für Insights sind Ihnen geläufig?¶

Antwort: Charts, Dashboards, Heatmaps, Scatter Plots, Time Series, Geospatial Maps

3. Wie beeinflussen Business Needs die Wahl des Visualisierungs-Tools?¶

Antwort: Zielgruppe bestimmt Komplexität: Executives brauchen High-Level Dashboards, Analysten detaillierte Interactive Tools.

4. Welcher Bereich der folgenden Grafik beschäftigt sich mit dem Thema von M 11?¶

Antwort: Interactive Analytics-Bereich - Athena, QuickSight, OpenSearch Service für Datenanalyse und Visualisierung.

Spezielle SQL und AWS Fragen¶

1. VIEW: Was macht eine View in SQL, für was wird sie verwendet? Erklären Sie anhand des Code-Beispiels¶

Antwort: 🎭 Virtuelle Tabelle für vereinfachte Queries:

CREATE VIEW cctrips AS
  SELECT "sum"("fare") "CreditCardFares"
  FROM yellow
  WHERE ("paytype"='1');

- Was ist eine View: Gespeicherte SELECT-Abfrage, keine echte Tabelle - Vorteile: - Vereinfacht komplexe Queries - Datensicherheit (nur bestimmte Spalten zeigen) - Wiederverwendbarkeit - Beispiel: View zeigt nur Kreditkarten-Fahrten (paytype='1') mit Summe

2. Was macht die Anfrage SELECT * FROM ccstrips bezugnehmend auf folgende View?¶

Antwort: 🔍 View-Abfrage Ergebnis: - Query: SELECT * FROM ccstrips - Resultat: Gibt alle Spalten der View zurück - Konkret: Zeigt "CreditCardFares" - Summe aller Kreditkarten-Fahrten - Hintergrund: SQL Engine führt automatisch die View-Definition aus - Performance: View wird bei jeder Abfrage neu berechnet

3. Was machen folgende SQL-Code-Zeilen? (AWS CloudFormation Template)¶

Antwort: ☁️ Infrastructure as Code - Athena Named Query:

AthenaNamedQuery:
  Type: AWS::Athena::NamedQuery
  Properties:
    Database: "taxidata"
    Description: "A query that selects all fares over $100.00 (US)"
    Name: "FaresOver100DollarsUS"
    QueryString: >
      SELECT distance, paytype, fare, tip, tolls, surcharge, total
      FROM yellow
      WHERE total >= 100.0
      ORDER BY total DESC

- AWS CloudFormation: Automatisiert AWS-Ressourcen Creation - Athena Named Query: Gespeicherte SQL-Abfrage in AWS Athena - Vorteil: Wiederverwendbare, versionierte Queries

4. Erklären Sie folgende SELECT-Anfrage im Detail¶

Antwort: 📊 Zeitbasierte Taxi-Trip Analyse:

SELECT count(count) AS "Number of trips",
       sum(total) AS "Total fares",
       pickup AS "Trip date"
FROM yellow WHERE pickup
between TIMESTAMP '2017-01-01 00:00:00'
    and TIMESTAMP '2017-02-01 00:00:01'
GROUP BY pickup;

- count(count): Anzahl Fahrten pro Tag - sum(total): Gesamtumsatz pro Tag
- pickup AS "Trip date": Fahrtdatum umbenennen - WHERE zwischen Timestamps: Nur Januar 2017 - GROUP BY pickup: Gruppierung nach Fahrtdatum - Zweck: Tägliche Umsatz-/Trip-Statistiken

5. Erklären Sie den SQL-DQL-Befehl¶

Antwort: 🔎 Data Query Language - Kreditkarten Analyse:

SELECT sum(total), paytype FROM creditcard
WHERE paytype = '1' GROUP BY paytype;

- DQL: Data Query Language - Teil von SQL für Datenabfragen - sum(total): Gesamtsumme aller Kreditkarten-Transaktionen - WHERE paytype = '1': Filter für Kreditkarten-Zahlungen - GROUP BY paytype: Gruppierung nach Zahlungstyp - Zweck: Umsatz-Analyse nach Zahlungsmethode

Quick Tips für das Gespräch

Kurz und prägnant antworten, dann ausführen
AWS-Services als konkrete Beispiele nutzen
Bei Unsicherheit: Grundkonzept erklären, dann Details
Trade-offs erwähnen (Performance vs Kosten, etc.)
Ruhig bleiben und strukturiert antworten

Fachgespräch Datenbanken - Cheat Sheet¶

Lernfeld 1: Data-Driven Organizations (Module 2)¶

1. Was versteht man unter einer "Data-Driven Organization"?¶

2. Welche Vorteile bieten datengetriebene Entscheidungen gegenüber intuitiven Entscheidungen?¶

3. Beschreiben Sie einen konkreten Anwendungsfall, in dem ein Unternehmen durch datengetriebene Entscheidungen einen Wettbewerbsvorteil erzielt hat¶

4. Welche Rolle spielen Datenanalysten und Datenwissenschaftler in einer datengetriebenen Organisation?¶

5. Erklären Sie die Zusammenhänge im folgenden Diagramm¶

6. Kennen Sie die Elemente einer Data-Pipeline?¶

7. Welche Methoden zur Datenauswertung stehen einer datengetriebenen Organisation zur Verfügung?¶

Lernfeld 2: The Elements of Data (Module 3)¶

1. Was sind strukturierte, halbstrukturierte und unstrukturierte Datentypen?¶

2. Was sind die fünf V's im Data-Bereich?¶

3. Was bedeutet Value, Veracity, Variety, Velocity und Volume?¶

4. Welches der fünf V's ist schlussendlich entscheidend für die Firma, welche die Datenpipeline nutzt und warum?¶

5. Wie beeinflussen sich Volumen und Geschwindigkeit einer Datenpipeline?¶

6. An der Börse müssen sehr viele Handelsaufträge (Hochfrequenzhandel) gleichzeitig verarbeitet und in Echtzeit analysiert werden. Wie lautet Ihre Analyse hinsichtlich Volumen und Geschwindigkeit in einer solchen Datenpipeline?¶

7. Schätzen Sie für die Börse aus der vorherigen Frage Value, Veracity und Variety ein¶

Lernfeld 3: Design Principles and Patterns for Data Pipelines (Module 4)¶

1. Wie werden mit den Amazon Services unterschiedliche Quellen vereinheitlicht um eine einzige Informationsquelle bereitzustellen?¶

2. Erklären Sie den Aufbau einer modernen Datenarchitektur am Beispiel der Amazon-Web-Services¶

3. In welcher Ebene (Verarbeitungsschicht, Verarbeitungsebene, Nutzungsebene und Verbrauchsebene) der Datenpipeline werden a) SQL-Abfragen getätigt und b) in nahezu Echtzeit Big-Data verarbeitet?¶

4. Was ist eine Streaming-Analytics-Pipeline, die Produzenten und Konsumenten umfasst?¶

5. Geben Sie einen Beispielworkflow an, wie Amazon Athena und Glue-Datenbanken miteinander zusammen arbeiten¶

6. Begriffsklärung: Für was steht SQL, DDL und DML?¶

7. Woher kommen die Daten für den CREATE-Befehl für die Tabelle? Gehen Sie dabei im speziellen auf die Zeilen 20-25 ein.¶

8. Erklären Sie folgende SELECT-Anfrage im Detail:¶

9. Erklären Sie den SQL-DQL-Befehl:¶

10. Was macht eine View in SQL, für was wird sie verwendet?¶

11. Was macht die Anfrage SELECT * FROM ccstrips bezugnehmend auf folgende View:¶

12. Was machen folgende SQL-Code-Zeilen (AWS CloudFormation Template)?¶

Lernfeld 4: Securing and Scaling, Ingesting and Preparing Data, Ingesting by Batch or Stream (Module 5,6,7)¶

Securing and Scaling (M5)¶

1. In Ihrem Environment gab es verdächtige Aktivitäten. Nennen Sie zwei Maßnahmen, mit denen Sie gegensteuern können.¶

2. Wie können Sie die Skalierbarkeit Ihrer Datenpipeline sicherstellen?¶

Ingesting and Preparing Data (M6)¶

1. Was ist ein ETL-Dienst wie AWS Glue?¶

2. Welche Vorteile ergeben sich durch ETL anstelle von ELT? Nehmen Sie folgende Grafik als Hilfe¶

3. Welche Vorteile ergeben sich durch ELT anstelle von ETL? Nehmen Sie folgende Grafik als Hilfe¶

4. Was versteht man unter Data Wrangling, wenn die Daten aus unterschiedlichen Quellen angezapft werden sollen?¶

5. Welche Schritte werden im Data Wrangling durchlaufen? Nehmen Sie folgende Grafik als Hilfe¶

6. Erklären Sie die vier Bereiche Cleaning, Structuring, Enriching und Validating in kurzen Worten. (Grafik oben als Hilfe)¶

Ingesting by Batch or Stream (M7)¶

1. Wenn Daten in eine Pipeline kommen sollen, kann das per Batch oder Stream erfolgen. Erklären Sie die grundlegenden Abläufe und Unterschiede.¶

2. Können Sie sagen, welche Methode (Batch oder Stream) sich besser eignet um Daten einer Pipeline hinzuzufügen?¶

Lernfeld 5: Storing, Organizing and Processing Data (Module 8,9)¶

Storing and Organizing (M 8)¶

1. In AWS gibt es neben dem Simple Storage Service (S3) weitere Möglichkeiten Daten zu speichern. Nennen und beschreiben Sie zwei Weitere¶

2. Nennen Sie die Unterschiede der beiden Ansätze Data Lake und Data Warehouse hinsichtlich Speicherung und Verwaltung der Daten.¶

3. Nennen Sie einen Anwendungsfall, dessen Daten besser per Data Lake bzw. Data Warehouse verwaltet werden. Begründen Sie.¶

4. Welche Kriterien spielen bei der Suche nach der optimalen Datenbank eine Rolle?¶

5. Neben relationalen DB gibt es weitere Möglichkeiten Daten in DB zu verwalten. Nennen Sie eine weitere und geben Sie einen konkreten Anwendungsfall an.¶

6. Amazon Redshift soll die Sicherheit der Daten gewährleisten. Dabei wird die Sicherheit des Service und der DB getrennt verwaltet. Was ist damit gemeint?¶

Processing Big Data (M 9)¶

1. Was versteht man unter Big Data? Nennen Sie zwei Beispiele in der realen Welt?¶

2. Big Data wird entweder per Batch data processing oder Streaming data processing verwaltet. Was sind Vor- und Nachteile der beiden Optionen hinsichtlich der Verwaltung von Big Data?¶

3. Was sind die Herausforderungen bei der Analyse von Big Data?¶

Lernfeld 6: Processing Data for ML, Analyzing/Visualizing Data (Module 10,11)¶

Processing Data for Machine Learning (M 10)¶

1. Wie können Sie den Datenverarbeitungsprozess mit Pipelines automatisieren?¶

2. Was versteht man unter Data-Splitting im Kontext des Machine Learnings?¶

3. Wie gehen Sie mit unbalancierten/unvollständigen Datensätzen um, wenn Sie ein Machine Learning Model trainieren möchten?¶

Analyzing and Visualizing Data (M 11)¶

1. Was sind Data Insights? Warum sind diese wichtig?¶

2. Welche grafischen Darstellungsmöglichkeiten für Insights sind Ihnen geläufig?¶

3. Wie beeinflussen Business Needs die Wahl des Visualisierungs-Tools?¶

4. Welcher Bereich der folgenden Grafik beschäftigt sich mit dem Thema von M 11?¶

Spezielle SQL und AWS Fragen¶

1. VIEW: Was macht eine View in SQL, für was wird sie verwendet? Erklären Sie anhand des Code-Beispiels¶

2. Was macht die Anfrage SELECT * FROM ccstrips bezugnehmend auf folgende View?¶

3. Was machen folgende SQL-Code-Zeilen? (AWS CloudFormation Template)¶

4. Erklären Sie folgende SELECT-Anfrage im Detail¶

5. Erklären Sie den SQL-DQL-Befehl¶

11. Was macht die Anfrage `SELECT * FROM ccstrips` bezugnehmend auf folgende View:¶