Cloud Data Warehouse Benchmarks

Die Data-Warehousing-Lösungen sind nicht einfach zu vergleichen, da die Bewertung der Leistung, die sie für das ausgegebene Geld bieten, sehr aufwändig ist. Bestehende Studien stützen sich in der Regel auf die TPC Performance-Benchmark-Datensätze. Das TPC (Transaction Processing Performance Council) ist eine Non-Profit-Organisation, die gegründet wurde, um Transaktionsverarbeitungs- und Datenbank-Benchmarks zu definieren und objektive, überprüfbare Leistungsdaten in der Branche zu verbreiten. Dieser Benchmark, bei dem komplette OLTP-Systemkonfigurationen gemessen werden, ist ein von der Branche allgemein akzeptierter Maßstab.

Vergleich von Cloud-Datenbanken

Die Überprüfung der Ergebnisse durch das TPC als unabhängige Instanz gewährleistet sowohl Objektivität als auch Reproduzierbarkeit. Dennoch sind die Ergebnisse der Performance-Tests nur schwer vergleichbar, da die Produkte unterschiedliche Stufen von Pre-Cashing und Abfrageoptimierung im Hintergrund verwenden. In der Regel werden die Tests auf kalten Maschinen durchgeführt, während viele Produkte ihre volle selbstoptimierende Leistung erst entfalten, nachdem viele Abfragen ausgeführt wurden.

Studien

Hier sind drei Studien, die sich mit Cloud Data Warehouses beschäftigen:

  1. Cloud Data Warehouse Benchmark, durchgeführt von Fivetran auf TPC-DS und veröffentlicht am 10. September 2018.
  2. Data Warehouse in the Cloud Benchmark, durchgeführt von GigaOM für Microsoft auf TPC-H und veröffentlicht am 22. Januar 2019.
  3. Interactive Analytics: Redshift vs Snowflake vs BigQuery durchgeführt von Periscope auf unbekannten Daten und veröffentlicht am 20.10.2016.

Merkmale

Die Data-Warehousing-Produkte unterscheiden sich in ihrer Fähigkeit zur automatischen Performance-Optimierung, der automatischen Skalierung der Clustergröße, der Fähigkeit zur Verarbeitung von Semi-Strukturdaten und vielen weiteren Aspekten. Eine gute Ressource, um Datenbankfunktionen in Tabellenform zu vergleichen, ist die Wissensdatenbank DB-engine. Die Seite wird von einer Firma namens solidIT GmbH mit Sitz in Österreich betrieben und bietet eine umfangreiche Bibliothek von Produkteigenschaften.

Während die DB-engine-Website eher tabellarische Daten liefert, die für einen direkten Vergleich nützlich sind, vergleicht der von GigaOm im Jahr 2017 veröffentlichte Bericht Sector Roadmap: Cloud Analytic Databases Data-Warehouse-Lösungen anhand von 6 Kategorien (Robustheit von Sql, eingebaute Optimierung, on-the-fly Elastizität, dynamische Umgebungsanpassung, Trennung von Compute und Storage, Unterstützung für diverse Daten). Dies ist ein sehr ausgefeilter qualitativer Ansatz, um Data-Warehousing-Lösungen zu vergleichen.

Preismodelle

Die Data-Warehousing-Produkte haben divergierende Preismodelle:

  1. Abrechnung auf Basis der gescannten Daten (BigQuery).
  2. Abrechnung auf Basis des Speichers und der Betriebszeit der Rechenknoten (Snowflake, Azure SQL DWH)
  3. Abrechnung auf Basis der Betriebszeit von kombinierten Rechen- und Speicherknoten (Redshift)

Technischer Stand

Sowohl für Amazon Redshift als auch für das Azure SQL DWH finden wir ausführliche technische Dokumentationen auf den jeweiligen Unternehmenswebseiten (Amazon Redshift, Azure Synapse. Im Gegensatz dazu ist Snowflake sehr vage mit der Erklärung der zugrundeliegenden Architektur ihres Produkts (Snowflake) und Google stellt keine offiziellen Informationen zu BigQuery zur Verfügung, abgesehen von einigen Whitepapers, die schon vor längerer Zeit veröffentlicht wurden (BigQuery).

Für allgemeine Konzepte wie Columnar Storage und Massive Parallel Processing verweisen wir auf Wikipedia (Columnar Storage, Massive Parallel Processing). Zur Komprimierung ist die Redshift-Dokumentation gut geschrieben und gilt auch für andere Data Warehouse-Produkte (Komprimierung).