Der Internet-Konzern erweitert sein Big-Data-Portfolio um einen Managed Service zum Aufsetzen, Verwalten und Entfernen von Spark- und Hadoop-Clustern.
Unter dem Namen Cloud Dataproc hat Google einen neuen Managed-Cloud-Service veröffentlicht, mit dem Unternehmen auf den Cluster-Management-Frameworks Apache Hadoop oder Apache Spark basierende Cluster rasch aufsetzen, diese verwalten und auch wieder entfernen können sollen. Spark ist ein quelloffenes, auf In-Memory-Verarbeitung setzendes Framework für Berechnungen auf Clustern, das viele mittlerweile als legitimen Nachfolger des Big-Data-Framework Hadoop sehen.
Die Geschwindigkeit zum Erstellen der Cluster mit Cloud Dataproc sieht Google als einen der größten Vorteile des neuen Dienstes an. Das Bereitstellen lokaler Installationen oder über IaaS-Anbieter (Infrastructure as a Service) würde für gewöhnlich zwischen fünf und dreißig Minuten dauern. Mit Cloud Dataproc ginge Vergleichbares innerhalb von 90 Sekunden oder sogar in noch geringerer Zeit, heißt es in der Ankündigung des nun als offene Beta angebotenen Service. Anwender hätten dadurch mehr Zeit für das Arbeiten mit ihren Daten.
Der Managed-Dienst integriert sich mit Googles Cloud-Services wie BigQuery, Cloud Storage, Cloud BigTable, CloudLogging und Cloud Monitoring. Die Interaktion mit den Clustern kann außerdem mit der Google Developers Console, dem Cloud SDK des Anbieters oder der REST API von Cloud Dataproc erfolgen. Derzeit implementiert der Dienst Spark 1.5 und Hadoop 2.7.1, die gegenwärtig aktuellsten Versionen der Frameworks, genauso wie fortwährend die jüngsten Releases der Highlevel-Plattform zum Entwickeln von MapReduce-Jobs Apache Pig oder die Data-Warehouse-Software für Hadoop Apache Hive unterstützt werden. Sämtliche durch Hadoop und Spark unterstützte Programmiersprachen werden durch Cloud Dataproc bedient, beispielsweise Java, Scala, Python und R.
Die Preisgestaltung beläuft sich auf stündlich 0,01 US-Dollar pro virtueller CPU im Cluster. Cloud-Dataproc-Cluster Dataproc enthalten sogenannte "preemptible" VM-Instanzen, wodurch sich offenbar die Kosten noch reduzieren lassen. Während viele Anbieter die Nutzung auf die nächste Stunde runden, erfolgt bei Cloud Dataproc eine genaue Abrechnung im Rahmen eines 10-minütigen Mindestabrechnungszeitraum auf Minutenbasis.