ICT-News Dach

Online-Storage für die Big-Data-Gebrauchsdaten

Holm Landrock

In unserer Reihe mit Überlegungen zu den aktuellen Speicherarchitekturen und -systemen für Big-Data-Anwendungen möchten wir in dieser Ausgabe unseres Newsletters über die Lösungen für die Daten nachdenken, die gerade nicht direkt verarbeitet werden und auf die in Kürze zugegriffen werden muss. Der Zugriff auf solche Daten findet innerhalb einer Zeitspanne statt, die von wenigen Minuten bis zu wenigen Tagen dauern kann.

Arten der Daten und Speichersysteme

Nehmen wir beispielsweise Daten aus Geoinformationssystemen, Daten aus Buchungs- und Bestellsystemen, Daten aus komplexen Datenbanken wie zum Beispiel Moleküldatenbanken in der Pharmaforschung und ähnlichen Informationen, auf die ständig, aber in unregelmäßigen Zeitabständen zugegriffen wird, wenn eine Big-Data-Analyse Teile dieser Daten für „einen Blick aufs Ganze“ benötigt. Diese Daten auf Band oder andere Langzeitspeicher auszulagern, ist möglich, aber nicht immer sinnvoll. Dabei könnte ein einfaches Schema helfen, zu entscheiden, ob Tape oder drehende Platten oder SSDs das Mittel der Wahl sind. Drei Faktoren fließen in die Überlegung ein: die Zeit, bis die Daten in der Berechnung benötigt werden (die Zeit vom Speicher bis in den RAM); die Häufigkeit der Zugriffe und das zu transportierende Volumen. Diese Faktoren bestimmen, ob dateiorientiertes Speichern, blockorientiertes Speichern oder objektorientiertes Speichern die Methode der Wahl sind. Für Höchstleistungsanwendungen (HPC) wird derzeit sogar an byteorientierten Speicherzugriffen gearbeitet (dort zum Beispiel von Fujitsu und Intel).

Dateiorientierte Systeme lassen sich besonders leicht in die bestehenden Infrastrukturen implementieren, und es gibt sehr gute Dateimanagementlösungen für den gemeinsamen Zugriff auf Dateien. Blockorientierte Speichersysteme (typischerweise mit Fibre-Channel- oder SATA-Protokoll) eignen sich für große Datenvolumina, vor allem, wenn diese häufig geändert werden. Beide Verfahren haben gewisse Grenzen hinsichtlich des Speicherns von Metadaten, weil sie hier auf die Fähigkeiten des Dateisystems beschränkt sind. Objektorientierte Speichersysteme, wie sie seit geraumer Zeit durch das REST-Protokoll an Aufmerksamkeit gewonnen haben, kommen für weniger häufig veränderte Daten ins Spiel, wie sie beispielsweise auf verteilten Umgebungen und in der Cloud abgelegt werden. Dateien und Metadaten für die Dateien sind hier miteinander verknüpft. Je mehr Dateien auf unterschiedliche Systeme verteilt werden, desto stärker kann das objektorientierte Speichern seine Stärken ausspielen. Die für Big-Data-Analysen interessanten Informationen stecken oft in den unstrukturierten Daten, die typischerweise mit dateiorientierten Verfahren abgelegt sind.

Herausforderung Bestandsdaten

Allerdings gibt es in den meisten Unternehmen Datenberge, die über Jahre hinweg gewachsen sind. Moderne Speicherverfahren sind aus organisatorischen und wirtschaftlichen Gründen für neu entstehende Daten sinnvoll. Ein Umzug von Terabytes und Petabytes an vorhandenen Daten auf neue Systeme ist in den wenigsten Fällen sinnvoll. Für einen effizienteren Zugriff auf vorhandene Datenberge lohnt es sich, weitere Verfahren wie das Clustern von dateiorientierten Speichersystemen in die Konzeption von Speicherlandschaften einzubeziehen. Dabei wird ein verteiltes Dateisystem vor die dateiorientierten Speichersysteme gelegt. Die angeschlossenen Speichersysteme wirken dann wie eine große Datenlandschaft, vor allem bei Speichersystemen von verschiedenen Anbietern.

Welche Verfahren optimal ist und welche Hersteller dann die geeigneten Systeme für die jeweiligen Verfahren liefern können, zeigt sich in einer Analyse der vorhandenen System- und Applikationslandschaft sowie der angestrebten Datenanalysen. Die Zeit, in der die Daten im RAM sein sollen, die Menge und die Häufigkeit der Zugriffe können nur die ersten Anhaltspunkte sein.