ICT-News Dach

Big Data – zwischen Speicherung und Archivierung

Holm Landrock

Bei der Analyse von immer größeren Datenmengen wird es zunehmend interessant, sich auch damit zu beschäftigen, wie diese Daten aufbewahrt werden. Dabei gibt es strategische, organisatorische, technische und gesetzliche Rahmenbedingungen. Eine Einordnung der Daten nach ihrem „technischen“ Charakter hilft bei der Auswahl der Speicherumgebung: Data Warehouses und Online-Datenbanken sind für die kritischen Daten sicherlich am sinnvollsten. Online-Transaktionssysteme und Streaming-Analytics-Lösungen sind für die Massendaten eine gute Idee.

  • Mit dieser ersten Einteilung ordnet man die Daten den Speichersystemen zu:
  • Online-Storage für alle kritischen Daten
  • Online- oder Nearline Storage für die Gebrauchsdaten
  • Offline-Storage für Massendaten und Archivdaten sowie
  • Edge-Computing-Lösungen für die Verarbeitung von Daten am Ort des Entstehens.

Archivierung von Big Data

In dieser Ausgabe des Newsletters wollen wir uns mit der Archivierung von Big Data beschäftigen. Hier sind Offline-Storage-Systeme wie Tape Libraries die favorisierte Lösung. Das Volumen von Tape Libraries lässt sich leicht erweitern, am einfachsten über zusätzliche Datenträger. Die Datenträger gelten als dauerhaft und robust. Die Technologien sind bewährt und im Petabytesbereich bewährt. Teils reicht die Speicherkapazität in den Exabytesbereich mit Datenübertragungsraten von mehreren hundert Terabyte/Stunde. Fujitsu, HPE, IBM, Oracle, Overland und Quantum sind hier namhafte Anbieter.

Verlockend klingen virtuelle Tape Libraries. Während diese Lösungen die Funktionalität einer klassischen Tape Library mit dem Komfort virtueller Systeme (Konfigurierbarkeit, Erweiterbarkeit, Geschwindigkeit je nach eingesetzter Hardware) kombinieren und so zum Beispiel für die kurzfristige Speicherung im Backup geeignet sind, sind die virtuellen Tape Libraries für die Archivierung weniger geeignet. Die Anwender werden auch große Mühe haben, hier einen Anbieter zu finden, der die Verfügbarkeit und Haltbarkeit von Bandspeicher auch für virtuelle Lösungen zusichern würde.

Aspekte für die Auswahl von Archivsystemen

Das führt uns zu einem der wichtigsten Aspekte bei der Auswahl von Systemen für die Archivierung: Gerne werden alte Backups als Archive bezeichnet. Das mag sich technisch grundsätzlich darstellen lassen, entspricht aber nicht der Definition. Archive sind Daten, die zwar über lange Zeiträume revisionssicher aufbewahrt werden müssen, aber nicht mehr verändert werden dürfen. Virtuelle Systeme sind dafür zunächst einmal grundsätzlich ungeeignet, weil sich wohl kaum ein Hersteller oder Service Provider auf eine 30-jährige Gewährleistung der Dienste festnageln lassen wird. 30 Jahre sind aber für viele Daten die Mindestaufbewahrungsfrist. Das ist länger als die Berliner Mauer stand und als die Berliner Mauer gefallen ist.

Die Dateiart ist ein wichtiger Faktor

Allerdings sind auch nicht alle Daten von derartig langen Aufbewahrungsfristen betroffen. Deswegen ist es vor der Auswahl der Technik und der Anbieter wichtig zu untersuchen, welche Dateiarten im Unternehmen überhaupt vorhanden sind. Diese Dateiarten haben spezifische Inhalte, die schlussendlich die Aufbewahrungsfrist festlegen. Des Weiteren muss untersucht werden, ob die Datei die originären Informationen enthält oder nur eine Sicht auf die Information darstellt. Gerade bei Big-Data-Projekten können sehr schnell sehr viele Dateien angehäuft werden, die von ganz unterschiedlichen Algorithmen unternehmensweit und -übergreifend angehäuft werden.

Vielfach basieren Big-Data-Analysen auf Streaming Data. Große Mengen an Messwerten (als plakatives Beispiel seien Daten für die Überwachung des Verhaltens von Autofahrern im Rahmen eines verhaltensbasierenden Versicherungstarifs genannt) werden dazu erzeugt und verarbeitet. Interessant ist hier wiederum die Überlegung, welche Daten dann zu späteren Nachweisen erhalten bleiben müssen.

Falls sich ermitteln lässt, welche Informationen als welche Datei archiviert werden müssen, wird auch deutlich, ob eine große Bandbibliothek oder andere Speichermedien die schlussendlich gescheite Wahl sind und wie die Systeme dimensioniert werden sollten.