ICT-News Dach

Richtungsbestimmung zur Datenschwemme

Holm Landrock

 Das Hype-Thema Big Data hat das Tal der Desillusionierung längst durchschritten und greift in immer mehr Unternehmen aus unterschiedlichsten Branchen Fuß. Ein breites Spektrum an Software ist inzwischen verfügbar (siehe auch hier). Mit der Verfügbarkeit dieser Lösungen nahezu aller Klassen und Größen für die verschiedensten Aufgaben sind auch Entwicklungsumgebungen entstanden, mit denen sich die Funktionen der verschiedenen Tools mitunter schon recht komfortabel zu Lösungen zusammenfügen lassen. Mit der Rechentechnik, den funktionalen Softwarebausteinen und den Entwicklungsumgebungen gilt es nun, noch einmal zu prüfen, ob, wo und wie Big-Data-Technologien ein Anwenderunternehmen im Wettbewerb nach vorn bringen können. Der Anwendungsszenarien sind inzwischen sehr viele beschrieben. Diese lassen sich in allen Branchen adaptieren. Doch zwei Fragen bleiben als Hausaufgaben offen: Welche Anwendungsszenarien passen zu welchem Unternehmen? Ist das Unternehmen überhaupt reif für Big-Data-Technologien? Einen Beitrag zur Beantwortung dieser Fragen liefert die Untersuchung der Datenarten und Datenvolumina in einem Unternehmen.

Datenarten

Da sind zunächst die im Unternehmen erzeugten Daten: Maschinendaten, Materialdaten, Anlagendaten, Daten aus Warenwirtschaftssystemen und ERP-Daten. Hinzu kommen Daten aus der Kommunikation und Steuerung mit Partnern und Lieferanten. Das sind vor allem die Daten aus E-Mails, aus den EDI-Lösungen und den Supply-Chain-Management-Systemen. Hinzu kommen die Daten der Kunden in den CRM-System und den angeschlossenen Rechnungs- und Buchführungsdokumenten. Damit sollte sich schon eine ganze Menge veranstalten lassen.

Externe Daten erweitern die Palette: Wetter, Verkehr, Social Media, Statistiken, soziodemografische Daten und vieles mehr. Vielfach sind Daten öffentlich zugänglich, beispielsweise beim Deutschen GeoForschungsZentrum Potsdam, bei Bundesbehörden (wenn hier auch manchmal mit Umwegen) beim Statistischen Bundesamt und bei Marktforschungsunternehmen.

Anwenderunternehmen, die allein schon bei dieser Aufzählung von Datenarten fast überall ein Häkchen machen können und noch immer keine Data Lakes haben und keine Big-Data-Analysen fahren, verpassen Chancen. Fast alle diese Daten – personenbezogene Daten ausgenommen – können ohne rechtliche Probleme für Analysen genutzt oder in einer Form weitervermarktet werden. Seit jeher ist es eine der wichtigsten Anwendungen von Big-Data-Technologien, vorhandene Daten zu neuen Informationen zu verarbeiten, die für das eigene oder andere Unternehmen interessant sind.

Umsetzung

Damit aus diesen Daten neue Erkenntnisse werden, die sich vermarkten oder für eigene neue Geschäftsprozesse und Geschäftsmodelle nutzen lassen, ist es keine schlechte Idee, zunächst über eine neue geeignete Hardware nachzudenken. Anschließend kann ein Automat gebaut werden, mit dem die Daten in einen Data Lake geschwemmt werden. Treten beim Einspielen der Daten Fehler auf, so sollten diese nicht auf dem Zielsystem korrigiert werden, sondern es sind dann die Exportregeln auf der Quellseite zu korrigieren. Das gilt auch für die Daten aus externen Quellen. Liegen alle Daten vor, können Data Scientist dann mit diesen Daten experimentieren und die entsprechenden Apps entwickeln. So vermeiden Anwender einen häufig vorzufindenden Fallstrick bei der Entwicklung von Big-Data-Projekten: Solange die Projekte auf den alten Systemen mit den alten Daten und Anwendungen entwickelt werden, ist das Risiko hoch, dass das Big-Data-Projekt schlussendlich nur einen uralten Geschäftsprozess optimiert.

Wichtig ist die ergebnisoffene Projektanlage

Die Projekten müssen dabei ergebnisoffen angelegt werden. Weil die entsprechenden Technologien auf dem Markt sind und teils mit kostengünstigen Open-Source-Lösungen gearbeitet werden kann, wäre es ein großes Versäumnis, nicht mit der Analyse der vorhandenen Daten zu beginnen. ISG hat es sich auf die Fahnen geschrieben, die Anwender beim Sourcing der Big-Data-IT-Infrastruktur zu unterstützen. Das gilt auch für die Ermittlung des „Datenreifegrades“ der Anwenderunternehmen.