Eine neue Datenplattform: Effizienter, vernetzter, zukunftssicher
Die SRG arbeitet in fünf Unternehmenseinheiten, deren Redaktionen Metadaten zu Medien, wie Radio- und Fernsehsendungen oder Artikel für die Website generieren und austauschen. Existierende Schnittstellen wurden für den Datenaustausch von spezifischen Use Cases erstellt und sind für andere Zwecke, wie z.B. übergreifende Analysen, oft nicht oder nur schwer nutzbar. Eine zentrale Datenplattform soll diesen Austausch durch eine einheitliche Schnittstelle und ein konsistentes Datenmodell vereinfachen, unstrukturierte Daten transformieren und eine zeit- und bedarfsgerechte Datenbereitstellung ermöglichen.
Teams, Daten und Systeme verbinden
In den fünf Unternehmenseinheiten der SRG arbeiten Teams, wie z.B. die Redaktionen autonom, aber auch gemeinsam. Diese Teams erzeugen einerseits publikationsrelevante Daten, verarbeiten aber auch Daten anderer Teams. Eine Vielzahl von Systemen sind im Einsatz, die während des Medienprozesses laufend Metadaten generieren.
”Dank der Expertise von Panter im Bereich Software Engineering und Lösungsarchitektur konnte der Proof of Concept erfolgreich zu einer resilienten und skalierbaren Datenplattform weiterentwickelt werden.
Joël SchmidCo-Lead Daten & KI, SRG
Warum Datenanalysen mit grossem Aufwand verbunden sind
Der Datenaustausch zwischen den Teams ist komplex. Schnittstellen werden bilateral zwischen den Teams für einen spezifischen Datenaustausch geschaffen und sind teilweise nur sehr eingeschränkt für andere Anwendungsfälle nutzbar. Die Datenlandschaft ist sehr heterogen und die Schnittstellen und Datenstrukturen sind je nach System und Prozess teilweise unterschiedlich, sodass Auswertungen für organisationsweite Analysen sehr zeitaufwändig sind.
Von isolierten Systemen zur zentralen Datenquelle
Mit einer zentralen Datenplattform sollen publikationsrelevante Metadaten aller Unternehmenseinheiten über eine einheitliche Schnittstelle und ein einheitliches Datenmodell unternehmensweit zur Verfügung gestellt werden.
Die Datenproduzenten sollen unstrukturierte Daten einspeisen können, die von der Plattform in ein einheitliches Datenmodell transformiert werden. Dadurch wird der Aufwand für die Datenbereitstellung erheblich reduziert.
Die Plattform ermöglicht es, zusammengehörige Daten aus verschiedenen Quellsystemen miteinander zu korrelieren, um übergreifende Auswertungen zu erleichtern. Darüber hinaus kann die Plattform Daten sowohl ereignisgesteuert in Echtzeit als auch auf Anfrage an Datenkonsumenten bereitstellen.
Alles auf einen Blick: Publikationsmetadaten so zugänglich wie nie
Mit der entwickelten Datenplattform (Publication Data Platform, kurz: PDP) haben wir folgendes erreicht:
- Erhöhte Auffindbarkeit und ein verbessertes Sucherlebnis für die Inhalte der gesamten SRG auf digitalen Plattformen
- Publikationsmetadaten aus verschiedenen Quellen, z.B. die Metadaten der Tagesschau-Hauptausgabe vom 3.10.2024 im Archiv, können mit den Metadaten derselben Tagesschau-Hauptausgabe auf SRF Play verknüpft und angereichert werden
- Schneller und einfacher Zugriff auf Publikationsmetadaten aus verschiedenen Quellen zur Unterstützung von Publikumsforschung, KI-Anreicherung und Big-Data-Analysen
- Zugriff auf alle verfügbaren Publikationsmetadaten für interne und externe Nutzer*innen, Dritte und B2B-Partner*innen
- Überregionale Daten-Governance und Reporting an die Aufsichtsbehörden anstelle verschiedener sprachregionaler Lösungen
- Ein Sicherheitsniveau, das dem SRG-Standard in Bezug auf Vertraulichkeit, Verfügbarkeit und Integrität entspricht
Die Technologie hinter der neuen Datenplattform
Die PDP wurde in erster Linie entwickelt, um unstrukturierte Daten aus verschiedenen Unternehmenseinheiten zu vereinheitlichen und zentral bereitzustellen. Die heterogenen Daten gelangen zunächst über REST-APIs in das System, wo sie in MongoDB gespeichert werden. Anschliessend werden sie per Kafka-Nachrichten an Datenextraktoren übermittelt, die sie in ein standardisiertes Datenmodell transformieren. Die Daten werden den Konsument*innen entweder über Kafka oder einer REST API zur Verfügung gestellt. So entsteht eine konsistente Datenbasis, die vielfältige Anwendungsfälle unterstützt und die unternehmensweite Auswertung vereinfacht.
- Kafka dient als zentrales Messaging-System für die Echtzeit-Datenverarbeitung und ermöglicht einen zuverlässigen und asynchronen Austausch zwischen den verschiedenen Datenkonsumenten und der Plattform.
- MongoDB wird als NoSQL-Datenbank eingesetzt, um unstrukturierte und strukturierte Daten zu speichern und für weitere Verarbeitungsschritte verfügbar zu machen.
- Quarkus, ein optimiertes Framework für Cloud-native Anwendungen, bildet die Grundlage für die Entwicklung von REST-APIs dar, die als einheitliche Schnittstelle zur Plattform dienen. Diese APIs ermöglichen einen einfachen Zugang zu den Daten für die verschiedenen Unternehmenseinheiten.
- In der AWS Cloud nutzen wir verschiedene Dienste, um die Infrastruktur der gesamten Datenplattform zu betreiben:
- EKS (Elastic Kubernetes Service) hostet die Services der Plattform und sorgt für Skalierbarkeit und Ausfallsicherheit.
- S3 wird für die Speicherung grosser Datenmengen verwendet, insbesondere für Rohdaten, die von den Standardsystemen ohne Schnittstellen geliefert werden. SNS und SQS werden verwendet, um die Datenplattform zu benachrichtigen, wenn sich Dateien in S3 ändern.
- OpenSearch wird für die Volltextsuche und die Analyse der Daten verwendet, um schnelle und gezielte Abfragen zu ermöglichen.
- Kotlin ist die primäre Programmiersprache, die für die Implementierung der Datenplattform verwendet wurde, wobei ein Proof of Concept (PoC) in Scala durchgeführt wurde.
Flurin Capaul, VP Clients
Interessiert an einer Zusammenarbeit?
Kontaktieren Sie Flurin und lassen Sie sich von einem Partner unterstützen, der auf langjährige Erfahrung zurückgreifen kann.