”Dank der Expertise von Panter im Bereich Software Engineering und Lösungsarchitektur konnte der Proof of Concept erfolgreich zu einer resilienten und skalierbaren Datenplattform weiterentwickelt werden.
Joël SchmidCo-Lead Daten & KI, SRG
Mit der entwickelten Datenplattform (Publication Data Platform, kurz: PDP) haben wir folgendes erreicht:
- Erhöhte Auffindbarkeit und ein verbessertes Sucherlebnis für die Inhalte der gesamten SRG auf digitalen Plattformen
- Publikationsmetadaten aus verschiedenen Quellen, z.B. die Metadaten der Tagesschau-Hauptausgabe vom 3.10.2024 im Archiv, können mit den Metadaten derselben Tagesschau-Hauptausgabe auf SRF Play verknüpft und angereichert werden
- Schneller und einfacher Zugriff auf Publikationsmetadaten aus verschiedenen Quellen zur Unterstützung von Publikumsforschung, KI-Anreicherung und Big-Data-Analysen
- Zugriff auf alle verfügbaren Publikationsmetadaten für interne und externe Nutzer*innen, Dritte und B2B-Partner*innen
- Überregionale Daten-Governance und Reporting an die Aufsichtsbehörden anstelle verschiedener sprachregionaler Lösungen
- Ein Sicherheitsniveau, das dem SRG-Standard in Bezug auf Vertraulichkeit, Verfügbarkeit und Integrität entspricht
Die Technologie hinter der neuen Datenplattform
- Kafka dient als zentrales Messaging-System für die Echtzeit-Datenverarbeitung und ermöglicht einen zuverlässigen und asynchronen Austausch zwischen den verschiedenen Datenkonsumenten und der Plattform.
- MongoDB wird als NoSQL-Datenbank eingesetzt, um unstrukturierte und strukturierte Daten zu speichern und für weitere Verarbeitungsschritte verfügbar zu machen.
- Quarkus, ein optimiertes Framework für Cloud-native Anwendungen, bildet die Grundlage für die Entwicklung von REST-APIs dar, die als einheitliche Schnittstelle zur Plattform dienen. Diese APIs ermöglichen einen einfachen Zugang zu den Daten für die verschiedenen Unternehmenseinheiten.
- In der AWS Cloud nutzen wir verschiedene Dienste, um die Infrastruktur der gesamten Datenplattform zu betreiben:
- EKS (Elastic Kubernetes Service) hostet die Services der Plattform und sorgt für Skalierbarkeit und Ausfallsicherheit.
- S3 wird für die Speicherung grosser Datenmengen verwendet, insbesondere für Rohdaten, die von den Standardsystemen ohne Schnittstellen geliefert werden. SNS und SQS werden verwendet, um die Datenplattform zu benachrichtigen, wenn sich Dateien in S3 ändern.
- OpenSearch wird für die Volltextsuche und die Analyse der Daten verwendet, um schnelle und gezielte Abfragen zu ermöglichen.
- Kotlin ist die primäre Programmiersprache, die für die Implementierung der Datenplattform verwendet wurde, wobei ein Proof of Concept (PoC) in Scala durchgeführt wurde.
Interessiert an einer Zusammenarbeit?
Kontaktieren Sie Flurin und lassen Sie sich von einem Partner unterstützen, der auf langjährige Erfahrung zurückgreifen kann.