Interessierst du dich für Daten und Cloud-Technologie? Möchtest du mehr über verschiedene Rollen in Entwicklungsteams erfahren? Bist du auf der Suche nach einem neuen Job? In dieser Blogpostserie geht es um unsere Arbeitsweise und unsere Berufsbilder bei der Otto Group data.works.
Triff Sven Peeters, Data Engineer bei Otto Group data.works seit Februar 2021.
Kurz gesagt, als Data Engineer bin ich für die Entwicklung und Implementierung neuer Funktionen für verschiedene datengesteuerte Dienste verantwortlich. Unsere Produkte reichen von der Berechnung von Kundenprofilen in großem Maßstab bis zum Hosting von HTTP-Diensten, die den Inhalt von Webseiten mithilfe von maschinellem Lernen kategorisieren. Die von uns bereitgestellten Daten werden hauptsächlich zur Anreicherung von programmatischer Werbung mit verhaltensbezogenen und kontextbezogenen Informationen verwendet.
"Ich bin dafür verantwortlich, neue Funktionen für verschiedene datengesteuerte Dienste zu entwerfen und zu implementieren."
.Da wir wissen, dass die Interpretation von Rollenprofilen und Titeln in verschiedenen Unternehmen unterschiedlich sein kann, wollen wir einen groben Überblick darüber geben, wie wir diese Rollen definieren.
Am stolzesten bin ich auf die Überarbeitung des Volltextsuch-Backends unseres kontextbezogenen Targeting-Produkts. Aufgrund der stark zunehmenden Belastung des Produkts war unser altes PostgreSQL-Backend ins Straucheln geraten und hatte das Ende der Skalierbarkeit erreicht. Obwohl ich damals nur ein Junior Data Engineer war, ermöglichte mir mein Team, eine führende Position bei der Konzeption und Entwicklung des neuen Backends einzunehmen . Dazu gehörte die Entscheidung für Apache Solr als neue Volltextsuchmaschine, die Konzeption der Cloud-Architektur und die Migration bzw. Neuschreibung betroffener Komponenten des alten Backends. Das neue Backend ist seit April online und läuft wie geschmiert.
In unserer täglichen Arbeit verwenden wir viele neue und beeindruckende Technologien wie Kubeflow Pipelines, Argo oder Apache Beam on Dataflow. Daher ist es nicht einfach, eine auszuwählen, die heraussticht. Wenn ich mich für einen Favoriten entscheiden müsste, würde ich Dataflow in Verbindung mit Java wählen. Der serverlose Ansatz von Dataflow und die Pipeline-Semantik von Apache Beam, die Batch- und Stream-Verarbeitung vereint, bieten mir die Möglichkeit, Java-Code zu schreiben, der große Datenmengen verarbeitet, ohne dass ich stundenlang darüber nachdenken muss, wie ich das Programm skalieren und die verarbeiteten Daten effektiv auf Maschinen verteilen kann. Aufträge, die auf einer einzigen Maschine Tage dauern würden, werden in wenigen Minuten nahtlos auf über 100 Maschinen parallel ausgeführt. Es macht immer wieder Spaß zu sehen, wie mein Code über eine große Anzahl von Maschinen in der Google Cloud Platform verteilt und parallel ausgeführt wird.
In meiner Freizeit spiele ich gerne Tischtennis mit Freunden in meinem örtlichen Tischtennisverein. Neben Tischtennis habe ich eine große Leidenschaft für den Motorsport. Ich schaue mir fast jedes Formel-1-Wochenende an und verbringe gerne Zeit auf virtuellen Motorsportstrecken.
Die Otto Group data.works bietet mir die Möglichkeit, meiner Leidenschaft für Big Data und maschinelles Lernen nachzugehen und viel darüber zu lernen, während ich in einem jungen und dynamischen Team von Datenenthusiasten smarte und coole Produkte für große Datenmengen entwickle.
Dieser Artikel wurde ursprünglich auf Medium veröffentlicht und kann dort auch nachgelesen werden.
Want to be part of our team?
We have received your feedback.