Data Engineer Spark Scala Senior | Devoteam Maroc Nearshore
Devoteam
- Rabat
- CDI
- Temps-plein
- Concevoir, développer et maintenir des pipelines de données efficaces pour extraire, transformer et charger les données de différentes sources vers des systèmes de stockage de données de type Lakehouse (datalake, datawarehouse)
- Écrire du code Scala, souvent associé à Apache Spark pour ses fonctionnalités concises et expressives, afin de réaliser des transformations complexes sur de grands volumes de données
- S'appuyer sur les fonctionnalités offertes par Apache Spark, telles que les transformations et les actions distribuées, pour traiter les données à grande échelle de manière rapide et efficace
- Identifier et résoudre les problèmes de performance dans les pipelines de données, en optimisant les requêtes Spark, en ajustant la configuration de Spark et en mettant en œuvre les meilleures pratiques.
- Collaborer avec d'autres équipes pour intégrer les pipelines de données avec des bases de données SQL, noSQL, du streaming Kafka, des systèmes de fichiers de type buckets …
- Si besoin, concevoir et mettre en œuvre des pipelines de traitement des données en temps réel en utilisant les fonctionnalités de streaming de Spark
- Mettre en œuvre les mécanismes de sécurité pour protéger les données sensibles en utilisant les fonctionnalités d'authentification, d'autorisation RBAC/ABAC, de chiffrement, d'anonymisation des données
- Documenter le code, les pipelines de données, les schémas de données et les décisions de conception pour assurer leur compréhension et maintenabilité
- Mettre en place les tests unitaires et d'intégration pour assurer la qualité du code et déboguer les problèmes éventuels dans les pipelines de données
- Que tu aies foi dans la Data
- Que tu aides ton collègue
- Que tu sois gentil avec tes RHs
- Que tu t'éclates dans ta mission
- Et que les Codingame ne te fassent pas peur (tu ne seras pas seul : on t'aidera)
- Que tu maîtrises les fondamentaux de la Data : les technologies Hadoop, Spark, les data pipelines : l'ingestion, le traitement, la valorisation et l'exposition des données
- Que tu souhaites t'investir sur les nouveaux paradigmes de la Data : Cloud, DaaS, SaaS, DataOps, AutoML et que tu t'engages à nos côtés dans cette aventure
- Que tu aimes travailler en mode agile
- Que tu réalises des pipelines data performants
- Que tu entretiennes cette double compétence Dev & Infra
- Que tu sois proche des métiers, que tu les accompagnes dans la définition de leurs besoins, leurs nouveaux produits & services : dans des ateliers, en définissant les user stories et en éprouvant au travers de POC
- Et coder est ta passion : tu travailles ton code, tu commit en Open Source, tu fais un peu de compétition alors rejoins nous
- Un manager à tes côtés en toute circonstance
- Une communauté Data où tu y trouveras ta place : Ideation Lab, Hackathon, Meetup ...
- Un parcours de formation et de certification via “myDevoteam Academy” sur les technologies du moment et à venir : Databricks, Spark, Azure Data, Elastic.io, Kafka, Snowflake, GCP BigQuery, dbt, Ansible, Docker, k8s …
- Un renfort de ton expertise dans le domaine de la Data pour devenir un Tech Lead Cloud (Azure, AWS, GCP …), un architecte des futures plateformes Data, un expert DataOps au service des métiers (Data as a Service) et de la Data Science (AutoML), un Data Office Manager en pilotage des projets Data Product, bref plein de nouveaux jobs en perspective …
- La possibilité de t'investir personnellement : être formateur interne, leader de communauté, participer aux entretiens candidats, aider à développer nos offres et pourquoi pas manager ta propre équipe ...
- La conception, la mise en place et le support des pipelines data
- Le déploiement de solutions data dans une démarche Agile et DevOps
- Le développement d'API REST pour exposer les données
- Le support et l'expertise sur les technologies Data et les solutions déployées : Hadoop, Spark, Kafka, Elasticsearch, Snowflake, BigQuery, Azure, AWS ...
- Diplôme d'ingénieur ou équivalent
- Expert dans le domaine de la Data : 3 à 5 ans d'expérience post diplôme
- Maîtrise et pratique avérée de Apache Spark
- Maîtrise et pratique avérée de Scala
- Pratique de Python et pySpark
- Connaissance et pratique des outils d'orchestration tels Apache Oozie, Apache Airflow, Databricks Jobs
- Des certifications seront un plus spécialement sur Spark, Databricks, Azure, GCP
- Maîtrise des principes ETL/ELT
- Pratique des outils ETL/ELT tels Talend Data Integration, Apache Nifi, dbt sont un plus
- Pratique de Kafka et Spark Streaming sont un plus aussi
- Une double compétence dév (java, scala, python) infra (linux, ansible, k8s)
- Une bonne connaissance des API Rest et microservices
- Maîtrise des outils d'intégration CI/CD (Jenkins, Gitlab) et du travail en mode agile
- Un excellent relationnel, tu aimes travailler en équipe
- Un sens prononcé du service et engagé dans tes activités
- Savoir communiquer et écouter en toutes circonstances et écrire sans fautes …
- and you are fluent in english, indeed !
- Poste basé au Maroc dans nos locaux de Rabat et/ou Casablanca et ouvert uniquement en CDI
- Poste hybride avec possibilité de télétravail
- En rejoignant Devoteam, vous aurez la possibilité d'échanger avec vos pairs, de partager leur expérience et de développer vos compétences en rejoignant la communauté Data Driven rassemblant les consultants des 18 pays du Groupe
- https://www.linkedin.com/company/devoteam
- https://twitter.com/devoteam
- https://www.facebook.com/devoteam