DATANOSCO – The DATA SOMMELIER

Data

Data Sommelier

Auteur de l’article Par Stéphane Heckel
Date de l’article 23 juillet 2024
Article épinglé

Live Talks, Interviews, Reviews, Demonstration. Want to share your data story? contact me at stephane (at) datanosco.com – LinkedIn profile – follow DATANOSCO or check the YouTube French & English content.

🗽 NYC Community Alert:
I’ll be in New York City this summer and would love to connect with people working in Data, AI and Automation. If you’re around and open to meeting up (at the NYC Databricks meetup on Aug 19), feel free to reach out: stephane (at) datanosco.com. You can also check out feedback from my latest meetup here.

Saison 3

Le LIVE : Architectures & Patterns Data, tendances actuelles et architecture de demain, avec Jean-Pierre Riehl, Axel TIFRANI, Emeric Chaize, Hayssam Saleh, Tristan Malherbe & Stéphane Heckel.
Replay ici.

S3E1
Sécuriser et démocratiser l’IA Agentique avec OpenClaw. Le projet TinyStaff de Gilles Barbier. Replay LinkedIn.

S3E2
Souveraineté numérique en France et en Europe : État des lieux, avec Thibault Lorrain, de KPMG France. Replay LinkedIn.

S3E3
Semantic Layer, comment ça marche dans Starburst ? On fait le point avec Victor Coustenoble. Replay LinkedIn.

S3E4
Snowflake Cortex Code, l’avis de Gaël Lemaux, Orange Business. Replay LinkedIn.

S3E5
Clarifeye: Building Expert Knowledge Layers for AI Systems, with Arthur Sarazin & Ken Sanford. Replay LinkedIn.

S3E6
Teradata, depuis 1979 ! On fait le point avec Pierre Maussion. Replay LinkedIn.

S3E7
Ontobricks, un composant open source d’ontologie pour Databricks, avec Benoît Cayla. Replay LinkedIn.

S3E8
FastBCP : la solution d’export de données parallélisé, avec Romain Ferraton. Replay LinkedIn.

S3E9
Crédit Mutul Arkéa, choisir son outil d’orchestration, le benchmark, avec Jesshuan Diné. Replay LinkedIn.

S3E10
Data Adoption, comment engager les équipes durablement ? avec Pauline Valente. Replay LinkedIn.

S3E11
Architecture Cognitive : L’évolution des systèmes agentiques en Entreprise, avec Mohamed Alaoui & Alexey Guerassimov de Jems. Replay LinkedIn.

S3E12
Les évolutions de dbt : de l’open source (dbt core) à la plateforme Entreprise. Avec César Clavé, Devoteam. Replay LinkedIn.

S3E13
Duckle, the high-speed ETL engine powered by DuckDB, with Darek Danieslewski & Sourav Roy. Replay LinkedIn.

Saison 2

Lives
– Data Modeling, Kimball vs Inmon, with Bill Inmon
– Tendances DATA & AI, rétrospectives et next steps
– Q&A sur la solution d’Automation n8n
– Feedback AWS Summit Paris 2025
– La plateforme DATA idéale ? Meetup OVHcloud & Aiven
– Streamlit, comment développer vos Data Apps interactives ?
– Data Framework : la méthode pour réussir votre projet DATA !
– Get AI Ready avec KeyLity : la Data Quality native Snowflake

S2E1
AI, with Live Data – Powering your RAG and ETL at scale, with Claire Nouet from Pathway. Replay LinkedIn.

S2E2
dbt vs SQLMesh, … Comparaison des solutions, avec Christophe Oudar. Replay LinkedIn.

S2E3
SnowConvert. Présentation des concepts et démonstration de la solution de migration vers Snowflake, avec Eric Lethier de Snowflake et Anthony MINDREN de Key Performance Consulting (KPC). Replay LinkedIn.

S2E4
MCP & Semantic Layer, with Artyom Keydunov from cube ! Replay LinkedIn.

S2E5
Kafka Improvement Proposal (KIP) 1150 introduces « diskless topics » to reduce the operational costs of running Apache Kafka in cloud environments, with Ivan Yurchenko. Replay LinkedIn.

S2E6
SnapLogic, the future is Agentic. Interview with Gaurav Dhillon. Replay LinkedIn.

S2E7
Apache Gravitino: Unified Metadata Lake for Data & AI assets, with Lisa N Cao. Replay LinkedIn.

S2E8
On plonge dans l’univers des bases de données transactionnelles en mettant un coup de projecteur sur Aerospike, une solution NoSQL, avec Nicolas WLODARCZYK. Replay LinkedIn.

S2E9
Google BigQuery, zoom sur les dernières annonces, avec Johan Picard. Replay LinkedIn.

S2E10
La Stack Data chez Orange France Pro, GCP, BigQuery, dbt, … avec Cédric Olivier. Replay LinkedIn.

S2E11
Retour sur les nouveautés Starburst AI, Functions, Workflows & Agents avec Victor Coustenoble. Replay LinkedIn.

S2E12
Openflow, l’intégration de données selon Snowflake, avec Pierre Villard. Replay LinkedIn.

S2E13
Calk.AI, vos Agents AI à votre service, en quelques minutes ! avec Gabriel Hardy-Françon. Replay LinkedIn.

S2E14
Introduction aux bases de données distribuées, avec Ugo Pollio, de CockroachDB Labs. Replay YouTube.

S2E15
ODPS: l’Open Data Product Standard, avec Jean-Georges Perrin. Replay LinkedIn.

S2E16
Introducing Databricks and n8n for Modern Data Intelligence, with Mike Lo. Replay LinkedIn.

S2E17
Le TOSIT, un acteur clé dans la promotion et la structuration de l’open source au sein des grandes entreprises françaises, avec Florian Caringi. Replay LinkedIn.

S2E18
Le protocole MCP démystifié : usages et potentiel, avec Yann Jouanin. Replay LinkedIn.

S2E19
Michelin, Data Federation, Self Service et stratégie Data Platform, avec Gwénolé Prié. Replay LinkedIn.

S2E20
Open Source, Open Data et DINUM (Direction interministérielle du numérique). Découverte avec Geoffrey Aldebert. Replay LinkedIn.

S2E21
Mise en œuvre de dbt et Airflow / Astronomer, avec Ismail Mezzour. Replay LinkedIn.

S2E22
Calista, le framework python open source pour gérer la qualité de données, avec Peter Gerges et Vincent Debouchaud de Aubay Data & AI. Replay LinkedIn.

S2E23
Starlake, la plateforme data open source, avec Hayssam Saleh. Replay LinkedIn.

S2E24
Draft’n Run, plateforme de création d’Agents IA et de Workflows, avec Marc Sanselme. Replay LinkedIn.

S2E25
From Data Contracts to « Talking to your Data », with Jochen Christ from Entropy Data. Replay LinkedIn.

S2E26
Gouvernance des données chez Etam, stratégie de mise en œuvre, avec Camille Maire. Replay LinkedIn.

S2E27
Migration de SAS vers Snowflake ! L’expérience de Wakam, avec Simon Pichon. Replay LinkedIn.

S2E28
Mindflow: Orchestration No Code et IA Agentique, avec Romain Hevin et Raphael Zerbib. Replay LinkedIn.

S2E29
Fluhoms, l’intégration de données à la portée de tous, avec Maxime Jarry. Replay LinkedIn.

S2E30
Dremio, The Agentic Lakehouse. Zoom sur la version 26 et ses composants AI et Cloud Serverless, avec Aurélien Goujet. Replay LinkedIn.

S2E31
Windmill, Un orchestrateur écrit en Rust, compétiteur d’Airflow, avec Ruben Fiszel. Replay LinkedIn.

Saison 1

S1E1
Apache Iceberg, vers un nouveau standard du stockage de la donnée ? avec Victor Coustenoble. Replay LinkedIn.

S1E2
Découverte de The Apache Software Foundation Foundation, avec JB Onofré. Replay LinkedIn.

S1E3
FinOps, halte au gaspillage … où les bonnes pratiques à mettre en place pour optimiser les coûts d’une plateforme data, avec Matthieu Rousseau et Ismael Goulani. Replay LinkedIn.

S1E4
Un Lakehouse dans un cloud français, économiquement abordable et basé sur des composants opensource interchangeables, c’est possible ? avec Vincent HEUSCHLING. Replay LinkedIn.

S1E5
Talaxie, le fork Talend Open Studio. L’initiative de Jean Cazaux. Replay LinkedIn.

S1E6
De PowerMart à IDMC, en passant par PowerCenter, Christophe Fournel retrace les 30 dernières années d’Informatica. Replay LinkedIn.

S1E7
Le retour des ‘Data Platforms’. Interview de Eric Mattern. Replay LinkeIn.

S1E8
Le projet Icehouse avec Victor Coustenoble, une plateforme Lakehouse intégralement gérée, qui combine le moteur de requête opensource Trino et Apache Iceberg.

S1E9
Retour sur la conférence Subsurface, organisée par Dremio qui s’est déroulée les 2 et 3 mai 2024 à New York. Charly Clairmont en profite pour nous rappeler ce qu’est Dremio et ses différents cas d’usages. Replay LinkedIn.

S1E10
La gouvernance de données, c’est d’abord une question organisationnelle ! Daniel MALOT nous parle de son expérience terrain et décrit les étapes nécessaires pour mener à bien un projet de gouvernance en nous faisant découvrir quelques aspects de sa solution META ANALYSIS. Replay LinkedIn.

S1E11
Pierre Villard retrace l’histoire de la solution Apache NiFi, véritable gateway universelle permettant le développement de pipelines de mouvements de données, aussi bien en mode batch qu’en streaming. Replay LinkedIn.

S1E12
Le streaming, une nouvelle façon de penser l’architecture des applications et d’améliorer les usages de la data ! Fred CECILIA constate que le streaming s’impose naturellement lorsqu’on a vainement essayé d’optimiser les batch existants. Replay LinkedIn.

S1E14
Alexandre Guillemine de chez Foodles nous détaille toutes les étapes de son projet de migration de PostgreSQL vers Snowflake ! Replay LinkedIn.

S1E15
Amphi, un ETL opensource pour faire du RAG, développé par Thibaut Gourdel ! Replay LinkedIn.

S1E16
Cloudera, de l’ère Bigdata à l’ère de l’IA, interview de Denis Fraval. Replay LinkedIn.

S1E17
DCP, la Data Platform ClickOps Self Service, avec le témoignage d’EDF. Interview de Frederic Collin et Edouard Rousseaux. Replay LinkedIn.

S1E18
Qu’est que la Data Observability ? avec Mahdi Karabiben de la société Sifflet. Replay LinkedIn.

S1E19
On en parle depuis quelques temps, de la Composable Data Platform, l’architecture émergente multi-engine qui va changer la façon dont on pense l’ingénierie des données. Julien Hurault explique comment Apache Iceberg, un format de table ouvert, peut servir de couche de stockage commune à différents moteurs tels que DuckDB, Snowflake ou SQLMesh. Replay LinkedIn.

S1E20
IBM watsonx, la plateforme DATA et IA, avec Mehdi Boulaymen. Replay LinkedIn.

S1E21
Open Metadata, un open source pour la gouvernance des données, la gestion de la qualité des données et la Data Observability, avec Teddy Crépineau. Replay LinkedIn.

S1E22
DuckDB, le moteur OLAP open source qui se distingue par sa légèreté, sa performance et sa capacité à traiter des volumes importants de données. Interview de Antoine Giraud. Replay LinkedIn.

S1E23
On explore la solution n8n, outil d’automatisation low-code. Intégration de PDF complexes via l’AI et APIs, avec Valérian Lebert. Replay LinkedIn.

S1E24
On découvre la nouvelle fonctionnalité Google SQL Pipe Syntax qui fonctionne entre autre pour BigQuery, avec Axel Thevenot. Replay LinkedIn.

S1E25
On parle temps réel, Change Data Capture (CDC) et de son rôle dans la modernisation des systèmes d’information, avec Benjamin Djidi. Replay LinkedIn.

S1E26
Data Mesh, Data Contract, Data Product, … où en sommes nous ? Avec Philippe Nieuwbourg de Decideo. Replay LinkedIn.

S1E27
« Medium Code », un nouveau type de programmation qui se situe entre le « low code » et le « hard code ». On fait le point avec Pierre Pilleyre. Replay LinkedIn.

S1E28
On plonge dans l’univers fascinant du stream processing, avec Fred CECILIA, en mettant l’accent sur Apache Flink, un outil puissant qui gagne en popularité. Replay LinkedIn.

S1E29
Gilles Barbier nous présente Infinitic, framework EDA (Event Driven Architecture) open source pour l’orchestration de processus métier, qui s’appuie sur Apache Pulsar. Replay LinkedIn.

S1E30
Romain Ferraton nous parle de son projet permettant d’explorer l’évolution de plus de 1000 bases de données sur une période de 50 ans, sous différents angles d’analyse. Replay LinkedIn.

S1E31
Gravitee, l’entreprise française spécialiste de l’API Management. On explore les concepts fondamentaux de cette plateforme open-source avec Adrien Lacombe. Replay LinkedIn.

S1E32
Metagrid, une autre façon d’imaginer la gestion des métadonnées ?Avec Ole Olesen-Bagneux. Replay LinkedIn.

S1E33
KNIME, une plateforme de no-code/low-code qui facilite la manipulation et la transformation des données. Q&A avec Kevin Rosamont Prombo. Replay LinkedIn.

S1E34
Nicolas Averseng nous fait découvrir l’approche StratOps et sa solution YOOI, qui permet de relier la stratégie data à l’opérationnel. Replay LinkedIn.

S1E35
CDP ? Qu’est-ce qu’une Customer Data Platform ? On en parle avec Oussama Ghanmi de la société DinMo (Data In Motion). Replay LinkedIn.

S1E36
Comment contruire un Lakehouse en n’utilisant que des composants AWS ? Voilà l’exercice imposé auquel Arnaud Milleker s’est plié, et il nous explique les étapes. Replay LinkedIn.

S1E37
Apache Hop is an open-source low/no-code data integration platform. Bart Maertens, Hop PMC Member is leading the project and we are with him for this interview ! Replay LinkedIn.

S1E38
Bruin: The all-in-one Data Ingestion, Transformation, Data Quality & Governance framework ! Interview with Burak Karakan & Paul Marcombes. Replay LinkedIn.

S1E39
Coreandgraph, prototype open-source utilisant les graphes pour visualiser et analyser les données d’une organisation, avec Arthur Sarazin pour nous parler de documentation, de gouvernance et de Knowledge Management ! LinkedIn.

S1E40
Les coûts cachés de l’absence de Gouvernance de Donnée, avec Cédric FALCONNET ! LinkedIn.

S1E41
Workato, l’iPaaS en tête du MQ Gartner, avec Philippe Amiel ! LinkedIn.

S1E42
RisingWave, The Open Source Streaming Database, interview with Yingjun Wu ! LinkedIn.

Meetup

Data & AI Platform 2025

Auteur de l’article Par Stéphane Heckel
Date de l’article 23 janvier 2025

Data Sommelier Talk Show

📅 All the time
📍 LinkedIn, YouTube

Live Talks, Interviews, Reviews, Demonstration. Check the agenda here. Want to share your data story? contact me at stephane (at) datanosco.com – LinkedIn profile – follow DATANOSCO

Meetup OVHcloud

📅 3 Avril 2025 – de 18h à 21h
📍 42 Av. de la Prte de Clichy, 75017 Paris

👉 Replay disponible

La plateforme data idéale ? Discussion autour de trois principes clés : composabilité, portabilité et programmabilité. Exploration de l’architecture multi-engines intégrant des moteurs de traitement modulaires et des OTFs comme Apache Iceberg. Combinaison des infrastructures cloud, on-prem et hybrides pour une stratégie de données portable et souveraine. Automatisation des plateformes et maitrise des coûts. Zoom sur les cas d’usage de Trino et exploration d’un Lakehouse AI et de ses composants LLMs. Autant de sujets que nous allons couvrir lors de cette soirée meetup !

Live n8n

📅 8 Avril 2025 – 18h30
📍 Live LinkedIn Event

👉 Replay disponible

Tout savoir sur n8n, le LIVE, avec les spécialistes du produit ! On décortique la solution selon plusieurs thèmes, découverte et comparaison, cas d’usage professionnels, infrastructure et déploiement, limites et défis, intégrations et écosystème, intelligence artificielle, production et bonnes pratiques, conseils aux débutants, communauté et ressources, …

Talk dbt vs SQLMesh

📅 10 Avril 2025 – 17h30
📍 Talk Data Sommelier LinkedIn Event

👉 Replay disponible

On explore en détail dbt de dbt Labs et SQLMesh de Tobiko, deux outils majeurs pour la transformation de données, en soulignant leurs différences fondamentales en termes de facilité d’utilisation, performance, gestion de versions et fonctionnalités avancées

Talk SnowConvert

📅 11 Avril 2025 – 11h30
📍 Talk Data Sommelier LinkedIn Event

👉 Replay disponible

SnowConvert, conçu pour automatiser la conversion de code depuis des bases de données sources comme Oracle, Teradata, ou SQL Server, est un outil clé pour accélérer et simplifier les projets de migration. On en parle avec Eric Lethier de Snowflake et Anthony MINDREN de Key Performance Consulting (KPC).

Conférence DATANOSCO

📅 TO BE ANNOUNCED
📍 Online

👉 INSCRIPTIONS

Renseignements ? envoyer un email à : stephane (at) datanosco.com
Follow DATANOSCO

Data, People, Best-Practices & Tools. Plongez au cœur de l’innovation DATA lors d’interviews partagés. Découvrez comment les grandes entreprises orchestrent leurs plateformes de données, embrassent l’IA et transforment leurs équipes. Dans une ambiance conviviale de meetup, rejoignez nous pour échanger sur les meilleures pratiques, les outils émergents et les défis du secteur. Une opportunité unique de networker avec vos pairs et d’explorer l’avenir de la DATA.

TF1

Data as a Collaboration : l’approche TF1, par Mohamed Amine ABDESSEMED
TF1

Dans le cadre de son ambitieux programme de transformation digitale et du développement de sa plateforme TF1+, le Groupe TF1 s’appuie sur une stratégie de data collaboration reposant sur des partenaires technologiques clés tels que Snowflake, Habu, LiveRamp et Microsoft Azure.

Lors de ce talk, Amine partagera comment TF1 exploite ces technologies pour innover et créer des produits data collaboratifs, notamment Graph:ID, en repoussant les limites de la collaboration et de la gestion des données.

BPCE

Réinventer les plateformes data à l’ère de l’IA Gen: l’expérience BPCE, par Florian Caringi
BPCE

L’arrivée de l’IA générative a bouleversé les priorités des comités de direction, remettant les plateformes data au cœur des stratégies d’entreprise. BPCE fait face à un double défi : continuer à faire évoluer sa plateforme pour répondre aux enjeux croissants du cloud et des usages de l’IA Gen, tout en restant fidèles à une approche open source.

Florian vous plongera dans la démarche d’adaptation, des choix technologiques et des réflexions sur la manière de concilier innovation et robustesse dans un écosystème en perpétuelle transformation

EDF

DataOps, Buzzword ou pratique incontournable ? par Edouard Rousseaux
EDF

Selon Gartner, les équipes de data engineering adoptant les pratiques et outils DataOps pourraient être jusqu’à 10 fois plus productives que celles qui ne les utilisent pas. Pour les professionnels de la data, DataOps permet de déployer et d’accélérer les projets data à grande échelle. Pour les décideurs, c’est une promesse de transparence et de confiance absolument nécessaire.

Edouard vient nous livrer ses meilleures recettes “DataOps” mélangeant les ingredients Mindset, People, Process & Technologies et témoigne des différents projets sur lesquels il est intervenu.

PALANTIR

Ontologie : de la donnée à la connaissance actionnable ? par Pauline Bouvier
PALANTIR

L’ontologie est une brique essentielle pour structurer et contextualiser les données. Inspirée des pratiques pionnières de sociétés comme Palantir, cette approche permet de relier des informations hétérogènes en un modèle cohérent, facilitant la prise de décision et l’exploration analytique. Cette présentation explore comment mettre en place une ontologie efficace, les défis rencontrés et les bénéfices pour l’entreprise, notamment en matière de gouvernance, de collaboration inter-équipes et de flexibilité des plateformes data.

Data Engineering

Le Futur de la Data ! Composable, Portable, Programmable, par Julien Hurault
Data Engineering

L’avenir des plateformes data repose sur la composabilité, la portabilité et la programmabilité. Des infrastructures flexibles avec des composants modulaires et différents moteurs de transformation autour d’Apache Iceberg, une stratégie hybride et multi-cloud, garantissant souveraineté des données et résilience et enfin une approche « Everything as Code » pour automatiser la gestion des infrastructures, des pipelines et du reporting. Explications & hands-on avec Julien!

👉 INSCRIPTIONS

Data

The Definitive Guide to Data Integration

Auteur de l’article Par Stéphane Heckel
Date de l’article 25 mars 2024

Covering essential concepts, techniques, and tools, this book is a compass for every data professional seeking to create value and transform their business.
Stéphane Heckel, Data Sommelier

1998, Ignition

My journey into the data integration world started in 1998 when the company I served as a database consultant was acquired by an American software vendor specializing in this field. Back then, the idea of a graphical ETL solution seemed far-fetched; drawing lines with a mouse between sources and target components to craft data movement interfaces for analytical applications appeared unconventional. We were accustomed to developing code in C++, ensuring the robustness and performance of applications. Data warehouses were fed through batch-mode SQL processes, with orchestration and monitoring managed in shell scripts.

The 3Vs and more !

Little did we anticipate that this low-code, no-code ETL solution would evolve into a standard embraced by global companies, marking the onset of the data integration revolution. The pace was swift¹. Growing data volumes, expanding sources to profile, operational constraints, and tightening deadlines propelled changes in data tools, architectures and practices. Real-time data integration, data storage, data quality, metadata and master data management, enhanced collaboration between business and technical teams through governance programs, and the development of cloud-based applications became imperative challenges for data teams striving for operational excellence.

Ready for the AI Era !

The past 25 years flashed by, and the revolution persists, keeping my passion for data ablaze. The rise of artificial intelligence, exemplified by the success of ChatGPT, necessitates vast data processing for model building. This, in turn, compels a deeper reliance on data engineering techniques. Authored by seasoned data professionals with extensive project deployments, this book offers a comprehensive overview of data integration. My sincere gratitude to them, Pierre-Yves, Emeric, Raphaël and Mehdi for crafting this invaluable resource! Covering essential concepts, techniques, and tools, this book is a compass for every data professional seeking to create value and transform their business. May your reading journey be as enjoyable as mine!

The 3Vs of Big Data: Volume, Velocity, Variety ↩︎

Meetup

Où va la Modern Data Stack ?

Auteur de l’article Par Stéphane Heckel
Date de l’article 1 décembre 2023
2 commentaires sur Où va la Modern Data Stack ?

REPLAY – Conférence DATANOSCO

👉 Être notifié de la prochaine rediffusion

Renseignements ? envoyer un email à : stephane (at) datanosco.com
Follow DATANOSCO

Entre les besoins de simplification, de performance ou de gouvernance des uns et les usages temps réels répondant à des contraintes opérationnelles fortes des autres, où va la Modern Data Stack ? Allons-nous vers un marché encore plus fragmenté ou vers une plateforme data “all in one” dans le Cloud ? Quelle place la Modern Data Stack peut-elle encore tenir face aux incontournables Snowflake et Databricks ? Venez vous faire votre avis en écoutant les témoignages de Michelin, Decathlon, BPCE, La Poste, OVH …

Criteo

Quelle stack faut-il pour gérer 200 000 tables contenant 25 milliards de partitions pour une volumétrie de 85 PB ? REPLAY disponible
Criteo

Comment coordonner une équipe de 300 data engineers, du développement à la mise en production? Comment gérer la non régression tout en assurant la qualité de la donnée, la documentation et la mise à disposition des KPIs nécessaires à la gouvernance et à la supervision ? Raphaël Claude et Miguel Liroz retracent l’histoire de la construction de la stack et comment Criteo a rationalisé l’expérience de travail en consolidant tous ces besoins dans une solution intégrée de bout en bout.

Michelin

L’importance de Kafka chez Michelin. Architecture du nouveau socle technique. Témoignage. REPLAY disponible
Michelin

Retour d’expérience sur la migration d’un socle monolithique BPM/ERP essentiel aux opérations des flux logistiques du groupe vers une nouvelle chorégraphie micro-services & streaming. Marie-Laure Momplot et Olivier Jauze retracent l’histoire de la mise en œuvre de Kafka et Kafka Stream, et de l’écriture de librairies additionnelles facilitant l’industrialisation et le monitoring de Kafka : Kstreamplify.

Decathlon

Comment aligner la stack data sur une organisation métier en silos sans faire exploser les coûts ? Roadmap Data. REPLAY disponible
Decathlon

De la transformation dans Databricks orchestrée par dbt cloud à la publication des sources dans Tableau pour accélérer le self-service, Martin Lang et Dimitri Antakly nous montrent comment mutualiser les ressources sans perdre ni en vélocité, ni en qualité ! Ils vont aborder les problématiques de gouvernance, de monitoring, de scalabilité et de montée en compétence des équipes.

BPCE

Comment concilier innovation data et régulation dans une banque ? Témoignage. REPLAY disponible
Groupe BPCE

Aucun métier n’est plus régulé que celui de la Banque et doit de surcroit composer avec un héritage IT contraignant. Comment le groupe BPCE jongle entre une stack data hybride, On Premise pour le Corporate, Cloud pour les besoins analytiques du Retail Banking, en passant par Kubernetes pour garantir la portabilité des services. Florian Caringi nous dévoile la roadmap du groupe.

La Poste Groupe

Optimisation des flux Colissimo en temps réel avec Pathway. Témoignage. REPLAY disponible
La Poste Groupe

Jean-Paul Fabre, Responsable Innovation Technologique au sein du Groupe La Poste montrera comment de multiples cas d’usage analytiques – optimisation du réseau, amélioration du taux d’utilisation des actifs, gestion des flux, préparation pour les Jeux Olympiques, etc. – sont permis grâce à un jumeau numérique et un modèle de données combinant les données batch et streaming via le moteur unifié Pathway.

OVHcloud

La nouvelle Data Plateform as a Service d’OVHcloud, un « All-In-One » dans le Cloud. Témoignage. Prochain Meetup le 3 Avril 2025
OVHcloud

Construction d’une stack DATA et de son infrastructure, de l’ingestion à la Dataviz en passant par le stockage, le processing, le machine learning et l’IA générative. Quels sont les défis rencontrés, le choix des solutions, l’assemblage des composants, la sécurité, l’automatisation, l’orchestration, l’observabilité, … Stéphane Ligneul et François Vaillant vont nous livrer une partie des secrets de la nouvelle offre OVHcloud.

Data ingénierie en furie !

DuckDB, un aperçu du futur et pourquoi ça va changer la manière dont on fait de la donnée. REPLAY disponible
Christophe Blefari

On a déjà le choix entre 343 databases, pourquoi une de plus ? DuckDB, la nouvelle base de données OLAP en mémoire permet de faire du SQL sur tous vos fichiers très facilement. Christophe Blefari va nous montrer quelques cas d’usages, au sein de la Modern Data Stack, mais aussi dans le navigateur via la version en Web Assembly. Alors ? DuckDB ? phénomène marketing ou pas ?

👉 Être notifié de la prochaine rediffusion

Étiquettes moderndatastack

Data

DataOps 2025

Auteur de l’article Par Stéphane Heckel
Date de l’article 13 octobre 2023

By 2025, a Data Engineering team guided by DataOps practices and tools will be 10 times more productive than teams that do not use DataOps !
Gartner’s Strategic Planning Assumption

By 2025, one-half of organizations will have adopted a DataOps approach to their data engineering processes, enabling them to be more flexible and agile.
Ventana Research

Definition(s)

DataOps is an engineering methodology and set of practices for rapid, reliable, and repeatable delivery of production-ready data and operations-ready analytics and data science models

First and foremost, DataOps is a mindset of continuous improvement of data development practices. Secondly, it’s a set of processes for delivering data faster, better, cheaper to improve customer satisfaction. And thirdly, it’s tools to support those processes.
Wayne Eckerson, Eckerson Group

Operationalizing Data Integration for constant change and continuous delivery¹

DataOps is a collaborative data management practice focused on improving the communication, integration and automation of data flows between data managers and data consumers across an organization.
Gartner

DataOps is the new way of thinking about working with data, it provides practitioners like architects & developers an ability to onboard and scale data projects quickly while giving operators and leaders visibility and confidence that the underlying engines are working well. It is a fundamental mindshift that requires changes in people, processes, and supporting technologies².

Data Operations (DataOps) is a methodology focused on the delivery of agile business intelligence (BI) and data science through the automation and orchestration of data integration and processing pipelines, incorporating improved data reliability and integrity via data monitoring and observability. DataOps has been part of the lexicon of the data market for almost a decade and takes inspiration from DevOps, which describes a set of tools, practices and philosophy used to support the continuous delivery of software applications in the face of constant changes.
Matt Aslet, Ventana Research

Gartner Key Findings

DataOps is becoming a necessity. Care capabilities include:

Orchestration
Observability
Test Automation
Deployment Automation
Environment Management

Gartner Recommendations

Procure as a cost optimization solution
Understand the diverse market landscape and focus on a desired set of core capabilities
Prioritize single pane of glass tools

Resources

Gartner’s guide for DataOps tools & webinar replay ( thanks to DataOps.live, Nick Halsey, Sanjeev Mohan, Kent Graziano for the webinar content) https://hubs.la/Q024-Xbj0
https://www.truedataops.org/
https://mattaslett.ventanaresearch.com/dataops-buyers-guide-market-observations
https://www.saagie.com/en/blog/livre/lb-dataops-2/

Source StreamSets ↩︎
Source StreamSets ↩︎

Étiquettes dataops

Meetup

Modern Data Stack Septembre 2023

Auteur de l’article Par Stéphane Heckel
Date de l’article 26 juillet 2023

De la collecte des données au développement d’applications analytiques. Meetup du 12 septembre 2023 chez Criteo avec Kestra, Snowflake et Pernod Ricard

Nous avons le plaisir de nous retrouver chez Criteo le Mardi 12 septembre 2023 dès 18h00 pour le prochain meetup Modern Data Stack sur le thème de la collecte des données au développement d’applications analytiques. Nous remercions les sociétés Snowflake et CRITEO qui sponsorisent ce meetup, ainsi que Pernod Ricard pour son retour d’expérience.

Programme

Première session à 18h30 avec Kestra, startup Française, qui a conçu un ordonnanceur de données open-source basé sur les événements, qui vise à rendre les flux de données accessibles à un large public. Le produit offre une interface déclarative YAML pour la définition des flux de travail, permettant ainsi à chaque membre d’une organisation de participer au processus de création des pipelines de données. Benoit Pimpaud illustrera l’utilisation de Kestra dans un contexte d’ingestion de données vers Snowflake en mode DataMesh.

On enchaîne vers 19h00 avec Streamlit, framework open source python pour créer des applications de façon simplifiée. Pensé pour les Data Scientists, il permet à toute personne connaissant python de créer une interface utilisateur, sans avoir besoin de développer une expertise front-end. Concrètement, Streamlit aide les Data Scientists à mettre leurs modèles prédictifs entre les mains des utilisateurs métiers. Acheté par Snowflake en mars 2022, Streamlit demeure un projet open source. Arnaud Miribel présentera à la fois Streamlit open source et montrera comment l’intégration de Streamlit dans Snowflake permet d’héberger des applications data au plus près des données.

Dernière session vers 19h30 avec le témoignage de Swamynathan Candassamy et Stéphane Texier de Pernod Ricard. Dans le cadre de sa stratégie data, Pernod Ricard a développé un portail Data qui sert de comptoir unique pour centraliser et rendre disponibles les données à l’échelle et en libre-service au travers d’un portail web présentant dashboards, jeux de données et applications python. Les équipes Data Science utilisent depuis plusieurs années Streamlit dans sa version open source pour faciliter le « Fast Prototyping » et créer des applications sur des sujets comme la computer vision et le monitoring de modèles.

De 20h00 à 21h00 drinks & causeries au coin de la DATA (merci à nos sponsors Snowflake et CRITEO)

Inscription

https://www.meetup.com/fr-FR/modern-data-stack-france/

Étiquettes moderndatastack