Soda Checks pour garder vos données en ligne – La nouvelle pile

On a beaucoup parlé ces derniers temps du maillage de données, qui plutôt qu’une technologie ou un service, est en fait une structure organisationnelle qui rapproche la propriété des données de ceux qui les utilisent réellement pour apporter de la valeur à l’entreprise, comme Emily Omier l’a expliqué dans un post récemment .

Elle a cité Arsalan Tavakoli, vice-président senior de l’ingénierie sur le terrain chez le fournisseur de systèmes de gestion de données Databriks, en disant :

Si vous avez un groupe central d’ingénierie des données, dans quelle mesure comprend-il vraiment quels sont les ensembles de données dont la finance a besoin ? Ou les ensembles de données dont l’une des unités commerciales a besoin ? Plus vous êtes proche de quelqu’un qui comprend les problèmes et les exigences de l’entreprise et qui possède les connaissances du domaine, mieux il est préparé pour créer le bon ensemble d’actifs de données pour alimenter le bon type de cas d’utilisation.

La startup belge Soda va encore plus loin dans la propriété des données pour permettre aux propriétaires de données d’entreprise de posséder également la qualité des données. Les co-fondateurs Tom Baeyens et Maarten Masschelein ont abordé le problème sous des angles légèrement différents mais ont reconnu un problème commun, et l’entreprise est née.

« Il y a toutes ces personnes qui travaillent ensemble pour valoriser les données dont elles disposent. Et il s’avère qu’en production, le plus gros problème est en fait de conserver ces données sous une forme propre. Parce qu’une fois que vous utilisez des données en production, les ingénieurs vont généralement faire autre chose, construisent le produit suivant. Et puis ça tombe en panne », a expliqué Baeyens.

Il existe une myriade de façons dont les systèmes de données peuvent devenir bancals – cela peut être aussi simple que quelqu’un ajoutant un nouveau champ dans Salesforce – mais traditionnellement, les ingénieurs doivent écrire du code pour créer des contrôles sur la qualité des données en production, ce que les analystes de données n’ont souvent pas les compétences pour faire . L’équipe Soda a entrepris de changer cela, en se concentrant sur les besoins des analystes de données ainsi que des ingénieurs de données.

Données sous forme de code

À cette fin, il a publié Soda Core, un cadre pour intégrer les contrôles de fiabilité des données et la gestion de la qualité dans les pipelines de données alimentés par SodaCL (Soda Checks Language), un langage spécifique au domaine pour la fiabilité des données.

S’inspirant du concept de données en tant que code, Soda Core est un outil CLI open source et une bibliothèque Python qui permet aux utilisateurs d’utiliser SodaCL pour transformer les entrées définies par l’utilisateur en requêtes SQL agrégées. Les composants de base incluent l’utilisation de métadonnées d’ensemble de données pour comprendre la forme et la santé des données, ainsi que des métriques intégrées et une large couverture de vérification qui peuvent être utilisées pour valider de nombreux paramètres de qualité des données. Ils incluent des contrôles de détection d’anomalies et des contrôles de changement dans le temps pour détecter et résoudre les problèmes dans les données et alerter les personnes appropriées. C’est la base de Soda Cloud, mais il peut également être utilisé comme un outil autonome.

En 2021, la société a lancé Soda SQL pour aider les ingénieurs de données à maintenir des pipelines de données fiables en production et a continué à le développer en tant que langage spécifique, permettant aux équipes de données de vérifier les données sous forme de code dans chaque charge de travail de données, de l’ingestion à la consommation.

En tant que langage plus lisible par l’homme, SodaCL élimine le besoin de coder en SQL, ce qui signifie que chaque membre d’une équipe de données peut définir les seuils de ce à quoi les bonnes données doivent ressembler. Dans le même temps, en dessous, il interroge toujours les sources de données basées sur SQL.

Celles-ci font partie des plus de 30 mesures intégrées incluses dans SodaCL :

Tiago Andrade, responsable du Big Data, de l’analyse et de l’IA chez le détaillant brésilien Americanas SA, a déclaré : « L’environnement de vente au détail moderne a changé, et pour que des organisations comme Americanas continuent d’offrir la meilleure expérience commerciale possible, nous comptons sur l’IA et le ML. moteurs numériques qui se cachent derrière notre plateforme de vente au détail.

« Cette plate-forme est une entité en évolution dynamique qui doit être gérée en temps réel pour garantir que nous nous adaptons aux conditions changeantes et que nous ne souffrons pas d’erreurs qui affectent la précision et dégradent les performances globales. Soda nous donne l’observabilité de bout en bout dont nous avons besoin pour être plus confiants quant aux données qui alimentent nos moteurs, ce qui signifie qu’au lieu d’être réactifs aux problèmes, nous pouvons adopter une approche beaucoup plus proactive basée sur une image entièrement précise du la santé de nos données.

Baeyens a déclaré que ses utilisateurs ont insisté sur l’idée d’un langage spécifique pour la fiabilité des données. Quelques entreprises avaient déjà travaillé sur un tel langage.

“Lorsque vous souhaitez surveiller ces données en production, cela signifie que vous devez créer une image de ce à quoi ressemblent de bonnes données, afin de pouvoir surveiller cela”, a-t-il déclaré.

« Normalement, c’est un terrain uniquement réservé aux ingénieurs. Ils doivent écrire du code, ils savent comment écrire du code, puis ils doivent apprendre la bibliothèque et tout ça. Mais notre objectif est… d’étendre cela également aux analystes et aux utilisateurs non techniques. Ainsi, le langage permet vraiment aux analystes de devenir autonomes. Ils n’ont plus besoin de compter sur les programmeurs pour écrire ces chèques. [With the language] c’est beaucoup plus simple que d’écrire du code. C’est facile à lire. Et maintenant, beaucoup plus de personnes peuvent contribuer à l’image de ce à quoi ressemblent de bonnes données.

Par exemple, vous pouvez comparer des ensembles de données, vérifier l’actualité des données ou configurer une analyse programmatique pour créer un disjoncteur afin d’arrêter l’ingestion de données en cas de détection d’un problème.

Il faut deux entrées. L’un concerne toute la configuration de votre source de données et l’autre concerne les vérifications que vous souhaitez effectuer. Les deux sont des fichiers de configuration YAML.

“Il est très facile pour les ingénieurs de se connecter à leurs outils Airflow ou d’orchestration, très tôt au fur et à mesure que les données arrivent”, a déclaré Masschelein.

Son offre commerciale est un cloud géré qui comprend des outils de collaboration, la gestion des incidents, des intégrations avec Slack et d’autres fonctionnalités.

Contribution de la communauté

Soda n’a aucun lien avec la Soda Foundation, un effort de données open source géré par la Linux Foundation.

Baeyens, le CTO de la société, a précédemment créé les projets open source jBPM, une boîte à outils basée sur JBoss pour créer des applications de processus métier pour aider à automatiser les processus métier ; et Activiti, un modèle de processus métier et un moteur de notation (BPMN) centrés sur Java pour l’automatisation des processus. Il a également créé Effektif, une solution de gestion des processus métier (BPM) basée sur le cloud pour l’automatisation des processus, qui est devenue SAP Signavio Process Governance.

Masschelein, le PDG, venait du fournisseur de plateforme de gouvernance des données Collibra, qui utilisait les outils de données de Baeyens. Les deux se sont connectés sur un forum communautaire et Soda a été lancé il y a près de quatre ans. L’entreprise bruxelloise compte aujourd’hui une quarantaine d’employés.

Il compte Disney, HelloFresh, Udemy et St. Jude Children’s Research Hospital parmi ses utilisateurs et contributeurs open source.

Disney, par exemple, a fourni des connecteurs au moteur de requête Trino SQL et Hello Fresh travaille avec la société sur Spark.

“Vous pouvez donc l’utiliser sur des trames de données, ce qui est également très populaire”, a déclaré Masschelein. “Et puis à l’avenir, nous irons également dans le sens du streaming. Nous avons fait quelques premiers prototypes. Mais nous voulons nous assurer que nous couvrons l’ensemble du paysage, du streaming à Spark en passant par toutes les sources SQL.

The New Stack est une filiale en propriété exclusive d’Insight Partners, un investisseur dans les sociétés suivantes mentionnées dans cet article : Udemy, HelloFresh.

Image caractéristique via Pixabay.

Leave a Comment