Le travail des équipes de science des données peut être étroitement lié au cloud et à d’autres actifs technologiques, ce qui peut les intégrer aux questions budgétaires soulevées par les dépenses liées au cloud. Ce n’est qu’une des façons dont les scientifiques des données ont dépassé certaines attentes anciennes concernant le travail qu’ils effectuent et les actifs qu’ils exploitent. Si des mesures ne sont pas prises pour déterminer comment ces ressources sont utilisées, les organisations pourraient voir la science des données contribuer davantage aux coûts qu’aux bénéfices.
Shane Quinlan, directeur de la gestion des produits chez Kion, a expliqué à InformationWeek comment la science des données a évolué et comment les scientifiques des données peuvent utiliser efficacement le cloud.
Les data scientists travaillent-ils en dehors des sentiers battus par rapport à ce qu’on attend d’eux ? Quels angles différents prennent-ils pour remplir leurs fonctions?
La science des données n’était pas vraiment quelque chose sur mon radar lorsque j’ai commencé à travailler dans la technologie. Le buzz a commencé en 2015-2018, lorsque la science des données devient la chose. De nouveaux postes ont commencé à être créés et nous avons commencé à obtenir des choses comme DataOps et MLOps. Big data – si vous appliquez cela à n’importe quelle entreprise, alors la mine d’or.
J’ai été entraîné à peu près à la même période, quittant un emploi où je travaillais, principalement en soutenant des clients fédéraux et des forces de l’ordre, pour me lancer dans les soins de santé. Passer des solutions Web et de terminaux à l’analytique. C’était mon premier saut dans la science des données.
Maintenant, je le vois sous un angle différent parce que nos produits sont beaucoup plus axés sur la gestion des plateformes et des infrastructures. Je regarde cela du cloud vers la science des données au lieu de regarder de la science des données vers le cloud.
Quels sont les influences et les facteurs qui affectent les approches adoptées par les data scientists ? Alors que les scientifiques des données exploitent le cloud, à quoi doivent-ils être plus attentifs ?
Je vois deux tendances. L’un concerne les changements dans la technologie et la disponibilité. Au début, c’était un peu le Far West. Il y avait des tonnes de nouvelles offres de services, de piles technologiques et les compétences étaient vraiment divergentes et ont commencé à être un peu plus accessibles.
La science des données était ce grand monde. Vous aviez tout, de votre scientifique de données Excel utilisant littéralement Microsoft Excel, à une attente selon laquelle vous pouviez écrire des applications Java capables d’exécuter des fonctions de données et de fournir une sortie différente. Vous aviez des mathématiciens, vous aviez des statisticiens, vous aviez des développeurs de logiciels et vous aviez des gens qui jouaient davantage un rôle d’analyste en intelligence d’affaires, tous venant dans le même espace et essayant de trouver différentes façons de répondre à leurs attentes.
C’est à ce moment-là que vous avez vu une pression pour de meilleures interfaces utilisateur, rendant le côté développement moins nécessaire. C’est là que vous avez l’introduction de cahiers comme Jupyter et Zeppelin et leurs dérivés pour rendre cela un peu plus facile. Vous aviez comme un code interprétable par l’homme et une interface non-code avec la façon dont vous façonnez les données. Dans les coulisses, je pense qu’il y a eu cette énorme explosion de façons de façonner cela également. Vous avez une technologie comme DBT qui facilite beaucoup les transformations de données. Les technologies qui étaient centrées autour de l’écosystème Apache Hadoop ont maintenant changé, se sont transformées et se sont déplacées partout, ce qui le rend beaucoup plus portable. Apache Spark peut maintenant être exécuté dans toutes sortes de contextes différents.

Il y a eu une tendance vers un modèle de science des données plus centré sur l’utilisateur. Plus convivial, plus d’interfaces utilisateur, plus facilement interprétable. Vous pouvez apporter des compétences communes comme Excel ou des outils BI ou SQL et en faire assez pour faire la différence.
L’autre côté de cela est une approche centrée sur le développement, où en tant que développeur, cela rend la science des données plus accessible au lieu de demander aux mathématiciens d’apprendre à être des développeurs.
Un autre élément est cette tension autour de la taille et de la quantité de données nécessaires pour créer les types d’informations dont vous avez besoin pour fournir une valeur commerciale. Le PDG de Landing AI [Andrew Ng] a fait cette énorme poussée pour “les grands ensembles de données sont stupides”. [Big datasets are] gaspillent de l’argent, ils perdent du temps. Des ensembles de données plus propres et plus petits ont en fait plus d’impact. [Ng has said you don’t always need “big data,” but rather “good data.”] Vous voyez cette tension entre l’approche traditionnelle consistant à « obtenir toutes les données et en tirer le maximum d’informations » par rapport à des ensembles de données plus propres, plus petits, moins chers et plus efficaces qui fournissent ces informations.
Une partie revient aux gens qui essaient de faire de la magie avec ce qu’ils avaient. Beaucoup trop de personnes à qui j’ai parlé disaient : « Nous avons toutes ces données ; nous devons en faire quelque chose.
D’accord. Super. Quoi?
Et ils diraient : “Eh bien, nous devons exécuter un apprentissage automatique afin de voir ce que nous pouvons découvrir.”
Cela ne fonctionne pas ainsi. Vous devez apporter un véritable état d’esprit scientifique pour comprendre quelle hypothèse vous testez en utilisant ces modèles. Cela nécessite un état d’esprit très spécifique pour avoir autant de discipline et la façon dont vous abordez la résolution de problèmes et la création de valeur grâce à des techniques de science des données par rapport à « J’ai des données ; s’il vous plaît faites les choses.’
Lorsque les budgets informatiques sont examinés de près par des data scientists utilisant le cloud, que peut-on faire pour trier les besoins de leur organisation ?
L’avantage du cloud est que vous l’utilisez quand vous en avez besoin. De toute évidence, vous payez pour l’utiliser lorsque vous en avez besoin, mais souvent, les applications de science des données, en particulier celles que vous exécutez sur de grands ensembles de données, ne fonctionnent pas en continu ou n’ont pas besoin d’être structurées de manière à fonctionner en continu. Par conséquent, vous parlez d’un montant très concentré de dépenses pour un très court laps de temps. Acheter du matériel pour ce faire signifie que votre matériel reste inactif à moins que vous ne soyez très actif pour vous assurer que vous êtes très efficace dans l’utilisation de cette ressource au fil du temps.
L’un des principaux avantages du cloud est qu’il s’exécute et évolue selon vos besoins. Ainsi, même un minuscule peut exécuter un calcul massif et l’exécuter quand il en a besoin et pas de manière cohérente.
Cela ajoute des défis, bien sûr. “J’ai viré ce truc vendredi, je reviens lundi et ça tourne toujours, et j’ai accidentellement dépensé 6 000 $ ce week-end. Oops.” Cela arrive tout le temps et une grande partie de cela consiste à trouver comment établir des garde-fous.
Parfois, la science des données est traitée comme suit : “Vous savez, ils vont faire tout ce dont ils ont besoin.”
Dans le monde du développement, nous avons commencé à avoir un langage pour parler de cette prise de risque, expérimentale, « ne punissez pas l’échec, nous apprenons de l’échec ». Nous avons pu intégrer ce langage, mais nous avons ignoré la science des données.
Existe-t-il des bonnes pratiques pour équilibrer et gérer les innovations dont les data scientists pourraient vouloir tirer parti ?
Si votre département de science des données est jeune et petit, le cloud d’abord semble effrayant, mais vous préparera au succès sur toute la ligne. Si vous souhaitez faire ces choix en matière d’investissements matériels, vous pouvez les faire au moment opportun au lieu de penser que vous devez acheter du matériel à l’avance, puis passer au cloud plus tard, ce qui est infiniment plus difficile.
Les garde-corps n’ont pas besoin d’être sorcier. Ils peuvent être simples. Simple peut être très efficace.
Que lire ensuite :
Un regard d’initié sur les opérations d’IA et de science des données d’Intuit
Pour résoudre votre manque de talents en science des données, adoptez la diversité
Alteryx se prépare pour l’avenir du cloud analytique
.