En tant que scientifique des données, il y a de fortes chances que vous ayez ressenti la frustration de passer un nombre d'heures apparemment infini à préparer l'ensemble de données propre et représentatif nécessaire pour alimenter votre modèle d'apprentissage machine (ML). Nous sommes ici pour faire la lumière sur votre frustration et vous dire que vous n'êtes pas seul - et qu'il existe une nouvelle technologie pour vous aider.
Le ML est essentiellement un problème de données volumineuses et désordonnées, et les modèles - qui sont déployés dans tous les secteurs pour automatiser les tâches commerciales essentielles et accroître l'efficacité - nécessitent des quantités massives de données avant de pouvoir être utilisés de manière fiable en production. Pour le dire simplement, un modèle ne peut être aussi bon que les données sur lesquelles il est entraîné, et les prédictions de mauvaise qualité d'un modèle sont souvent causées par des données erronées ou de mauvaise qualité. L'intelligence des données - ou la capacité de comprendre et d'améliorer de manière holistique la santé des données qui alimentent le modèle - est l'une des considérations les plus critiques, mais sous-estimée, pour toute organisation qui cherche à récolter avec succès les avantages du ML.
Le passage d'une intelligence artificielle centrée sur les modèles à une intelligence artificielle centrée sur les données est à l'origine de l'intérêt intense porté à l'intelligence des données. Les progrès récents, y compris les modèles pré-entraînés largement disponibles sur étagère et les nouveaux cadres puissants de ML, ont démocratisé l'accès aux modèles complexes et performants et ont déplacé l'attention du modèle vers les données. Dans le cadre du paradigme de l'IA centrée sur les données, la meilleure façon d'améliorer la santé et les performances du modèle est d'améliorer la qualité des données sous-jacentes qui transitent par le modèle.
L'adoption de l'IA ne cesse d'augmenter, tout comme l'importance de l'intelligence des données, sans laquelle il est pratiquement impossible de comprendre et d'inspecter de grands ensembles de données ML. Déterminer le mélange de données optimal sur lequel étiqueter et former un modèle - sans oublier de découvrir et de corriger continuellement les erreurs de données - est devenu un processus désordonné et chronophage. Les erreurs dans les données peuvent provenir d'un certain nombre de problèmes, notamment de données manquantes ou insuffisantes, de trop de données, de données mal étiquetées et de données périmées. Et les problèmes de qualité des données, bien que difficiles à repérer à l'œil nu, peuvent avoir un impact catastrophique sur les performances du modèle.
Il n'est donc pas surprenant que les développeurs ML passent autant de temps à optimiser les données qui alimentent leurs modèles ; cependant, une grande partie de ce flux de travail est aujourd'hui ad-hoc et manuel, et les développeurs ML manquent d'un ensemble standard d'outils pour comprendre et gérer intelligemment les données à l'échelle et améliorer proactivement les performances des modèles.
Entrez Galileo*
Galileo a été spécialement conçu pour résoudre le problème des données désordonnées du ML et sert de couche d'intelligence pour aider les scientifiques à gérer les données tout au long du cycle de vie du ML. Grâce à la technologie de Galileo, les scientifiques des données peuvent facilement visualiser les données qui circulent dans leurs modèles, sélectionner les bonnes données pour l'entraînement des modèles, suivre et collaborer entre les ensembles de données, et identifier et corriger les erreurs coûteuses des données ML, telles que les données manquantes ou les erreurs d'étiquetage. Cela permet de réduire le temps et l'argent consacrés à la préparation des données et, surtout, d'améliorer les performances du modèle grâce à des données de meilleure qualité. Le produit de Galileo est déjà utilisé en production par une poignée d'adopteurs précoces dans des entreprises Fortune 500 et des startups dans de multiples secteurs.
L'entreprise a été fondée en 2021 par Vikram Chatterji, Atindriyo Sanyal et Yash Sheth, une équipe d'experts en ML qui ont fait l'expérience directe du problème des données désordonnées de l'IA en construisant et en déployant des modèles dans certaines des plus grandes entreprises du monde spécialisées dans l'IA. Vikram et Yash ont précédemment travaillé sur des projets d'IA à grande échelle chez Google, et Atindriyo a précédemment participé à la mise en place de la plateforme Michelangelo d'Uber et a été un des premiers membres de l'équipe Siri chez Apple. Grâce à ses expériences antérieures, l'équipe de Galileo a acquis une foule de connaissances et de principes de première main, qu'elle utilise pour résoudre l'un des défis les plus complexes et les plus pressants de ML.
Nous avons eu la chance de nous associer à d'autres entreprises dans le domaine de l'IA / ML : Databricks*, Arize*, Dataiku* et Paperspace*. Nous sommes ravis de travailler avec Galileo, car la société apporte l'intelligence des données au ML. Nous nous réjouissons de ce prochain chapitre de croissance à venir.
Ce contenu est fourni à titre d'information et ne constitue pas, et ne peut en aucun cas être considéré comme, un conseil juridique, fiscal ou d'investissement ou comme une offre de vente ou une sollicitation d'une offre d'achat d'un intérêt dans un fonds ou un instrument d'investissement géré par Battery Ventures ou toute autre entité de Battery.
*Signale une entreprise de Battery Portefeuille passée ou présente. Pour une liste complète de tous les investissements de Battery Ventures, veuillez cliquer sur ici. Il ne faut pas présumer que les investissements identifiés ci-dessus ont été ou seront rentables. Il ne faut pas supposer que les recommandations à venir seront rentables ou égaleront les performances des entreprises identifiées ci-dessus.
Les informations et les données sont en date de la publication, sauf indication contraire.
Le contenu obtenu de sources tierces, bien que considéré comme fiable, n'a pas été vérifié de manière indépendante quant à son exactitude ou son exhaustivité et ne peut être garanti. Battery Ventures n'a aucune obligation de mettre à jour, de modifier ou d'amender le contenu de ce post ni d'avertir ses lecteurs dans le cas où toute information, opinion, projection, prévision ou estimation incluse, changerait ou deviendrait ultérieurement inexacte.
Les informations ci-dessus peuvent contenir des projections ou d'autres déclarations prévisionnelles concernant des événements ou des attentes futurs. Les prédictions, opinions et autres informations discutées dans cette vidéo sont susceptibles d'être modifiées en permanence et sans préavis d'aucune sorte et peuvent ne plus être pertinentes après la date indiquée. Battery Ventures n'assume aucune obligation et ne s'engage pas à mettre à jour les déclarations prospectives.
Un bulletin d'information mensuel pour partager de nouvelles idées, des aperçus et des introductions pour aider les entrepreneurs à développer leurs entreprises.