Internet Explorer n'est pas pris en charge par notre site web. Pour une expérience plus sécurisée, veuillez utiliser Chrome, Safari, Firefox ou Edge.
Logiciel deep tech
Dharmesh Thakker, Danel Dayan, Sudheendra Chilappagari, Jason Mendel, Patrick Hsu | 7 juillet 2023
🔥 vs. ❄️ : Databricks et Snowflake s'affrontent à l'approche de la vague d'IA
Photo 268469642 © Carlos Quiros | Dreamstime.com

Les données ont de la gravité, et Snowflake et Databricks* l'ont prouvé la semaine dernière lors de leurs sommets annuels des utilisateurs - celui de Snowflake à Las Vegas et celui de Databricks à San Francisco. Les deux entreprises, qui desservaient autrefois des segments connexes mais distincts du marché des données d'entreprise, sont aujourd'hui sur une trajectoire de collision pour remporter le vaste marché émergent de l'IA/ML, avec milliards à Participations.

Frank Slootman, PDG de Snowflake, a commencé son discours lors de la conférence Snowflake en notant que "pour avoir une stratégie d'IA, vous devez avoir une stratégie de données". Il s'agit d'un commentaire pertinent alors que le débat en cours sur la question de savoir si la prochaine génération de productivité de l'IA sera fondée sur des modèles ou sur des données se poursuit. Au fur et à mesure que les cas d'utilisation mûrissent et que les outils de développement de l'IA se matérialisent, il devient de plus en plus clair que les modèles de ML ne peuvent être aussi bons que les données sous-jacentes qui les alimentent, et que les données vont être un facteur clé de différenciation.

Dans cette optique, Databricks et Snowflake sont tous deux bien positionnés pour s'attaquer à l'IA , car leurs produits respectifs servent déjà d'épine dorsale aux stratégies de données de nombreuses entreprises ; Les entreprises détiennent de vastes quantités de données de première partie précieuses et exclusives qui seront essentielles pour alimenter la prochaine génération d'applications intelligentes, axées sur l'IA.

Les entreprises qui adoptent l'IA ont également besoin des bons outils pour soutenir la recherche, l'intégration et l'augmentation des données, ce qui est déjà en train d'émerger rapidement avec des bases de données vectorielles telles que Weaviate* et Pinecone, des agents de modélisation tels que LangChain et LlamaIndex, et de nouvelles techniques d'incitation telles que Retrieval Augmented Generation ou RAG. Tous ces éléments permettent aux entreprises de combiner les connaissances incorporées dans les paramètres du modèle avec un corpus externe de données.

Ce que nous avons retenu de ces deux conférences, c'est l'idée de rapprocher les modèles et le calcul des données d'entreprise propriétaires qui existent déjà dans Databricks et Snowflake. Bien que nous ayons longtemps débattu de la manière dont les entreprises exploiteront l'IA en production - soit en envoyant des données directement à des fournisseurs de modèles tiers prêts à l'emploi comme OpenAI, Cohere ou Anthropic, soit en apportant des modèles, tiers et open source, directement aux données - Databricks et Snowflake ont clairement montré que les données ont de l'importance. Et, malgré la taille, la sophistication et l'abstraction qu'offrent les modèles tiers disponibles sur étagère, les entreprises veulent avoir la possibilité de former, d'affiner et d'exécuter des modèles directement à partir de leurs données propriétaires, sans faire de compromis sur les performances, les coûts et les questions de sécurité et de gouvernance.

Bien que les annonces relatives à l'IA générative aient dominé les discours d'ouverture et les sessions de discussion lors de la conférence des utilisateurs des deux entreprises, nous avons voulu résumer quelques autres observations clés qui, selon nous, valent la peine d'être notées.

Plates-formes de bout en bout :

  • Une plateforme de donnĂ©es n'a de valeur que si elle permet de transformer des donnĂ©es brutes en informations exploitables. Au cours des deux dernières annĂ©es, Databricks et Snowflake sont passĂ©s du statut de fournisseurs de donnĂ©es en nuage "lakehouse" Ă  celui de plateformes de donnĂ©es horizontales en consolidant diffĂ©rents types de charges de travail en nuage (analytiques, transactionnelles, structurĂ©es/non structurĂ©es, ETL, AI/ML, etc.) au sein d'une plateforme unique.
  • Cette annĂ©e, les deux entreprises se sont moins concentrĂ©es sur la prise en charge de nouveaux types de donnĂ©es, de charges de travail et de formats que sur la mise au point de diffĂ©rentes approches permettant d'exploiter et d'extraire de la valeur des grandes quantitĂ©s de donnĂ©es propriĂ©taires qui se trouvent dĂ©jĂ  dans les plates-formes de donnĂ©es en nuage de Databricks et de Snowflake.
    • Databricks, la plateforme de ML en nuage : Les annonces de produits de Databricks ont mis en Ă©vidence la modularitĂ© de sa plateforme. Il s'agit notamment de Unity Catalog, un catalogue de donnĂ©es qui sert de couche unique . Bien que Databricks dispose dĂ©jĂ  d'un grand nombre d'outils d'ingĂ©nierie des donnĂ©es (ex. Delta Live Tables et Autoloader pour les pipelines ETL), la science (ex. MLflow) et analytique (ex. Databricks SQL et Photon SQL runtime) construits sur son lac de donnĂ©es, l'entreprise a annoncĂ© la semaine dernière Lakehouse AI, son module Generative AI. Il s'agit notamment de l'index de recherche vectorielle de l'entreprise, de la couche de stockage et de distribution des caractĂ©ristiques, du rĂ©fĂ©rentiel de modèles, alimentĂ© par Dolly, Mosaic MPT et d'autres modèles libres, ainsi que d'une couche de distribution et de surveillance. L'Ă©largissement de la gamme de produits de Databrick tĂ©moigne d'une stratĂ©gie claire visant Ă  crĂ©er des modules spĂ©cifiques Ă  la charge de travail Ă  partir de sa plate-forme de donnĂ©es de base (lac delta + catalogue d'unitĂ©s) et Ă  l'Ă©tendre Ă  d'autres personas.
    • Snowflake, le nuage de donnĂ©es complet : Snowflake, quant Ă  lui, continue de se situer entre les cas d'utilisation analytiques et opĂ©rationnels avec Unistore. L'approche en vase clos de l'entreprise a rendu difficile son expansion vers de nouveaux personas au-delĂ  des donnĂ©es Analyst et, par consĂ©quent, Snowflake a concentrĂ© ses efforts et ses versions de produits sur le dĂ©veloppement d'applications de haut niveau pour les utilisateurs professionnels. Il s'agit notamment des nouvelles versions de produits concernant Document AI, Neeva pour la recherche d'entreprise, etc.

Ouvert ou fermé :

  • Ă€ un niveau Ă©levĂ©, les deux Ă©vĂ©nements ont mis en Ă©vidence les forces respectives de chaque entreprise et la rĂ©alitĂ© selon laquelle les deux entreprises abordent l'IA Ă  partir des extrĂ©mitĂ©s opposĂ©es du spectre technologique - des positions qui pourraient dĂ©terminer qui Ă©mergera finalement avec une plus grande part du marchĂ© gĂ©ant de l'IA, alors que pratiquement toutes les entreprises commencent Ă  tirer parti de la technologie de l'IA.
  • Snowflake est Ă  l'origine un fournisseur de services d'entreposage de donnĂ©es et d'analyse dĂ©cisionnelle structurĂ©e, offrant une plateforme fermĂ©e qui s'adresse davantage aux donnĂ©es Analyst. Databricks, quant Ă  lui, a des racines open-source et s'adresse aux data scientists et aux data engineers. Databricks a commencĂ© par proposer des "lacs de donnĂ©es" - des rĂ©fĂ©rentiels centralisĂ©s pour le stockage de donnĂ©es structurĂ©es et non structurĂ©es - qui contiennent naturellement davantage de donnĂ©es non structurĂ©es nĂ©cessaires pour former les modèles d'IA/ML d'aujourd'hui.
  • Ainsi, nous pensons que le parcours de Snowflake vers les charges de travail d'IA est plus long que celui de Databricks, ce qui place Databricks en meilleure position pour remporter cette course. Les paris initiaux de Databricks permettent Ă  l'entreprise de possĂ©der potentiellement l'ensemble du cycle de vie de la ML, y compris l'entraĂ®nement du modèle, le rĂ©glage fin du modèle, la livraison du modèle, l'ingĂ©nierie rapide et l'ingĂ©nierie vectorielle, ce qui dĂ©bloque non seulement les avantages concurrentiels de l'injection de donnĂ©es d'entreprise propriĂ©taires dans le flux de travail de l'IA, mais arme Ă©galement l'entreprise avec une offre Ă©tendue qui pourrait lui permettre de bĂ©nĂ©ficier de l'Ă©volution du marchĂ© de l'IA, quelle qu'elle soit. Aujourd'hui, Snowflake est beaucoup plus tributaire de modèles tiers.

Bataille pour le développeur :

  • Si les deux entreprises ont commencĂ© par se concentrer sur les profils de donnĂ©es (Analyst, ingĂ©nieurs, scientifiques), elles s'Ă©tendent dĂ©sormais aux dĂ©veloppeurs ainsi qu'aux utilisateurs professionnels non techniques, mais très analytiques, en proposant des niveaux d'abstraction plus Ă©levĂ©s et des fonctions analytiques plus avancĂ©es afin de rĂ©duire le temps et les efforts nĂ©cessaires pour obtenir des informations.
  • La prochaine phase de croissance de ces plateformes de donnĂ©es repose sur la conquĂŞte de l'esprit des dĂ©veloppeurs, qu'il s'agisse des dĂ©veloppeurs d'IA (Databricks Lakehouse AI) ou des dĂ©veloppeurs d'applications (Snowflake Unistore).
  • Les fonctionnalitĂ©s de la plateforme ne doivent pas se limiter Ă  permettre aux dĂ©veloppeurs de construire et de former un modèle ; il est Ă©galement essentiel que les dĂ©veloppeurs disposent des outils nĂ©cessaires pour intĂ©grer facilement un modèle dans une application afin de permettre Ă  l'utilisateur final de l'utiliser. Les rĂ©centes acquisitions de Mosaic par Databricks et de Streamlit par Snowflake en sont des exemples.

Pour l'instant,les activités de Databrick et de Snowflake restent quelquepeu complémentaires - - et nous pensons qu'il en sera ainsi pendant un certain temps. Mais les deux conférences d'utilisateurs ont clairement montré qu'elles avaient toutes deux le même objectif : devenir la principale plateforme permettant de transformer chaque entreprise en une entreprise d'IA. Nous sommes optimistes quant au projet de Databricks, par le biais de son produit Lakehouse AI, de construire une infrastructure de bout en bout pour aider les entreprises à convertir les données en leurs propres modèles de ML, et de servir de hub dans lequel les gens peuvent intégrer des données critiques lorsqu'ils veulent construire des modèles de ML avec des données qu'ils stockent déjà au sein de Databricks.

En effet, nous pensons que les modèles d'IA/ML se banalisent de plus en plus, car la courbe des coûts de formation et d'exécution des modèles continue de baisser ; des entreprises comme OpenAI proposent des produits comme des offres SaaS ; et les logiciels libres rendent les modèles de haute qualité plus accessibles. Les données propriétaires des entreprises peuvent constituer leur meilleur "fossé" en matière d'IA pour les protéger des menaces concurrentielles. Dans le monde d'aujourd'hui, les données sont le principal actif de l'entreprise, et il appartient aux organisations individuelles de les monétiser et de les commercialiser grâce à la nouvelle vague d'outils que développent des entreprises telles que Databricks et Snowflake. Nous sommes impatients de voir cette course se poursuivre !

Les informations contenues ci-dessus sont basées uniquement sur les opinions de Dharmesh Thakker, Danel Dayan, Jason Mendel, Sudheendra Chilappagari et Patrick Hsu. Il s'agit d'un matériel fourni à titre d'information, qui ne constitue pas, et ne peut être considéré en aucune manière comme un conseil juridique, fiscal ou d'investissement, ni comme une offre de vente ou une sollicitation d'une offre d'achat d'une participation dans un fonds ou un véhicule d'investissement géré par Battery Ventures ou par toute autre entité de Battery.

Les informations et les données sont en date de la publication, sauf indication contraire.

Le contenu obtenu de sources tierces, bien que considéré comme fiable, n'a pas été vérifié de manière indépendante quant à son exactitude ou son exhaustivité et ne peut être garanti. Battery Ventures n'a aucune obligation de mettre à jour, de modifier ou d'amender le contenu de ce post ni d'avertir ses lecteurs dans le cas où toute information, opinion, projection, prévision ou estimation incluse, changerait ou deviendrait ultérieurement inexacte.

*Indique une entreprise de Battery Portefeuille. Pour une liste complète de tous les investissements et sorties, veuillez cliquer sur ici.

Retour au blog
PARTAGER CET ARTICLE
TwitterLinkedInFacebookHacker NewsRedditWhatsApp

Un bulletin d'information mensuel pour partager de nouvelles idées, des aperçus et des introductions pour aider les entrepreneurs à développer leurs entreprises.

S'abonner
Articles connexes