🔥 vs. ❄️ : Databricks et Snowflake s'affrontent à l'approche de la vague d'IA

Tendance

Dharmesh Thakker, Danel Dayan, Sudheendra Chilappagari, Jason Mendel, Patrick Hsu | 7 juillet 2023

Photo 268469642 © Carlos Quiros | Dreamstime.com

Les données ont de la gravité, et Snowflake et Databricks* l'ont prouvé la semaine dernière lors de leurs sommets annuels des utilisateurs - celui de Snowflake à Las Vegas et celui de Databricks à San Francisco. Les deux entreprises, qui desservaient autrefois des segments connexes mais distincts du marché des données d'entreprise, sont aujourd'hui sur une trajectoire de collision pour remporter le vaste marché émergent de l'IA/ML, avec milliards à Participations.

Frank Slootman, PDG de Snowflake, a commencé son discours lors de la conférence Snowflake en notant que "pour avoir une stratégie d'IA, vous devez avoir une stratégie de données". Il s'agit d'un commentaire pertinent alors que le débat en cours sur la question de savoir si la prochaine génération de productivité de l'IA sera fondée sur des modèles ou sur des données se poursuit. Au fur et à mesure que les cas d'utilisation mûrissent et que les outils de développement de l'IA se matérialisent, il devient de plus en plus clair que les modèles de ML ne peuvent être aussi bons que les données sous-jacentes qui les alimentent, et que les données vont être un facteur clé de différenciation.

Dans cette optique, Databricks et Snowflake sont tous deux bien positionnés pour s'attaquer à l'IA , car leurs produits respectifs servent déjà d'épine dorsale aux stratégies de données de nombreuses entreprises ; Les entreprises détiennent de vastes quantités de données de première partie précieuses et exclusives qui seront essentielles pour alimenter la prochaine génération d'applications intelligentes, axées sur l'IA.

Les entreprises qui adoptent l'IA ont également besoin des bons outils pour soutenir la recherche, l'intégration et l'augmentation des données, ce qui est déjà en train d'émerger rapidement avec des bases de données vectorielles telles que Weaviate* et Pinecone, des agents de modélisation tels que LangChain et LlamaIndex, et de nouvelles techniques d'incitation telles que Retrieval Augmented Generation ou RAG. Tous ces éléments permettent aux entreprises de combiner les connaissances incorporées dans les paramètres du modèle avec un corpus externe de données.

Ce que nous avons retenu de ces deux conférences, c'est l'idée de rapprocher les modèles et le calcul des données d'entreprise propriétaires qui existent déjà dans Databricks et Snowflake. Bien que nous ayons longtemps débattu de la manière dont les entreprises exploiteront l'IA en production - soit en envoyant des données directement à des fournisseurs de modèles tiers prêts à l'emploi comme OpenAI, Cohere ou Anthropic, soit en apportant des modèles, tiers et open source, directement aux données - Databricks et Snowflake ont clairement montré que les données ont de l'importance. Et, malgré la taille, la sophistication et l'abstraction qu'offrent les modèles tiers disponibles sur étagère, les entreprises veulent avoir la possibilité de former, d'affiner et d'exécuter des modèles directement à partir de leurs données propriétaires, sans faire de compromis sur les performances, les coûts et les questions de sécurité et de gouvernance.

Bien que les annonces relatives à l'IA générative aient dominé les discours d'ouverture et les sessions de discussion lors de la conférence des utilisateurs des deux entreprises, nous avons voulu résumer quelques autres observations clés qui, selon nous, valent la peine d'être notées.

Plates-formes de bout en bout :

Une plateforme de données n'a de valeur que si elle permet de transformer des données brutes en informations exploitables. Au cours des deux dernières années, Databricks et Snowflake sont passés du statut de fournisseurs de données en nuage "lakehouse" à celui de plateformes de données horizontales en consolidant différents types de charges de travail en nuage (analytiques, transactionnelles, structurées/non structurées, ETL, AI/ML, etc.) au sein d'une plateforme unique.
Cette année, les deux entreprises se sont moins concentrées sur la prise en charge de nouveaux types de données, de charges de travail et de formats que sur la mise au point de différentes approches permettant d'exploiter et d'extraire de la valeur des grandes quantités de données propriétaires qui se trouvent déjà dans les plates-formes de données en nuage de Databricks et de Snowflake.
- Databricks, la plateforme de ML en nuage : Les annonces de produits de Databricks ont mis en évidence la modularité de sa plateforme. Il s'agit notamment de Unity Catalog, un catalogue de données qui sert de couche unique . Bien que Databricks dispose déjà d'un grand nombre d'outils d'ingénierie des données (ex. Delta Live Tables et Autoloader pour les pipelines ETL), la science (ex. MLflow) et analytique (ex. Databricks SQL et Photon SQL runtime) construits sur son lac de données, l'entreprise a annoncé la semaine dernière Lakehouse AI, son module Generative AI. Il s'agit notamment de l'index de recherche vectorielle de l'entreprise, de la couche de stockage et de distribution des caractéristiques, du référentiel de modèles, alimenté par Dolly, Mosaic MPT et d'autres modèles libres, ainsi que d'une couche de distribution et de surveillance. L'élargissement de la gamme de produits de Databrick témoigne d'une stratégie claire visant à créer des modules spécifiques à la charge de travail à partir de sa plate-forme de données de base (lac delta + catalogue d'unités) et à l'étendre à d'autres personas.
- Snowflake, le nuage de données complet : Snowflake, quant à lui, continue de se situer entre les cas d'utilisation analytiques et opérationnels avec Unistore. L'approche en vase clos de l'entreprise a rendu difficile son expansion vers de nouveaux personas au-delà des données Analyst et, par conséquent, Snowflake a concentré ses efforts et ses versions de produits sur le développement d'applications de haut niveau pour les utilisateurs professionnels. Il s'agit notamment des nouvelles versions de produits concernant Document AI, Neeva pour la recherche d'entreprise, etc.

Ouvert ou fermé :

À un niveau élevé, les deux événements ont mis en évidence les forces respectives de chaque entreprise et la réalité selon laquelle les deux entreprises abordent l'IA à partir des extrémités opposées du spectre technologique - des positions qui pourraient déterminer qui émergera finalement avec une plus grande part du marché géant de l'IA, alors que pratiquement toutes les entreprises commencent à tirer parti de la technologie de l'IA.
Snowflake est à l'origine un fournisseur de services d'entreposage de données et d'analyse décisionnelle structurée, offrant une plateforme fermée qui s'adresse davantage aux données Analyst. Databricks, quant à lui, a des racines open-source et s'adresse aux data scientists et aux data engineers. Databricks a commencé par proposer des "lacs de données" - des référentiels centralisés pour le stockage de données structurées et non structurées - qui contiennent naturellement davantage de données non structurées nécessaires pour former les modèles d'IA/ML d'aujourd'hui.
Ainsi, nous pensons que le parcours de Snowflake vers les charges de travail d'IA est plus long que celui de Databricks, ce qui place Databricks en meilleure position pour remporter cette course. Les paris initiaux de Databricks permettent à l'entreprise de posséder potentiellement l'ensemble du cycle de vie de la ML, y compris l'entraînement du modèle, le réglage fin du modèle, la livraison du modèle, l'ingénierie rapide et l'ingénierie vectorielle, ce qui débloque non seulement les avantages concurrentiels de l'injection de données d'entreprise propriétaires dans le flux de travail de l'IA, mais arme également l'entreprise avec une offre étendue qui pourrait lui permettre de bénéficier de l'évolution du marché de l'IA, quelle qu'elle soit. Aujourd'hui, Snowflake est beaucoup plus tributaire de modèles tiers.

Bataille pour le développeur :

Si les deux entreprises ont commencé par se concentrer sur les profils de données (Analyst, ingénieurs, scientifiques), elles s'étendent désormais aux développeurs ainsi qu'aux utilisateurs professionnels non techniques, mais très analytiques, en proposant des niveaux d'abstraction plus élevés et des fonctions analytiques plus avancées afin de réduire le temps et les efforts nécessaires pour obtenir des informations.
La prochaine phase de croissance de ces plateformes de données repose sur la conquête de l'esprit des développeurs, qu'il s'agisse des développeurs d'IA (Databricks Lakehouse AI) ou des développeurs d'applications (Snowflake Unistore).
Les fonctionnalités de la plateforme ne doivent pas se limiter à permettre aux développeurs de construire et de former un modèle ; il est également essentiel que les développeurs disposent des outils nécessaires pour intégrer facilement un modèle dans une application afin de permettre à l'utilisateur final de l'utiliser. Les récentes acquisitions de Mosaic par Databricks et de Streamlit par Snowflake en sont des exemples.

Pour l'instant,les activités de Databrick et de Snowflake restent quelquepeu complémentaires - - et nous pensons qu'il en sera ainsi pendant un certain temps. Mais les deux conférences d'utilisateurs ont clairement montré qu'elles avaient toutes deux le même objectif : devenir la principale plateforme permettant de transformer chaque entreprise en une entreprise d'IA. Nous sommes optimistes quant au projet de Databricks, par le biais de son produit Lakehouse AI, de construire une infrastructure de bout en bout pour aider les entreprises à convertir les données en leurs propres modèles de ML, et de servir de hub dans lequel les gens peuvent intégrer des données critiques lorsqu'ils veulent construire des modèles de ML avec des données qu'ils stockent déjà au sein de Databricks.

En effet, nous pensons que les modèles d'IA/ML se banalisent de plus en plus, car la courbe des coûts de formation et d'exécution des modèles continue de baisser ; des entreprises comme OpenAI proposent des produits comme des offres SaaS ; et les logiciels libres rendent les modèles de haute qualité plus accessibles. Les données propriétaires des entreprises peuvent constituer leur meilleur "fossé" en matière d'IA pour les protéger des menaces concurrentielles. Dans le monde d'aujourd'hui, les données sont le principal actif de l'entreprise, et il appartient aux organisations individuelles de les monétiser et de les commercialiser grâce à la nouvelle vague d'outils que développent des entreprises telles que Databricks et Snowflake. Nous sommes impatients de voir cette course se poursuivre !

Les informations contenues ci-dessus sont basées uniquement sur les opinions de Dharmesh Thakker, Danel Dayan, Jason Mendel, Sudheendra Chilappagari et Patrick Hsu. Il s'agit d'un matériel fourni à titre d'information, qui ne constitue pas, et ne peut être considéré en aucune manière comme un conseil juridique, fiscal ou d'investissement, ni comme une offre de vente ou une sollicitation d'une offre d'achat d'une participation dans un fonds ou un véhicule d'investissement géré par Battery Ventures ou par toute autre entité de Battery.

Les informations et les données sont en date de la publication, sauf indication contraire.

Le contenu obtenu de sources tierces, bien que considéré comme fiable, n'a pas été vérifié de manière indépendante quant à son exactitude ou son exhaustivité et ne peut être garanti. Battery Ventures n'a aucune obligation de mettre à jour, de modifier ou d'amender le contenu de ce post ni d'avertir ses lecteurs dans le cas où toute information, opinion, projection, prévision ou estimation incluse, changerait ou deviendrait ultérieurement inexacte.

*Indique une entreprise de Battery Portefeuille. Pour une liste complète de tous les investissements et sorties, veuillez cliquer sur ici.

Retour au blog

PARTAGER CET ARTICLE

ARTICLE ÉCRIT PAR

Dharmesh Thakker

Dharmesh Thakker est un general partner chez Battery Ventures, où il investit dans des entreprises en phase de démarrage et de croissance sur les marchés de l'infrastructure cloud, du big data, de la sécurité et des applications d'entreprise nouvelle génération.

Danel Dayan

Danel est un Principal qui se concentre actuellement sur les investissements en phase de démarrage et Growth Equity dans des domaines tels que l'infrastructure en nuage, le big data, la sécurité et les applications d'entreprise de nouvelle génération.

Sudheendra Chilappagari

Sudhee, principal dans les bureaux de Battery à San Francisco, est un ancien entrepreneur et opérateur. Il apprécie particulièrement les fondateurs qui développent des entreprises de SaaS, d'API et d'infrastructure à tous les stades de développement.

Jason Mendel

Jason est un Vice President qui se concentre actuellement sur les investissements en phase de démarrage et Growth Equity dans des domaines tels que l'infrastructure en nuage, les données massives, la sécurité et les applications d'entreprise de nouvelle génération.

Patrick Hsu

Patrick est un Associate qui se concentre sur les investissements en phase de démarrage et Growth Equity dans des domaines tels que l'infrastructure cloud, le big data, la sécurité et les applications d'entreprise de nouvelle génération.

Un bulletin d'information mensuel pour partager de nouvelles idées, des aperçus et des introductions pour aider les entrepreneurs à développer leurs entreprises.

DOMAINES DE COMPÉTENCES

FONCTIONS MÉTIER

Actualité Battery et tendances du marché Études de cas Ressources pour les fondateurs RH et finance Ventes et marketing

SECTEURS

ÉQUIPES

SERVICES