Internet Explorer n'est pas pris en charge par notre site web. Pour une expérience plus sécurisée, veuillez utiliser Chrome, Safari, Firefox ou Edge.
Logiciel deep tech
Powered by Battery | 22 août 2017
Contourner le "mur de Moore" : Ali Ghodsi, PDG de Databricks, s'efforce de rendre l'IA plus accessible au Fortune 2000
© Bogdanhoda | Dreamstime.com

Aujourd'hui, Databricks*, un fournisseur très connu de technologies qui alimentent l'intelligence artificielle et les percées en matière d'analyse de données dans les grandes entreprises, a annoncé avoir levé 140 millions de dollars auprès d'un groupe d'investisseurs dirigé par Andreessen Horowitz et comprenant Battery Ventures. Powered by Battery s'est entretenu avec Ali Ghodsi, cofondateur et PDG de Databricks, pour parler de la création de l'entreprise, de la manière dont elle aide réellement ses clients et de ses projets pour l'avenir.

Powered by Battery : Commençons donc par parler de la façon dont cette entreprise a démarré. La technologie de base est issue d'un projet de recherche à Berkeley, exact ? Comment tout cela s'est-il produit ?

Ali Ghodsi: Oui. Vers 2009, tous les cofondateurs de Databricks étaient à U.C. Berkeley, et nous étions des chercheurs universitaires. Nous avons eu cette grande intuition : Nous avons réalisé que les ordinateurs ne vont pas devenir plus rapides. Nous avons atteint ce que l'on appelle le mur de Moore : La loi de Moore ne s'applique plus. En gros, cela signifie que les ordinateurs ne vont plus devenir plus rapides tous les 18 mois.

Cela signifie que vous ne pouvez plus acheter de superordinateurs pour répondre à vos demandes d'analyse de données. Il y a un nouvel ordinateur - c'est le centre de données dans le nuage. Nous avons pensé qu'il s'agissait d'une opportunité sur le terrain et nous étions très enthousiastes à l'idée de la poursuivre. Nous devions comprendre comment utiliser ces centaines de milliers de machines dans le nuage pour traiter toutes ces données, en tirer davantage de renseignements et faire des prédictions à l'aide de techniques comme l'apprentissage automatique et d'autres approches d'intelligence artificielle.

Quatre ou cinq ans plus tard, vers 2013, nous avons créé un projet Apache appelé "Spark" pour résoudre ce problème.  Spark avait eu une certaine traction - je veux dire, pour un projet universitaire, il a eu un grand succès, je dirais. Mais nous avons décidé que si nous voulions que cette technologie décolle vraiment, et que les entreprises et le reste du monde l'adoptent vraiment, il fallait qu'il y ait une entreprise derrière. C'est alors que nous avons décidé de créer Databricks. Nous étions six et nous avons fondé l'entreprise à l'été 2013.

PBB : Et que faisiez-vous avant ce travail à Berkeley ?

AG: J'ai grandi en Suède. Je faisais partie de ces geeks qui ont commencé à programmer quand j'étais enfant. Je crois que j'ai commencé à l'âge de sept ans. Je suis allé faire un diplôme d'informatique et, ensuite, un doctorat. J'ai obtenu un poste de professeur assistant en Suède, à l'université. C'est à cette époque que j'ai eu l'occasion de travailler avec l'équipe de Berkeley ici.

Au début, j'ai dit que je viendrais visiter l'U.C. Berkeley pendant un an et que je retournerais ensuite à mon poste de professeur en Suède. J'ai été ici pendant un an, et j'ai dit, hé, c'est vraiment, vraiment intéressant. Nous avons atteint le mur de Moore, il y a cette grande opportunité, et je n'aurai plus jamais une autre opportunité comme celle-ci dans ma vie. Alors laissez-moi lui donner 12 mois de plus. Je suis donc resté une année de plus.

Puis deux années s'étaient écoulées, et j'ai dit, cette opportunité est si grande que je devrais lui donner une année de plus. Je suis resté trois ans. Vous voyez donc où cette histoire va nous mener.

PBB : Il y avait donc six cofondateurs, dont vous, et vous n'êtes jamais retourné en Suède.

AG: Oui.

PBB : A quelle vitesse la société s'est-elle développée ?

AG : Nous comptons environ 220 employés maintenant, la croissance a donc été rapide en quatre ans. Je pense que nous avons connu une croissance rapide en partie grâce à notre mission : Chez Databricks, nous voulons vraiment simplifier ce problème de big data et apporter l'intelligence artificielle au reste du Fortune 2000.

Après quatre ans, le projet Spark compte désormais plus de 300 000 membres de meetups dans le monde. Et en termes de nombre de personnes qui y ont contribué, il s'agit du plus grand projet (open-source) dans le domaine du big data.

Databricks compte elle-même plus de 500 clients. Nous avons vraiment fait un GA'ed de notre produit, qui est une offre SaaS dans le nuage, il y a environ deux ans et demi. Il s'agit donc d'un grand nombre de clients dans un court laps de temps.

PBB : Parlez-moi donc de la manière dont Databricks aide réellement les clients. J'ai entendu des gens dire que votre technologie rendait enfin la science des données réelle, ou du moins plus accessible. Parlez-nous de cela.

AG: Donc, c'est assez simple. Vous pouvez ouvrir n'importe quel journal et tout le monde parle des percées de l'intelligence artificielle. Tout le monde parle de ces histoires de réussite. Et il est vrai que (l'IA) a un grand, un fantastique potentiel. Mais ce qu'ils ne vous disent pas, c'est qu'il y a environ cinq à dix entreprises qui récoltent vraiment ces avantages. Toutes ces réussites sont essentiellement dues aux programmes de ces cinq à dix entreprises. Le reste du monde, le reste du Fortune 2000 est essentiellement en difficulté, et ils ne connaissent pas les mêmes succès. Notre mission est donc d'apporter ce type de technologie, ce type d'intelligence artificielle, au reste du Fortune 2000. C'est vraiment notre mission.

PBB : Pourquoi ces entreprises se débattent-elles avec cela ?

AG : Ils se heurtent essentiellement à trois problèmes. La première est qu'il est difficile d'amener les différentes personnes impliquées dans ces projets à travailler ensemble et à collaborer. Tant de problèmes d'IA que vous voulez résoudre aujourd'hui nécessitent l'implication de personas différents et distincts. Je vais vous donner un exemple. Si vous voulez déterminer à partir d'une radiographie si une personne a une tumeur, et que vous voulez le faire automatiquement avec l'intelligence artificielle, vous avez probablement besoin de médecins impliqués pour vous aider à construire cette application. Il ne peut pas s'agir uniquement d'informaticiens titulaires d'un doctorat. Cela implique donc des médecins, mais aussi les informaticiens qui construisent le Logiciel, et les scientifiques des données qui peuvent faire de l'apprentissage automatique et de l'IA. Mais vous avez également besoin d'ingénieurs de données qui peuvent introduire les données dans les systèmes. Et ce que nous constatons dans bon nombre de ces grandes entreprises, c'est qu'il est tout simplement difficile d'amener ces différentes équipes à collaborer, à travailler ensemble et à partager les résultats. La politique se met souvent en travers du chemin. J'appelle cela le problème des personnes.

Le deuxième problème que nous constatons est celui du processus. Cela signifie essentiellement qu'il y a beaucoup de choses à mettre en place pour que l'apprentissage automatique ou l'IA fonctionne de bout en bout. Vous devez introduire les données dans le système, les nettoyer, puis construire des modèles prédictifs - jusqu'à l'exécution des prédictions. Et aujourd'hui, vous devez assembler de nombreux logiciels différents pour que cela fonctionne. Il n'y a pas un seul et unique logiciel que vous pouvez utiliser.

Le troisième problème que vous devez résoudre est celui de l'infrastructure. Alors comment faire pour charger le Logiciel sur ces milliers de machines que vous utilisez, et les gérer, et s'assurer qu'elles sont sécurisées ? Pour ce faire, les entreprises doivent embaucher de nombreux collaborateurs DevOps.

Ce sont trois défis distincts qui créent des obstacles. De ce fait, il y a essentiellement un problème de 1%. Autrement dit, seul environ 1 % des entreprises réussissent avec l'IA. Il y a ce grand écart où le reste, les 99%, se débattent avec ces trois problèmes.

PBB : Pour que je comprenne bien... les cinq à dix entreprises dont vous avez parlé et qui réussissent bien avec l'IA sont principalement les grandes entreprises technologiques, n'est-ce pas ?

AG : Oui, les grandes entreprises technologiques avec leurs armées de data scientists et leurs grandes quantités de données provenant d'Internet sont les seules à faire toutes ces grandes choses.

PBB : Pouvez-vous nous en dire un peu plus sur les types spécifiques de projets d'IA pour lesquels les gens utilisent le Logiciel de Databricks ? Ou comment des secteurs industriels spécifiques l'utilisent ?

AG : Donc, par exemple, le domaine médical en est un. L'espace médical est riche et je pourrais en parler sans fin. Mais ce n'est qu'un secteur. Si vous allez dans le secteur financier, il y a aussi beaucoup de problèmes. Souvent, ces défis tendent à être centrés sur les différents types d'anomalies que vous souhaitez détecter automatiquement. Par exemple, une carte de crédit vient d'être utilisée - s'agissait-il d'un débit frauduleux ou non ? Une attaque vient de passer par le réseau, ou quelqu'un a essayé de pénétrer dans le bâtiment, ou dans le système bancaire. Est-ce un pirate informatique ? Ou encore, voici des milliards et des milliards de transactions sur une certaine bourse. Y a-t-il un délit d'initié ou une collusion en cours ?

Et puis il y a bien sûr l'informatique industrielle. Ce sont des entreprises qui possèdent beaucoup d'équipements industriels. Et il s'avère qu'au cours des dix dernières années environ, ils ont installé de nombreux capteurs sur leurs équipements, et ils recueillent des quantités massives de données. L'équipement peut être n'importe quoi, des turbines à réaction aux équipements de forage, etc. Maintenant, ces capteurs lisent toutes ces données, et les entreprises veulent être en mesure de faire des prédictions sur la base de ces données. Comme, est-ce que cette éolienne va tomber en panne ? Si c'est le cas, j'aimerais le savoir, à la fois pour des raisons de sécurité, mais aussi parce que je pourrais aussi remplacer certaines pièces à l'avance, et nous pourrions éviter une panne.

Ces ensembles de données sont massifs. Ils sont toujours à l'échelle du pétaoctet.

PBB : Pour en revenir aux trois principaux problèmes que vous avez décrits et auxquels les entreprises sont généralement confrontées lorsqu'elles tentent d'analyser de grands ensembles de données et de mettre en œuvre l'IA, comment la solution de Databricks résout-elle ces problèmes ?

AG: Et pour répondre au premier problème, celui des personnes, nous avons fourni un espace de travail collaboratif unifié qui fait partie de notre plateforme en nuage. Cela permet aux différents personas de l'organisation de partager les résultats entre eux. Ils peuvent collaborer, venir regarder les prédictions, les ensembles de données, les idées, et - en même temps - le faire de manière sécurisée, afin que les mauvaises données ou les mauvais résultats ne parviennent pas aux mauvaises personnes de l'organisation. C'est la première chose que nous avons intégrée au produit, et lorsque nous parlons à nos clients, c'est l'une des choses qu'ils préfèrent et qui revient généralement. Combien il est plus facile et plus simple de partager ces résultats, de tirer les enseignements de la plate-forme. Le mot clé ici est la collaboration.

Pour aborder le problème du processus, il s'agit en fait de Spark lui-même et de la plateforme que nous avons construite autour de lui. Il unifie les différents aspects de l'IA que vous souhaitez faire. Ainsi, au lieu de disposer d'un grand nombre d'outils différents, la plate-forme que nous avons construite, en utilisant une seule API et un seul cadre, vous permet de tout faire, de l'accès à différentes sources de données, à l'ETL'ing des données (c'est-à-dire l'extraction, la transformation et le chargement de ces données), à la construction de modèles autour d'elles, et même à l'exécution des prédictions en production en temps réel pour vous. C'est donc vraiment l'innovation technique clé à l'origine de Databricks.

Cette unification rend simplement beaucoup plus simple le travail de bout en bout. Plutôt que de devoir dire, OK, nous allons assembler le Logiciel qui vient de ce fournisseur, et nous allons utiliser cette autre chose open-source qui vient de là-bas, et essayer de les coller tous ensemble.

Le dernier défi est le problème de l'infrastructure. Pour y remédier, nous avons automatisé tout cela dans le nuage. Ainsi, plutôt que de demander aux gens de déterminer le matériel dont ils ont besoin, et de faire fonctionner le logiciel sur un matériel particulier, et de gérer cela, nous disons, vous n'avez pas besoin de faire cela. Vous n'avez pas besoin d'engager des tas et des tas de personnes de DevOps pour faire cela pour vous. Nous avons automatisé cela pour vous dans le nuage. Et parce qu'il est automatisé pour vous dans le nuage, vous pouvez simplement l'utiliser comme Logiciel as a service.

Ensemble, notre solution s'appelle Unified Analytics Platform. Il unifie de bout en bout les analyses dont vous avez besoin dans votre organisation. Il unifie les différentes personnes qui doivent travailler ensemble. Il unifie les différents aspects du processus dont vous avez besoin pour faire fonctionner l'IA. Et il unifie l'infrastructure avec le Logiciel et les solutions.

PBB : Qui, en particulier, au sein des organisations de vos clients utilise généralement le produit ? S'agit-il de data scientists, ou de personnes occupant d'autres types de rôles fonctionnels ?

AG : La personne principale est le data scientist. Mais récemment, nous avons également commencé à voir de plus en plus d'ingénieurs de données ; je dirais qu'il y a peut-être une répartition 60/40 pour nous, 60 % de scientifiques de données, 40 % d'ingénieurs de données.

Ensuite, une grande partie de ce qu'ils créent est partagée et fait l'objet d'une collaboration avec d'autres personnes de l'organisation. Il peut s'agir des médecins, ou d'autres personnes qui examinent les résultats et les idées, les commentent et posent des questions. Il peut s'agir d'un ingénieur dans une entreprise IoT, ou d'un médecin dans une organisation de soins de santé. Ce sont les experts du domaine.

PBB : Pouvez-vous parler de clients spécifiques qui utilisent Databricks de manière intéressante ? Des noms que nous pourrions connaître ?

AG : L'un des plus grands est Shell. Ils ont beaucoup d'équipements, et ils ont beaucoup de données de capteurs. Un autre que je dirais est Salesforce. Comme vous le savez, ils construisent Salesforce Einstein. Alexis Roos de Salesforce a fait une présentation à ce sujet à lors du récent Spark Summit, où il a montré comment Databricks est utilisé pour construire Salesforces Inbox, qui utilise des techniques d'IA de pointe pour trouver, à partir de votre boîte aux lettres, des informations sur les réunions, les clients, les affaires, etc. Vraiment innovant avec toutes les données massives que chacun a déjà dans sa boîte de réception.

Il existe également un autre cas d'utilisation qui s'applique à toutes les entreprises qui utilisent des Databricks dans presque tous les secteurs.  Tout le monde a des tas et des tas de données sur les clients, et ils aimeraient bien utiliser des mécanismes prédictifs et l'IA pour savoir lesquels de ces clients sont potentiellement en train de chuter et de les quitter. Si vous pouvez le découvrir à l'avance, cette information est extrêmement précieuse pour les entreprises car elles peuvent atteindre ces clients et leur montrer un amour supplémentaire, et éventuellement les garder. La société de jeux Riot Games en est un cas particulier et intéressant. Ils peuvent en fait suivre votre comportement dans leurs jeux lorsque vous jouez. En se basant sur la façon dont vous jouez au jeu dans les 30 premières secondes, ils peuvent prédire, avec Databricks, si les choses ne vont pas bien et si un utilisateur est sur le point de quitter le jeu. Ensuite, ils peuvent faire des choses pour y remédier.

PBB : Fascinant. Je voulais maintenant prendre un peu de recul et m'interroger sur la technologie sous-jacente de Databricks. Plus largement, pour ce qui est d'aider les gens à prendre conscience de la puissance et des données de l'IA, Hadoop, une autre technologie de big data, n'était-elle pas censée faire cela aussi ?

AG: Hadoop est donc une technologie de première génération. Les cofondateurs de Databricks étaient en fait des chercheurs travaillant sur le projet Hadoop à U.C. Berkeley. Nous avons donc de bons souvenirs de ces années. Databricks en est l'évolution. C'est la technologie de la prochaine génération. Il peut en fait coexister joyeusement avec Hadoop et, à bien des égards, être en fait synergique. Mais elle l'améliore également, dans le sens où elle peut être plus rapide de plusieurs ordres de grandeur. Il est meilleur pour faire des prédictions avec l'IA en particulier, car Hadoop n'était pas vraiment une technologie prédictive avec laquelle vous pouviez faire de l'IA. Enfin, il est beaucoup, beaucoup plus facile à utiliser. Il est beaucoup plus accessible à un public plus large que Hadoop. Hadoop est assez complexe à utiliser.

PBB : En quoi le fait d'être une technologie à source ouverte rend-il votre produit meilleur ?

AG : C'est une excellente question. Je pense que l'open source est la clé pour les grandes entreprises qui en ont assez d'être enfermées dans des logiciels propriétaires. Je pense que les API ouvertes vont être une nécessité à l'avenir si vous voulez avoir la traction des développeurs. Ce que je veux dire par là, c'est que vous ne pouvez pas créer une nouvelle API et espérer que des millions de développeurs dans le monde entier vont se baser sur votre API lorsque ce logiciel est lui-même propriétaire. Vous n'obtiendrez pas ce type de traction. C'est ma conviction. Pour cette raison, il est crucial que les API soient toutes open source.

Cependant, le modèle commercial de Databricks est un noyau ouvert dans le sens où, bien que nos API soient ouvertes et que toutes nos bibliothèques soient ouvertes, il y a beaucoup de choses qui sont propriétaires et qui ont à voir avec la performance, la fiabilité et la sécurité. Mais ils ne bloquent pas un client. Ainsi, à l'avenir, si un client n'aime pas les performances que nous fournissons, ou la sécurité que nous fournissons, ou la fiabilité que nous fournissons, il peut écrire sur une autre plateforme Spark à source ouverte, car toutes ces API sont ouvertes. C'est une excellente chose pour les clients, car ils savent qu'ils ne s'enferment pas dans les Databricks.

PBB : Félicitations pour l'annonce de votre tour de financement aujourd'hui. 140 millions de dollars, c'est beaucoup d'argent ! À quoi servira-t-il ?

AG: Nous allons utiliser ce financement pour nous développer à l'international, mais aussi pour poursuivre de nouvelles innovations de produits et de solutions pour de nouvelles industries. Il y a tellement de demande pour le produit que nous voyons, nous voulons accélérer cela et le mettre dans les mains de plus de clients sur plus de marchés.

PBB : Quelle est la prochaine étape pour Databricks ? Où voyez-vous l'entreprise dans cinq ans ?

AG: Je nous vois monter de plus en plus dans la pile, et permettre encore plus de collaboration, et plus de démocratisation de l'IA pour l'entreprise. Pour que les entreprises puissent plus facilement s'engager dans ce voyage qui consiste à devenir plus axé sur les données et à faire de plus en plus de prédictions autour des données. Databricks développe actuellement de nombreux produits dans ce but, afin de rendre le produit encore plus facile à utiliser et plus accessible à un plus grand nombre de personnes, et de permettre un partage encore plus large des résultats.

Nous voulons également aider des verticaux particuliers à avoir plus de succès. Parce qu'en accélérant vraiment l'adoption de l'IA par ces entreprises, vous devez en quelque sorte vous rapprocher du domaine dans lequel elles sont réellement actives. Donc, pour nous, cela signifie se concentrer sur l'aide aux entreprises pour qu'elles soient encore plus performantes dans le domaine des soins de santé et des sciences de la vie, des services financiers, des médias et du divertissement, du gouvernement et probablement quelques autres au fil du temps.

PBB : Ça a l'air génial. Y a-t-il autre chose dont nous n'avons pas parlé ?

AG : Nous sommes tout simplement très enthousiastes à l'idée de proposer le produit sur davantage de marchés, de nous concentrer sur ces secteurs verticaux et de mettre la plateforme d'analyse unifiée Databricks entre les mains du plus grand nombre d'entreprises possible. Et bien sûr, nous sommes très heureux d'être partenaire de Battery Ventures dans ce voyage.

Ce contenu est fourni à titre d'information et ne constitue pas, et ne peut en aucun cas être considéré comme, un conseil juridique, fiscal ou d'investissement ou comme une offre de vente ou une sollicitation d'une offre d'achat d'un intérêt dans un fonds ou un instrument d'investissement géré par Battery Ventures ou toute autre entité de Battery. 

Les informations et les données sont en date de la publication, sauf indication contraire.

Le contenu obtenu de sources tierces, bien que considéré comme fiable, n'a pas été vérifié de manière indépendante quant à son exactitude ou son exhaustivité et ne peut être garanti. Battery Ventures n'a aucune obligation de mettre à jour, de modifier ou d'amender le contenu de ce post ni d'avertir ses lecteurs dans le cas où toute information, opinion, projection, prévision ou estimation incluse, changerait ou deviendrait ultérieurement inexacte.

Les informations ci-dessus peuvent contenir des projections ou d'autres déclarations prévisionnelles concernant des événements ou des attentes futurs. Les prédictions, opinions et autres informations discutées dans cette vidéo sont susceptibles d'être modifiées en permanence et sans préavis d'aucune sorte et peuvent ne plus être pertinentes après la date indiquée. Battery Ventures n'assume aucune obligation et ne s'engage pas à mettre à jour les déclarations prospectives.

*Dénote une entreprise de Battery Portefeuille. Pour une liste complète de tous les investissements de Battery, veuillez cliquer ici.

Retour au blog
PARTAGER CET ARTICLE
TwitterLinkedInFacebookHacker NewsRedditWhatsApp

Un bulletin d'information mensuel pour partager de nouvelles idées, des aperçus et des introductions pour aider les entrepreneurs à développer leurs entreprises.

S'abonner
Articles connexes