Le nouvel IDE d'apprentissage automatique d'AWS SageMaker n'est pas prêt à séduire les scientifiques des données

AWS SageMaker, la marque d'apprentissage automatique d'AWS, a annoncé la sortie de SageMaker Studio, a marqué mardi un «IDE pour ML». L'apprentissage automatique a gagné du terrain et, avec ses charges de travail de formation lourdes en calcul, pourrait s'avérer un facteur décisif dans la bataille croissante sur le cloud public. Que signifie donc ce nouvel IDE pour AWS et le marché du cloud public?

Tout d'abord, la vue d'ensemble (passez ci-dessous pour l'analyse fonctionnalité par fonctionnalité de Studio): Ce n'est pas un secret que la part de marché de SageMaker est minuscule (la Information soit environ 11 millions de dollars en juillet 2019). SageMaker Studio tente de résoudre les problèmes importants pour les scientifiques des données et les développeurs d'apprentissage automatique (ML) en rationalisant les charges de travail de formation et de maintenance des modèles. Cependant, sa mise en œuvre est insuffisante en raison de commun, de longue date, les plaintes concernant AWS en général – sa courbe d'apprentissage abrupte et sa complexité.

AWS adopte clairement une stratégie de vente à l'informatique d'entreprise tout en négligeant les fonctionnalités et l'expérience utilisateur qui pourraient faciliter la vie des scientifiques et des développeurs de données. Alors que les technologies sous-jacentes qu'ils libèrent, comme les ordinateurs portables, le débogueur et le moniteur de modèle, tentent de faciliter la formation ML, les implémentations laissent beaucoup à désirer.

Ma propre expérience en essayant d'accéder à SageMaker Studio était un microcosme de ce problème. J'ai eu du mal à installer Studio. Les comptes AWS existants ne peuvent pas vous connecter au nouveau service; vous avez besoin d'une nouvelle connexion unique AWS (SSO). La configuration de l'authentification unique a été fastidieuse, avec des messages d'erreur inutiles comme «Le membre doit satisfaire le modèle d'expression régulière: ( p {L} p {M} p {S} p {N} p {P}) +» qui sont plus susceptibles de confondre que d'éclairer. Pour faire fonctionner une session SageMaker Studio, il fallait également comprendre le modèle complet d'autorisations SSO – lui-même une courbe d'apprentissage abrupte. Apparemment, je l'ai mal compris, car je n'ai jamais réussi à le faire fonctionner. Et cela grâce aux conseils utiles de trois employés d'AWS, dont l'un était un développeur.

Mon expérience avec SageMaker n'était pas unique. Cela même Article d'information a déclaré: «Une personne qui a travaillé sur des projets clients en utilisant la technologie a décrit le service comme techniquement complexe avec lequel travailler, même si AWS a cherché à rendre l'apprentissage automatique plus accessible aux clients.» Ce type de complexité n'est pas non plus propre à SageMaker; comme nous l'avons vu, il se généralise à tous les produits cloud d'AWS. Pendant ce temps, son concurrent Google Cloud aurait un meilleure expérience développeur, être plus «convivial," et être "plus soucieux des besoins des développeurs professionnels. "

Pour l'instant, les investisseurs n'ont pas à s'inquiéter. Choisir la complexité plutôt que la simplicité est probablement le bon choix, en se concentrant sur les besoins des grands acheteurs informatiques d'entreprise aux poches profondes qui mettent l'accent sur la sécurité personnalisable et les listes de vérification des fonctionnalités (AWS a 169 produits différents, en mai de cette année). Malheureusement, cela se fait au détriment d'une courbe d'apprentissage abrupte et de la convivialité des développeurs. Bien que cela puisse être la bonne stratégie pour l'instant, la complexité de Studio ouvre AWS à un potentiel de perturbation de style Christensen (pensez Dilemme de l'innovateur). La taille même d'AWS (il est largement reconnu comme le plus grand fournisseur de cloud) présente de nombreux avantages – capacité à prendre en charge des offres plus larges, une plus grande base de développeurs certifiés, de plus grandes économies d'échelle – pour n'en nommer que quelques-uns. Mais cette année a déjà vu les introductions en bourse de Zoom et Mou, deux entreprises B2B qui ont contourné la voie traditionnelle des ventes informatiques d'entreprise en conquérant le cœur et l'esprit des utilisateurs finaux et en forçant la main des acheteurs. Un lecteur similaire adapté aux développeurs pourrait-il remplacer AWS?

Ce que SageMaker Studio offre

Voyons maintenant les fonctionnalités de Studio: SageMaker a annoncé de nouvelles fonctionnalités intéressantes dans le cadre de Studio: ordinateurs portables, tests, débogueur, moniteur de modèle et pilote automatique.

Ordinateurs portables SageMaker essayez de résoudre le plus grand obstacle pour les personnes qui apprennent la science des données: faire fonctionner un environnement Python ou R et trouver comment utiliser un ordinateur portable. Studio fournit des ordinateurs portables en un seul clic pour l'environnement SageMaker, en concurrence directe avec Google Colab ou Ordinateurs portables Microsoft Azure dans la catégorie Notebook-as-a-Service. Mais SageMaker a eu des instances de bloc-notes depuis 2018, et on ne sait pas quel type d'amélioration Studio propose sur ce front.

Expériences SageMaker fournit des capacités de rapport d'avancement pour les longs travaux. Ceci est pratique car vous n'avez souvent aucun moyen de savoir pendant combien de temps un travail continuera à s'exécuter ou s'il s'est bloqué en arrière-plan. La fonctionnalité Expériences devrait être un ajout utile pour les travaux basés sur le cloud, les grands ensembles de données ou les projets gourmands en GPU. Cependant, il a existé (bien que potentiellement sous une forme moins visuelle) dès juillet 2018. Encore une fois, il est difficile de savoir comment ce produit est meilleur que ses prédécesseurs.

Débogueur SageMaker promet de simplifier le processus de débogage. L'annonce de cette fonctionnalité est accompagnée d'explications approfondies, y compris des extraits de code montrant comment l'outil peut aider les développeurs à déboguer des bogues Tensorflow autrement opaques (il peut probablement fonctionner ou fonctionnera avec d'autres outils ML).

j'ai parlé avec Cady de campagne, auteur de Le manuel de la science des données, sur la valeur de l'outil. «Le débogage de modèles d'apprentissage automatique, en particulier des modèles complexes comme Tensorflor ou PyTorch, est un vrai problème et ne pas repérer les erreurs tôt quand vous pouvez avoir des tâches de formation de plusieurs jours entrave vraiment la productivité», a-t-il déclaré. "L'accès immédiat aux modèles, même s'ils ne sont pas encore entièrement formés, vous permet de résoudre ces problèmes d'intégration en parallèle de la formation elle-même." Dans l'ensemble, la fonctionnalité semble vraiment nouvelle et résout un véritable problème pour l'utilisateur.

Moniteur de modèle SageMaker surveille les modèles à Points de terminaison SageMaker pour la dérive des données. C'est peut-être la fonctionnalité la plus intéressante de Studio car elle permet d'alerter les responsables de modèles sur la dérive des données d'entrée (et donc du modèle). Pour paraphraser le PDG d'AWS Keynote d'Andy Jassy de la conférence reInvent de cette année, les modèles de prêts hypothécaires formés avec les données sur le logement de 2005 pourraient bien fonctionner en 2006, mais échoueraient probablement lors de l'éclatement de la bulle immobilière en 2008 en raison de changements dans les données sous-jacentes du modèle. Un système qui pourrait alerter automatiquement les responsables de modèles de ces changements est très précieux. Model Monitor présente un avantage évident de la standardisation de l'hébergement de modèles sur SageMaker Endpoints, le service d'hébergement de modèles d'AWS, dans le cadre d'une concurrence directe avec Google AI Platform et démarrage Algorithmie.

SageMaker AutoPilot fait partie de la catégorie AutoML, qui forme automatiquement les modèles ML à partir de fichiers de données CSV. Le produit est en concurrence avec DataRobot, qui a permis de recueillir 206 millions de dollars Série E en septembre dernier. Bien que ce type d'outil présente certains avantages (il est probablement moins cher que de demander à un scientifique des données d'effectuer cette étape), il s'agit également probablement de la catégorie la plus mal comprise de celles que nous avons examinées jusqu'à présent. Lorsque j'ai discuté de l'outil avec Cady, il a noté le sale petit secret de la science des données: alors que la majeure partie du battage médiatique est concentrée sur les 10% du travail qui sont le ML et la formation, 90% du travail vient plus tôt. "Au moment où vous avez un CSV, vous avez fait 90% du travail. La plupart des données scientifiques proviennent de la réflexion sur les bons ensembles de données à utiliser, la bonne variable de résultat à cibler, les biais dans vos données, puis les fusionner et les assembler », a-t-il déclaré. Ainsi, même si AutoPilot peut accélérer le ML, il ne fait rien pour accélérer la majeure partie du travail d'un data scientist.

L'essentiel

Que nous apprend tout cela sur SageMaker Studio? Il s'agit d'un sac mixte, avec certaines fonctionnalités qui semblent n'être que des changements de marque d'anciens produits et d'autres qui résolvent de nouveaux problèmes légitimes pour les clients. Même les meilleures nouvelles fonctionnalités sont des améliorations incrémentielles des produits existants. Pour être transformateur, AWS doit s'attaquer spécifiquement aux problèmes d'utilisation plus importants dans SageMaker et à l'écosystème AWS plus large.

Une perturbation de style Christensen d'AWS est-elle probable? Seul le temps nous le dira. Grâce à des outils tels que Notebooks, Debugger et Model Monitor, AWS semble tenter de gagner le cœur et l'esprit des développeurs et des scientifiques des données. Mais à ce jour, ces tentatives semblent échouer.

Tianhui Michael Li est président de Data chez Institut Pragmatique et fondateur de L'incubateur de données.

Source

A propos newstrotteur-fr

Découvrez également

Vous utilisez une application de suivi menstruel? C’est ce qui arrive à vos données de santé

Crédits: CC0 Public Domain Si vous êtes l’une des millions de femmes qui utilisent des …

Laisser un commentaire

Do NOT follow this link or you will be banned from the site!