Uber détaille la fibre, un cadre pour la formation de modèles d’IA distribués

Une préimpression papier co-écrit par des scientifiques d’Uber AI et Jeff Clune, un chef d’équipe de recherche à la startup OpenAI de San Francisco, décrit Fibre, une plateforme de développement et de formation distribuée de l’IA pour les méthodes, y compris l’apprentissage par renforcement (qui incite les agents de l’IA à atteindre leurs objectifs via des récompenses) et l’apprentissage basé sur la population. L’équipe affirme que Fibre étend l’accessibilité du calcul parallèle à grande échelle sans avoir besoin de matériel ou d’équipement spécialisé, permettant aux non-experts de profiter des avantages des algorithmes génétiques dans lesquels les populations d’agents évoluent plutôt que des membres individuels.

Fibre – qui a été développée pour alimenter des projets de calcul scientifique parallèle à grande échelle comme POÈTE – est disponible en Open source à partir de cette semaine, sur Github. Il prend en charge les systèmes Linux exécutant Python 3.6 et versions ultérieures et Kubernetes fonctionnant sur des environnements de cloud public comme Google Cloud, et l’équipe de recherche affirme qu’il peut évoluer sur des centaines, voire des milliers de machines.

Comme le soulignent les chercheurs, l’augmentation du calcul sous-tend de nombreuses avancées récentes dans l’apprentissage automatique, avec de plus en plus d’algorithmes s’appuyant sur une formation distribuée pour traiter une énorme quantité de données. (OpenAI Five, Le bot Dota 2 d’OpenAI, a été formé sur 256 cartes graphiques et 1280 000 cœurs de processeur sur Google Cloud.) Mais le renforcement et les méthodes basées sur la population posent des défis pour la fiabilité, l’efficacité et la flexibilité que certains cadres ne sont pas satisfaisants.

La fibre relève ces défis avec une stratégie légère pour gérer la planification des tâches. Il exploite un logiciel de gestion de cluster pour la planification et le suivi des tâches, ne nécessite pas de ressources préallouées et peut évoluer de façon dynamique à la volée, permettant aux utilisateurs de migrer d’une machine à plusieurs machines de manière transparente.

Uber AI Fibre

VB TRansform 2020: l'événement de l'IA pour les chefs d'entreprise. San Francisco 15 - 16 juillet

La fibre comprend une couche API, une couche dorsale et une couche de cluster. La première couche fournit des blocs de construction de base pour les processus, les files d’attente, les pools et les gestionnaires, tandis que le backend gère des tâches telles que la création et l’arrêt de travaux sur différents gestionnaires de cluster. Quant à la couche de cluster, elle utilise différents gestionnaires de cluster pour aider à gérer les ressources et garder un œil sur les différents travaux, réduisant ainsi le nombre d’éléments dont la fibre a besoin pour le suivi.

Fibre introduit le concept de processus garantis par le travail, où les processus peuvent s’exécuter à distance sur différentes machines ou localement sur la même machine, et utilise des conteneurs pour encapsuler l’environnement en cours d’exécution (par exemple, les fichiers requis, les données d’entrée et les packages dépendants) de les processus actuels pour s’assurer que tout est autonome. Le cadre a intégré la gestion des erreurs lors de l’exécution d’un pool de travailleurs pour permettre aux travailleurs en panne de récupérer rapidement. De manière utile, Fibre fait tout cela tout en interagissant directement avec les gestionnaires de cluster d’ordinateurs, de sorte que l’exécution d’une application Fibre s’apparente à l’exécution d’une application normale sur un cluster.

Dans les expériences, la fibre a eu un temps de réponse de quelques millisecondes. Avec une taille de population de 2 048 travailleurs (par exemple, des cœurs de processeur), il évoluait mieux que deux techniques de base, le temps nécessaire pour fonctionner diminuant progressivement avec l’augmentation du nombre de travailleurs (en d’autres termes, cela prenait moins de temps pour former 32 travailleurs que les 2 048 travailleurs). Avec 512 employés, terminer 50 itérations d’une charge de travail de formation a pris 50 secondes, contre 1 400 secondes pour le cadre IPyParellel populaire.

“[Our work shows] que la fibre atteint de nombreux objectifs, notamment l’exploitation efficace d’une grande quantité de matériel informatique hétérogène, la mise à l’échelle dynamique d’algorithmes pour améliorer l’efficacité de l’utilisation des ressources, réduisant la charge d’ingénierie requise pour faire [reinforcement learning] et les algorithmes basés sur la population fonctionnent sur des grappes d’ordinateurs et s’adaptent rapidement à différents environnements informatiques pour améliorer l’efficacité de la recherche », ont écrit les coauteurs. «Nous espérons que cela permettra de progresser davantage dans la résolution [reinforcement learning] problèmes avec [reinforcement learning] des algorithmes et des méthodes basées sur la population en facilitant le développement de ces méthodes et leur formation aux échelles nécessaires pour vraiment les voir briller. »

La révélation de Fiber intervient quelques jours après que Google a publié SEED ML, un cadre qui fait évoluer la formation des modèles d’IA à des milliers de machines. Google a déclaré que SEED ML pourrait faciliter la formation à des millions d’images par seconde sur une machine tout en réduisant les coûts jusqu’à 80%, ce qui pourrait niveler le terrain de jeu pour les startups qui ne pouvaient pas auparavant rivaliser avec les grands laboratoires d’IA. (édité)

Source

A propos newstrotteur-fr

Découvrez également

Microsoft prend Zoom sur la mise en évidence des fonctionnalités de confidentialité et de sécurité dans Teams

Au cours de la semaine dernière, de nombreuses gens de l’industrie technologique ont discuté des …

Laisser un commentaire