Maison / Technologie / L'algorithme d'apprentissage automatique de MIT CSAIL permet de prédire les modèles dans les grands flux de données

L'algorithme d'apprentissage automatique de MIT CSAIL permet de prédire les modèles dans les grands flux de données

Jamais entendu parler duProblème de Britney Spears“? Contrairement à ce que cela ressemble, cela n’a rien à voir avec les alliances des riches et des célèbres. Il s’agit plutôt d’un casse-tête informatique lié au suivi des données: adapter un service riche en données, tel qu’un moteur de recherche ou une connexion Internet par fibre optique, à des utilisateurs individuels nécessite, de manière hypothétique, un suivi de chaque paquet envoyé au fournisseur de service, ce qui n’est pas inutile. t pratique. Pour résoudre ce problème, la plupart des entreprises utilisent des algorithmes qui permettent de deviner la fréquence des données échangées en les hachant (c'est-à-dire en les divisant en plusieurs parties). Mais cela sacrifie nécessairement des nuances – des schémas révélateurs apparaissant naturellement dans de gros volumes de données passent inaperçus.

Heureusement, les chercheurs de Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL) Je pense qu’ils ont imaginé une alternative viable reposant sur l’apprentissage automatique. Dans un article récemment publié (“Algorithmes d'estimation de fréquence basés sur l'apprentissage“), Ils décrivent un système – appelé LearnedSketch, en raison de la façon dont il“ dessine ”les données dans un flux de données – qui prédit si des éléments de données spécifiques apparaîtront plus souvent que d'autres et, s'ils le font, les sépare de manière autonome des reste des portions hachées.

Les auteurs de l’article disent que c’est la première approche basée sur l’apprentissage automatique, non seulement pour l’estimation de fréquence, mais aussi pour les algorithmes de transmission en continu, une classe d’algorithmes dans lesquels les données d’entrée sont présentées sous forme de séquence et ne peuvent être examinées qu’en quelques passes. Ils sont couramment utilisés dans les systèmes de sécurité et les pipelines de traitement de langage naturel, parmi de nombreuses applications.

«Les algorithmes de calcul (S) supposent généralement des données génériques et ne tirent pas parti des modèles ou propriétés utiles de leur entrée», explique l'équipe. «Par exemple, dans les données textuelles, on sait que la fréquence des mots est inversement corrélée à la longueur du mot. De manière analogue, dans les données de réseau, certaines applications ont tendance à générer plus de trafic que d’autres. Si de telles propriétés peuvent être exploitées, il est possible de concevoir des algorithmes d’estimation de fréquence beaucoup plus efficaces que ceux existants. ”

Lors d'expériences, LearnedSketch a montré une aptitude à détecter et à isoler des bits de données riches. Par exemple, formé sur 210 millions de paquets de données d'un fournisseur de services Internet de niveau 1, il a surperformé les approches existantes pour estimer la quantité de trafic Internet dans un réseau, avec un taux d'erreur inférieur de 57%. Et avec 3,8 millions de requêtes AOL uniques, le groupe a réussi à estimer le nombre de requêtes pour un terme de recherche Internet avec une erreur d'erreur de plus de 71%.

De plus, LearnedSketch était très généralisable. les structures qu’il a apprises pourraient s’appliquer à des objets qu’il n’avait pas vus auparavant. Dans une expérience qui lui a demandé de déterminer quelles connexions Internet généraient le plus de trafic, il a regroupé différentes connexions par le préfixe de leur adresse IP de destination, indiquant ainsi que les abonnés Internet générant un trafic important ont tendance à partager un préfixe particulier.

Les chercheurs pensent que LearnedSketch (ou un système d’intelligence artificielle similaire) pourrait un jour être utilisé pour suivre les tendances sur les réseaux sociaux ou pour identifier les pics de trafic inquiétants et améliorer les recommandations de produits des sites de commerce électronique. Mais vraiment, a déclaré Chen-Yu Hsu, étudiant au doctorat et coauteur, le ciel est la limite.

«Ces résultats montrent que l’apprentissage automatique est une approche qui pourrait être utilisée parallèlement aux paradigmes algorithmiques classiques tels que« diviser pour régner »et à la programmation dynamique», a ajouté Hsu. "Nous combinons le modèle avec des algorithmes classiques afin que notre algorithme hérite naturellement des pires garanties des algorithmes classiques."

La recherche devrait être présentée en mai lors de la Conférence internationale sur l’apprentissage à la Nouvelle-Orléans.

Source

A propos newstrotteur-fr

Découvrez également

Automatisation des processus robotiques et code réduit: didacticiel pratique sur l’intégration d’UiPath à Joget

Ce tutoriel pratique fournit une introduction à la plate-forme RPA (Robotic Process Automation). UiPath et …

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *