Maison / Technologie / Amazon publiera un ensemble de données de conversation et de connaissances de plus de 4 millions de mots

Amazon publiera un ensemble de données de conversation et de connaissances de plus de 4 millions de mots

Non, ce n’est pas une farce du poisson d’avril: Amazon envisage de mettre à disposition un grand nombre d’échantillons de données destinés à la recherche sur le traitement du langage naturel. La compagnie de Seattle a déclaré aujourd'hui qu’en septembre 2019, elle publiera l’ensemble de données de discussion thématique, un corpus de conversations humaines traitées en foule, fournie aux équipes participant au grand prix annuel Socialbot Socialbot Grand Challenge.

Selon Amazon, le jeu de données de conversation topique comprend plus de 210 000 énoncés ou plus de 4 100 000 mots, ce qui en fait l’un des plus grands ensembles de données de conversation et de connaissances publiques. Chacune des conversations et des retournements de conversation du corpus sont liés aux connaissances fournies aux travailleurs de la foule, et ces connaissances sont collectées à partir d’une gamme de ressources de texte «non structurées» et «faiblement structurées» relatives à un ensemble d’entités.

Dilek Hakkani-Tur, responsable scientifique principal d'Amazon, a expliqué dans un article de blog qu'aucune de ces conversations n'était une interaction avec les clients d'Alexa.

«L'objectif de cette collection est de permettre les prochaines étapes de la recherche sur les systèmes de génération de réponse neuronale fondés sur les connaissances, en s'attaquant à des problèmes difficiles dans une conversation naturelle qui ne sont pas traités par d'autres ensembles de données disponibles au public», a déclaré Hakkani-Tur. "Cela permettra aux chercheurs de se concentrer sur la manière dont les humains passent d'un sujet à l'autre, la sélection et l'enrichissement des connaissances, l'intégration des faits et des opinions dans le dialogue… [et soutiennent] la publication de travaux de recherche reproductibles de haute qualité."

Amazon indique que les équipes en lice pour le prix Alexa auront accès à une version étendue du jeu de données, le jeu de données Extended Topical Chat, bien nommé, qui inclut les résultats des collections et des annotations en cours.

L’annonce d’aujourd’hui vient à peu près six mois Après Amazon, un ensemble de données pouvant être utilisé pour former des modèles d'intelligence artificielle à identifier des noms dans différentes langues et types de script. Appelé «système de translittération d'entités nommées multilingues de translittération», il comprend près de 400 000 noms dans des langues telles que l'arabe, l'anglais, l'hébreu, le katakana japonais et le russe extraites de Wikipedia.

Source

A propos newstrotteur-fr

Découvrez également

Mechwarrior 5: le studio Mercenaries "intéressé" par la VR, mais n'a pas encore de plans pour cela MechWarrior 5 Mercenaries 310x165

Mechwarrior 5: le studio Mercenaries "intéressé" par la VR, mais n'a pas encore de plans pour cela

Bons jeux mech et VR aller ensemble comme des simulateurs de course et des accessoires …

Laisser un commentaire