Maison / Technologie / Pourquoi la technologie linguistique ne peut pas encore gérer Game of Thrones

Pourquoi la technologie linguistique ne peut pas encore gérer Game of Thrones

Pourquoi la technologie linguistique ne peut pas encore gérer Game of Thrones

Winterfell. Crédit: mauRÍCIO santos (Unsplash, domaine public)

Des chercheurs de la Vrije Universiteit Amsterdam et du groupe Humanities du groupe néerlandais de la Royal Academy ont évalué quatre outils de pointe pour la reconnaissance de noms dans un texte, afin d'évaluer et d'améliorer leurs performances en matière de fiction populaire. Ils trouvent des solutions pour renforcer la capacité des outils à reconnaître les noms d'un roman d'une précision de 7% à 90%.

Les outils de traitement du langage naturel (PNL) sont couramment utilisés dans de nombreuses applications quotidiennes telles que Siri et Google, mais l’efficacité de ces technologies n’est pas bien comprise. Des chercheurs de la Vrije Universiteit Amsterdam et du groupe des sciences humaines de l'Académie royale néerlandaise ont procédé à une évaluation approfondie de quatre outils de reconnaissance de noms différents sur 40 romans populaires, dont A Game of Thrones. Leurs analyses, publiées dans PeerJ Informatique, mettez en évidence les types de noms et de textes particulièrement difficiles à identifier par ces outils, ainsi que les solutions permettant de les atténuer. En outre, ils ont extrait les réseaux sociaux des romans pour explorer les différences dans la structure de l'histoire. Ces informations peuvent aider à rendre ces technologies plus robustes face aux différences de genre et, par exemple, à rendre cette technologie plus utile aux journalistes souhaitant analyser de grands ensembles de données tels que les Panama Papers.

De nombreux outils de PNL sont basés sur apprentissage automatique; c'est un Programme d'ordinateur est formé pour identifier des motifs dans un texte en se basant sur des exemples fournis précédemment. Pour reconnaître des noms dans le texte, il faut par exemple nourrir de nombreux articles de journaux dans lesquels des humains ont méticuleusement marqué les noms. Le programme est ensuite chargé d '"apprendre" à quoi ressemble un nom en fonction du contexte (comme, il est précédé de M.) ou de la forme du mot (tel que les noms commencent généralement par une lettre majuscule en anglais). À l’heure actuelle, le problème, lorsqu’on applique aux romans ce type de système conçu sur des journaux, c’est que les auteurs de romans ont beaucoup plus de liberté dans leur récit que les journalistes qui doivent s’en tenir aux faits. Les auteurs de fiction peuvent créer leurs propres noms, tels que Tywin ou R'hllor, ou utiliser des noms descriptifs directement à partir du dictionnaire, tel que Grey Worm. Ces noms ne se comportent pas comme des noms «normaux», de sorte que les systèmes PNL ont du mal à les reconnaître dans un texte.

Pourquoi la technologie linguistique ne peut pas encore gérer Game of Thrones

Visualisation du réseau montrant que Dany / Daenerys n'est pas proche des autres personnages principaux de «A Game of Thrones». Crédit: N. M. Dekker, CC BY-SA 4.0

Les expériences menées par Niels Dekker (Trifork B.V.), Tobias Kuhn (Vrije Universiteit Amsterdam) et Marieke van Erp (KNAW Humanities Cluster) soulignent également la flexibilité du langage et la des noms sont contextualisés dans les histoires. Il est par exemple possible de se référer à Daenerys Targaryen comme Daenerys et elle, mais elle est aussi connue sous le nom de Dany, Daenerys Stormborn, mère de dragons, Khaleesi, les Unburnt et Mhysa. Le réseau social créé pour A Game of Thrones illustre par exemple que Dany est utilisée par ses amis et son nom complet Daenerys par ses ennemis (en son absence).

Les recherches décrites dans cette publication montrent qu’il faut accorder plus d’attention à la performance des outils PNL et qu’il reste encore du travail à faire avant que le 'texte' puisse être entièrement compris par les ordinateurs.


Une nouvelle recherche a révélé que nous sommes mieux à même de retenir les noms que les visages


Plus d'information:
Dekker N, T Kuhn, van Erp M. 2019. Évaluation d'outils de reconnaissance d'entités nommées pour extraire des réseaux sociaux de romans. PeerJ Informatique 5: e189 doi.org/10.7717/peerj-cs.189

Citation:
                                                 Pourquoi la technologie linguistique ne peut pas gérer Game of Thrones (pour le moment) (18 avril 2019)
                                                 récupéré le 18 avril 2019
                                                 de https://techxplore.com/news/2019-04-language-technology-game-thrones.html

Ce document est soumis au droit d'auteur. Mis à part toute utilisation équitable à des fins d’étude ou de recherche privée, aucun
                                            partie peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.

Source

A propos newstrotteur-fr

Découvrez également

26-researchersu.jpg

Les chercheurs utilisent une imprimante 3D pour imprimer le verre

Les chercheurs ont démontré l’impression 3D du verre de chalcogénure, qui peut être utilisé pour …

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *