Point de vue: La classification d’opinion boostée par l’Intelligence Artificielle

Point de vue: La classification d’opinion boostée par l’Intelligence Artificielle

Point de vue d’Ahès, Consultante sénior au sein du Groupe Estia

 

La classification d’opinion boostée par l’Intelligence Artificielle

Les réseaux sociaux, structures dynamiques formées d’individus et/ou d’organisations, ont toujours joué un rôle majeur dans nos sociétés. Ils se sont développés et diversifiés avec la possibilité donnée aux utilisateurs de créer et de partager du contenu par l’intermédiaire de multiples plateformes (blogs, micro-blogs, wikis, sites de partage, etc.). Dans ce contexte, le volume sans précédent des données textuelles, leur variété ainsi que la densification du réseau d’interactions des utilisateurs représentent de nouvelles opportunités pour la compréhension du comportement social. 

Aujourd’hui, aucun évènement local ou planétaire n’échappe à Twitter. Le réseau social aux messages limités en taille (140 caractères initialement puis 280 dernièrement) n’a cessé de se développer. 

Im‎age 1 Ahès

Twitter s’avère être un outil de communication, dont le principal atout est la spontanéité des propos exprimés : on échange sur tous les sujets, passions, métiers, on exprime ses points de vue, ses besoins, ses envies, ses insatisfactions, dans la minute… L’étude de commentaire s’est considérablement développée en relation directe avec leur accessibilité sur le web via de nombreuses APIs telles celle de Twitter. Une veille des médias sociaux permet d’assurer le suivi des mentions faites par différents citoyens d’un pays ainsi qu’une opinion dans sa globalité pour mieux saisir la teneur de certains événements, donnant ainsi l’occasion de s’ajuster pour améliorer sa position. 

Par ailleurs, depuis deux ans, on observe une course à l’amélioration des modèles. Ont ainsi été annoncés successivement ELMo, BERT, RoBERTa, GPT-2 édités par, respectivement, l’Institut Allen, Google, Facebook, OpenAI. Ces récentes innovations ont permis de passer un cap considérable dans le domaine du NLP (Natural Language Processing) ou TAL (Traitement Automatique des Langues), en d’autres termes une des branches importantes du Machine Learning et de l’intelligence artificielle permettant à un programme de comprendre le langage humain. 

Les outils de TAL permettent d’interpréter des données en temps réel, ou presque, et c’est le défi qu’Estia a proposé à 3 étudiants de l’EISTI (Ecole internationale des sciences et du traitement de l’information) pour leur sujet de PFE (projet de fin d’étude). 

Ce projet vise à capter et caractériser les opinions et mouvements d’opinion concernant la vague de protestation de Hong Kong qui se déroule déjà depuis près de 6 mois. 

 

Les défis liés au traitement du contenu des réseaux sociaux 

A l’aide d’un script de requêtage automatique et régulier de l’API de Twitter, les 3 étudiants ont extrait des tweets de manière non-supervisée en créant des filtres sur les commentaires issus de tweetos chinois s’exprimant en anglais. Puis ils ont cherché à structurer l’information, avec l’ajout de méta-informations pertinentes, en la mettant sous la forme d’une base de données.  

Assez rapidement, la nature des données les a contraints à effectuer un certain nombre de prétraitements pour pouvoir exploiter chaque message posté. Chaque utilisateur est « auteur » et le langage se rapproche davantage de sa réalité que d’une quelconque norme linguistique. Les outils habituels du TAL se butent à l’emploi irrégulier, voire l’omission, de la ponctuation et des majuscules, à l’orthographe incorrecte ou inhabituelle et à la multiplication d’abréviations populaires. Les réseaux sociaux comportent un nombre considérable de publicités et une importante quantité de contenus non sollicités, non pertinents ou dérangeants, peuvent mêler différentes langues qu’il faut savoir concilier. 

Cela souligne l’importance du prétraitement, visant à filtrer les pourriels et autres contenus non pertinents, et de la création de modèles de gestion du bruit efficaces, en vue du traitement du langage dans les médias sociaux. 

 

Le subjectif au cœur de l’analyse de sentiment 

Après la phase de prétraitement, une DataViz (représentations visuelles) du corpus de tweets dédié à l’analyse de sentiments a permis de mettre en avant la prépondérance de contenus subjectifs tout autant positifs que négatifs dans notre corpus. En effet, alors que les textes visent à offrir une information objective, neutre et factuelle, les tweets, quant à eux, sont davantage porteurs de sentiments voire d’émotion. L’information subjective joue donc un rôle essentiel dans l’analyse sémantique des textes issus des réseaux sociaux. 

L’identification de sentiments peut donc être décomposée en une évaluation de l’objectivité dans un premier temps, suivie dans le cas d’un texte subjectif d’une seconde étape de détection de la polarité (positif, négatif ou neutre). 

image 2 Ahès

 

 

Le TAL est une discipline à laquelle on greffe une Intelligence Artificielle (IA) qui mêle linguistique et informatique.  

Plusieurs types d’approches techniques ont été considérés : 

  • LDeep Learning s’avère considérablement performant pour faire évoluer la classification automatique, car il a été prouvé qu’il permet d’obtenir une meilleure précision, cependant il est plus lent et plus couteux à entrainer 
  • Des méthodes linguistiques capables de comprendre des subtilités du langage humain, par exemple, en contextualisant un mot sous forme de vecteur word embeddings, ou en établissant des règles morphosyntaxiques avec le Part-Of-Speech tagging, les expressions régulières, des spécificités lexicales (émoticônes, abréviations, répétition de caractères, hashtags etc.), là où les algorithmes ne font pas tout 

Ces approches techniques nous a permis de mettre en place deux modèles de classifications de tweets. 

 

TAL : linguistique, informatique et IA face à l’information dynamique 

Ce projet montre bien que les tweets sont rédigés de manière informelle, sur le ton de la conversation, et ressemblent plus à un « état d’âme » qu’au travail réfléchi et révisé avec soin habituellement attendu d’un média professionnel. 

L’informatique sociale est un nouveau domaine axé sur la modélisation, l’analyse et la surveillance des comportements sociaux observés sur des plateformes et médias variés dans le but de concevoir des applications intelligentes. Ces plateformes favorisent la formation de communautés virtuelles ainsi que la connectivité et la collaboration entre les utilisateurs. Alors que les médias traditionnels – tels que journaux, télévision et radio – se caractérisent par un mode de communication unidirectionnel de l’entreprise jusqu’au consommateur, les médias sociaux, eux, proposent différentes plateformes où l’interaction dans les deux sens est possible. Les médias sociaux deviennent la source d’information la plus réactive et la plus exhaustive. Pour cette raison, ils sont maintenant la source primaire d’information. 

_________________________

A PROPOS DE GROUPE ESTIA

Le Groupe Estia est un cabinet de conseil spécialisé dans la transformation des données en actifs.

Créé en 2010, il rassemble aujourd’hui 100 consultants experts de la donnée et de son exploitation à forte valeur ajoutée (data scientists, statisticiens, experts du décisionnel et experts fonctionnels) et génère 10m€ de CA.

Le Groupe Estia intervient auprès des directions métiers de plus de 30 clients grands comptes, dans tous les secteurs d’activités : Banques, Assurances, Distribution, Energie, Transports, Médias, Services,… Son objectif : faire des données un accélérateur business pour nos clients. Son intervention couvre l’intégralité du cycle de transformation et de valorisation de la data.

Notre gamme de services se décline en 6 offres : Pilotage des activités, Connaissance clients, Communication omnicanal, Modélisation à visée prédictive, Transformation vers une organisation data centrics, Gestion de projets data & nos expertises couvrent l’ensemble des problématiques data : CRM analytique, gestion de campagnes, datamining & webmining, business intelligence, conception d’outils, d’applications analytiques, d’algorithmes & de modèles,…

En 2017 la société accélère son développement en s’appuyant sur un nouvel actionnaire de référence, le groupe Consort NT intégrateur et opérateur de solutions et d’infrastructures (2 000 collaborateurs, 140m€ de CA, 6 pays). Le Groupe Consort NT et Groupe Estia proposent dorénavant une offre unique couplant technologies, infrastructures et capacités algorithmiques au service de la performance de leurs clients.

0 Avis

Laisser une réponse

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>