Interview de Maria Malek, chercheuse au sein du laboratoire ETIS-CNRS

Interview de Maria Malek, chercheuse au sein du laboratoire ETIS-CNRS

Interview de Maria Malek, chercheuse au sein du laboratoire ETIS-CNRS

 

Chercheuse au sein du laboratoire ETIS-CNRS, responsable de l’option Data Science et enseignante à l’EISTI, Maria Malek nous a accordé une interview sur l’univers extrêmement riche de l’opinion mining.

Dans le cadre d’un partenariat école-entreprise, Estia a noué un lien technique privilégié avec l’EISTI en proposant un sujet de Projet de Fin d’Etudes (PFE) orienté sur l’analyse de sentiments. Encadré par Maria Malek et Estia (pour son expertise en Text mining), ce projet constitue un véritable échange de savoir et de savoir-faire qui s’avèrent incontournables dans le monde d’aujourd’hui.

Nous avons voulu donner la parole à Maria afin de nous faire partager son parcours et sa vision sur l’utilisation des technologies NLP (Natural Language Processing).

L’entretien à été réalisé par Ahès, consultante senior au sein du Groupe Estia et travaillant depuis de nombreuses années sur les sujets liés au text mining, à l’opinion mining et au sentiment analysis ainsi que sur les techniques de NLP.

 

Ahès : Bonjour Maria, merci d’avoir accepté cette interview. Tout d’abord, pouvez-vous nous présenter brièvement votre parcours ?

Maria : J’ai soutenu ma thèse en informatique (1996), plus particulièrement dans le domaine de l’intelligence artificielle, en collaboration avec le CHU de Grenoble, sur la conception d’un système de raisonnement par analogie avec le domaine médical.

Après ma thèse, j’ai fait 2 ans de post-doctorat à l’école des Mines de Paris et aujourd’hui, je suis chercheuse au sein du laboratoire ETIS et enseignante à l’EISTI.

J’ai récemment été co-présidente de la 10ème édition de la Conférence MARAMI 2019- Modèles & Analyse des Réseaux : Approches Mathématiques & Informatiques.

 

Ahès : L’analyse de sentiments et l’opinion mining sont souvent employés comme synonymes. Comment les définiriez-vous plus précisément ?

Maria : L’opinion mining essaye d’identifier les opinions, sentiments et attitudes présentes dans un texte ou un ensemble de textes (corpus).

L’analyse des sentiments s’intéresse à l’orientation d’une opinion par rapport à une entité ou à un aspect d’une entité (contexte). On parle de polarité, elle peut être positive ou négative par exemple. Elle est particulièrement utilisée en marketing pour analyser les commentaires des internautes ou des critiques de produits.

Ce type d’analyse fait appel à plusieurs approches du traitement automatique du langage naturel (TALN – NLP en anglais). Les plus simples sont celles qui se fondent sur la détection de termes explicitant directement une appréciation. En pratique, on se rend compte qu’une extraction d’opinion avec ces seuls termes ou mots explicites n’est pas suffisante pour assurer un résultat satisfaisant. On fait donc appel aux méthodes de Machine Learning ou Deep Learning, où l’on conçoit un système supervisé à partir d’un corpus étiqueté.

Pour l’analyse des réseaux sociaux, on peut également avoir recours à la théorie des réseaux afin d’étudier les interactions sociales. Ces interactions et relations peuvent être représentées par un graphe, dans lequel chaque nœud représente un acteur et chaque lien est une relation. Nous pouvons étudier les propriétés de la structure et son rôle ainsi que la position de chaque acteur social – par exemple, identifier les influenceurs et leurs impacts, ou observer la propagation d’une opinion.

L’analyse des réseaux complexes est appliquée dans de nombreux autres domaines tels que la biologie, pour identifier les enzymes d’un réseau métabolique intervenant dans un processus commun, les sciences sociales, pour corréler des profils par centres d’intérêt, ou encore dans le domaine de la lutte anti-fraude, antiterroriste, etc.

 

Ahès : Quels supports peuvent nous permettre de faire de telles analyses ?

Maria : Twitter, LinkedIn sont des sources de données d’une incroyable richesse, autant par les volumes traités que par la diversité des données accessibles à condition de bien cadrer ces données au domaine étudié.

Pour assurer une collecte pertinente, il est essentiel de définir le “Pourquoi”, pour quels besoins d’analyse, avant le “Comment”, quelles techniques, quels outils.

 

On assiste à un phénomène d’emballement, concernant l’opinion mining : tous les professionnels du marketing, de la veille et d’autres domaines veulent proposer une prestation de ce type à leurs clients.

 

Ahès : D’après vous, peut-on tout automatiser ? Avoir une vision globale fiable de l’e-réputation d’une marque par exemple ou avoir des pistes fiables d’actions stratégiques ?

Maria : L’intelligence artificielle n’est pas une somme d’informations, mais une plus-value apportée à l’information. Plus simplement qu’auparavant, on peut faire des analyses pour expliciter une opinion ou caractériser la masse d’informations (par exemple, l’opinion est négative à 30% et positive à 70%) et avoir une vision. Mais pour que l’information puisse réellement servir de base à une décision, on aura toujours besoin de l’expert.

 

Ahès : Alors comment faire pour obtenir une vision plus réaliste ?

Maria : Il existe des méthodes et des algorithmes permettant d’obtenir une interprétation ou une explication. Cependant, il est important de les appliquer avec précaution. L’interprétation et l’explication se fondent souvent sur un sous-ensemble de données et sur une partie spécifique de l’espace de données, ce qui augmente le risque d’interprétation erronée. Certaines méthodes d’interprétation omettent des corrélations entre les variables ou n’offrent qu’une seule explication contrefactuelle lorsque plusieurs auraient pu être données.

C’est une question du nombre de dimensions (au niveau des données) à prendre en compte dans les algorithmes : l’information peut être là mais n’est pas prise en compte, ou bien il y a des données manquantes.

 

Ahès : A votre avis, qu’elles sont les perspectives de l’opinion mining dans 1 an, dans 5 ans, et dans 10 ans ?

Maria : Dans le passé, les algorithmes étaient construits spécialement pour des systèmes dédiés (système statique). Actuellement, l’amélioration des techniques d’acquisitions ou encore l’augmentation du nombre de données disponibles en temps réel (flux de données entrant au quotidien par exemple), permettent une analyse dynamique. Il est donc difficile de choisir un algorithme adéquat pour un système donné.

L’exploitation efficace de ces systèmes nécessite alors le développement d’algorithmes capables de s’adapter automatiquement. Et tant qu’il y aura les réseaux sociaux, on aura besoin de prendre en compte cet aspect évolutif des interactions.

On imagine facilement l’utilité de ce type de méthodes concernant l’analyse des réseaux sociaux liés à un sujet, ou à une entreprise tant au niveau de sa marque que de ses produits.

A cela s’ajoute des problématiques de langage, de sémantique et de contexte : un algorithme est-il capable de comprendre le langage sms, celui des émoticônes et/ou de dégager des éléments de contexte suffisants dans 140 caractères ? Peut-on faire du « text mining » dans tous les langages ?

Il faut combiner le « text mining » avec les biais : les systèmes ne peuvent pas capter toutes les opinions. Par exemple, les contenus générés sur les blogs sont très pertinents, car ils sont généralement plus détaillés, plus expressifs, mais sont-ils exhaustifs ? La notation d’un produit représente-t-elle tous les avis à la fois positifs et négatifs ?

 

Ahès : Et pour finir, quelles sont les compétences requises pour travailler sur ce sujet ?

Maria : C’est un nouveau sujet, avec une composante R&D forte, appliquée de manière très concrète car c’est toujours au service d’un projet.

Il est essentiel de bien réfléchir au problème posé et de savoir s’adapter, d’avoir un esprit d’analyse. Il faut des compétences en « text mining », en Machine Learning/Deep Learning, en analyse des réseaux sociaux puis, bien entendu maîtriser différents langages de programmation, par exemple « Python ».

 

Ahès : Un grand merci, Maria, pour cette interview !

 

Estia tient particulièrement à remercier Maria Malek pour le temps qu’elle nous a accordé ainsi que l’ensemble des participants au PFE, sans qui ce travail n’aurait pas été possible.

En tant que chercheuse, Maria a publié des papiers au(x) sujet(s) de l’analyse des réseaux sociaux que l’on peut retrouver sur https://scholar.google.fr/

_________________________

A PROPOS DU GROUPE ESTIA

Le Groupe Estia est un cabinet de conseil spécialisé dans la transformation des données en actifs.

Créé en 2010, il rassemble aujourd’hui 100 consultants experts de la donnée et de son exploitation à forte valeur ajoutée (data scientists, statisticiens, experts du décisionnel et experts fonctionnels) et génère 10m€ de CA.

Le Groupe Estia intervient auprès des directions métiers de plus de 30 clients grands comptes, dans tous les secteurs d’activités : Banques, Assurances, Distribution, Energie, Transports, Médias, Services,… Son objectif : faire des données un accélérateur business pour nos clients. Son intervention couvre l’intégralité du cycle de transformation et de valorisation de la data.

Notre gamme de services se décline en 6 offres : Pilotage des activités, Connaissance clients, Communication omnicanal, Modélisation à visée prédictive, Transformation vers une organisation data centrics, Gestion de projets data & nos expertises couvrent l’ensemble des problématiques data : CRM analytique, gestion de campagnes, datamining & webmining, business intelligence, conception d’outils, d’applications analytiques, d’algorithmes & de modèles,…

En 2017 la société accélère son développement en s’appuyant sur un nouvel actionnaire de référence, le groupe Consort NT intégrateur et opérateur de solutions et d’infrastructures (2 000 collaborateurs, 140m€ de CA, 6 pays). Le Groupe Consort NT et Groupe Estia proposent dorénavant une offre unique couplant technologies, infrastructures et capacités algorithmiques au service de la performance de leurs clients.

0 Avis

Laisser une réponse

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>