Comment analyser les émojis, le nouveau langage de l'émotion ?

Dans TENDANCES
Par Pierre Halté

Les émoticônes sont des pictogrammes apparus avec les premières formes de communication en ligne à l’écrit. Dès l’apparition du t’chat en 1960 (créé à l’Université de l’Illinois), les utilisateurs accompagnent leurs énoncés écrits de pictogrammes représentant des mimiques faciales. Les échanges par t’chat sont rapides, éphémères.. comme une discussion en face à face sans les mimiques faciales, gestes et autres signes paraverbaux qui sont – naturellement – remplacés par des pictogrammes qui les représentent : les émoticônes. Avec la démocratisation d’internet et des plateformes de réseaux sociaux, l’expansion de la communication écrite en ligne est exponentielle. Les émoticônes sont présentes dans la plupart des énoncés écrits en contexte numérique, sous formes d’emojis ou de signes de ponctuation combinés entre eux. Elles sont une ressource scientifique importante pour les sciences du langage, mais aussi dans d’autres domaines comme le marketing. Une émoticône est un indice fiable de l’émotion ou de l’attitude du locuteur. Elle lui est toujours attachée, et liée au moment de son énonciation.

Les enjeux de la recherche sur les émoticônes

Emojis, émoticônes : définition

Clarifions tout d’abord deux termes que nous emploierons ci-après. Nous appelons « émoticône » tout pictogramme servant à représenter un geste, une mimique faciale ou un objet afin d’indiquer l’émotion du locuteur. Les « emojis » sont, eux, des pictogrammes appartenant à une banque bien précise de signes issue des logiciels de communication de la téléphonie mobile japonaise dans les années 2000, ayant essaimé depuis sur d’autres plates-formes. Certains emojis ne sont pas des émoticônes : ils ne servent pas à indiquer l’émotion du locuteur, mais simplement à représenter un objet (on pense par exemple aux pictogrammes de voiture présents dans la banque « emoji »). Certains emojis sont des émoticônes, comme le sourire, le cœur, etc. Nous traiterons ici des émoticônes en général – qu’elles soient présentes dans la banque emoji ou pas.

Enjeux théoriques : une reconfiguration du partage du sens

Utiliser des pictogrammes pour transmettre des idées ou des concepts n’est pas nouveau : les premières formes d’écriture, datées d’environ 3600 av. J.C., sont en partie constituées de pictogrammes. Par contre, l’utilisation de pictogrammes exprimant une émotion en relation avec un message écrit dans notre système alphabétique est tout à fait nouvelle dans l’histoire de l’humanité. Cette association, maintenant installée dans les mœurs numériques, entre le pictogramme et le texte, soulève de nombreuses questions quant au fonctionnement de notre langage. C’est une évidence à l’oral : lorsque nous parlons, en face à face, deux systèmes semblent en constante interaction. D’une part, ce que nous disons, qui est souvent analysable selon des critères logiques bien connus des philosophes et des linguistes (conditions de vérité, classifications sémantiques, etc.) ; d’autre part, ce que nous faisons, notamment avec notre corps : gestes, mimiques, intonations. C’est l’interaction de ces deux systèmes qui produit du sens. Les émoticônes, qui représentent ces gestes ou ces mimiques présents dans nos interactions en face à face, fournissent une porte d’entrée à l’exploration de la correspondance entre ces deux systèmes, mais à l’écrit, medium qui, jusqu’alors, était considéré comme plus détaché du corps du sujet. Du point de vue de la recherche sur les émotions et le langage, les enjeux sont importants : il s’agit de redéfinir le partage du sens entre ce qui relève de la représentation logique d’une part, et des émotions / attitudes du sujet parlant d’autre part.

Enjeux « utilitaires » : les émotions dans les corpus numériques

L’intérêt de l’étude des émoticônes n’est évidemment pas que philosophique. Ce sont avant tout des signes numériques. Pas d’émoticônes dans l’écriture manuscrite. Ce sont donc des signes codés, au sein de logiciels de communications divers (du t’chat de Facebook aux commentaires d’Instagram), ce qui veut dire qu’il est possible de construire des outils informatiques permettant de les dénombrer automatiquement dans un corpus donné. Or, comme nous l’avons vu précédemment, les émoticônes expriment une émotion en relation à des contenus écrits et eux aussi numérisés. Elles sont toujours liées à leur locuteur : une émoticône de sourire ne sera jamais interprétée comme le sourire de quelqu’un d’autre que celui qui l’a produite ! Cette caractéristique en fait des alliés de choix pour qui voudrait connaître les émotions exprimées par un grand nombre d’individus concernant un sujet donné. Le numérique permet en effet d’accéder à de nombreuses métadonnées (selon les plates-formes : âge, genre, etc.), qui, croisées avec une recherche sur les émoticônes, permettent de donner des résultats intéressants. Les applications sont nombreuses, et sont déjà exploitées par un certain nombre d’entreprises de veille stratégique ou de marketing. En politique, par exemple, il peut être très avantageux de connaître les émotions exprimées par certains internautes concernant tel ou tel projet ; en marketing, pour accompagner le lancement d’un produit, d’une idée, ou encore prédire certaines tendances ; en sociologie, pour travailler sur telle ou telle catégorie sociale du point de vue des émotions exprimées. Mais la tâche n’est pas facile. D’abord, les émoticônes ont de nombreuses formes (voir figure 1), même si la banque emoji tend à être employée de plus en plus et à standardiser les usages. Ensuite, la question de leur sens se pose. Une émoticône de sourire n’est pas nécessairement l’indice de la joie du locuteur : elle peut être ironique, par exemple… Pour parvenir à des résultats significatifs, encore faut-il modéliser correctement le fonctionnement des émoticônes et le sens qu’elles ont selon les situations discursives.

Emoticônes, emojis : modélisation théorique

La modalisation

Les émoticônes sont ce qu’on appelle des « modalisateurs ». Le concept de modalisation, provenant des travaux de Bally, célèbre linguiste du début du XXe siècle, repose sur une théorie du langage que nous avons déjà évoquée. Chacun de nos énoncés est constitué de deux composantes. D’un côté, ce que Bally appelle le « dictum », que l’on peut encore nommer après lui « contenu propositionnel ». C’est la dimension logique de nos énoncés, que l’on peut analyser selon des conditions de vérité. De l’autre, ce que Bally appelle le « modus » – ce que l’on nomme aujourd’hui « modalisation ». C’est la dimension subjective de nos énoncés, qui porte sur le dictum. Pour Bally, en d’autres termes, nos énoncés ne font sens que parce que nous faisons porter, sur des représentations logiques, notre subjectivité – ce qui relève du corps, de l’émotion, de tout ce qui n’est pas régi selon des règles logiques -, qui se manifeste sous diverses formes, linguistiques ou extra-linguistiques.
Considérons par exemple l’énoncé suivant : « Le chien est dans le jardin ». On comprend ici que le locuteur est amusé ou content du fait que le chien soit dans le jardin. Si l’on suit l’analyse de Bally, on trouve deux niveaux dans cet énoncé. D’abord, le dictum ou contenu, composante logique de l’énoncé : c’est la proposition « le chien est dans le jardin ?? ». Je peux juger cette proposition selon des conditions de vérité : elle peut être vraie, elle peut être fausse. Ensuite, le modus : si nous étions à l’oral, l’intonation ferait partie du modus. Selon que je prononce cette proposition sur un ton énervé ou au contraire joyeux, le sens final de l’énoncé est tout autre. À l’écrit et dans notre exemple, c’est évidemment l’émoticône de sourire qui joue ce rôle. Elle ne relève pas de conditions de vérité : il est impossible de juger de cette émoticône en termes de « vraie » ou « fausse » car elle ne sert pas à représenter quelque chose de façon logique, comme une proposition, mais elle sert à montrer, ici et maintenant, l’émotion du locuteur, portant sur la proposition qu’il vient d’énoncer. L’émoticône relève en fait d’un geste à l’écrit, visant à modifier l’interprétation de la proposition qu’elle accompagne. Les émoticônes sont donc des « modalisateurs » (comme le sont les interjections ou les adverbes d’énonciation, par exemple). Les modalisateurs ont pour fonction spécifique de modifier l’interprétation littérale d’une proposition. Ainsi, si l’on conserve la même proposition, mais qu’on change le modalisateur, le sens global change. Dans « Le chien est dans le jardin ?? », le sens n’est plus le même : le locuteur est ici triste ou mécontent du fait que le chien soit dans le jardin. L’enjeu, pour nous, est de catégoriser les différents types d’émoticônes et de voir quels effets, selon les catégories auxquelles elles appartiennent, elles provoquent sur les énoncés qu’elles accompagnent : en d’autres termes, il nous faut modéliser la modalisation.

Différentes catégories et visées

Nous utilisons pour l’instant quatre grandes catégories d’émoticônes, selon les émotions qu’elles indiquent et selon leurs caractéristiques formelles. C’est le premier critère de notre modèle. Les émoticônes positives indiquent des émotions positives et, formellement, représentent des mimiques dont la bouche a les coins relevés (pour les émoticônes occidentales – les émoticônes orientales, à lire de face comme les emojis, font-elles plus souvent varier les yeux que les bouches). Les émoticônes négatives indiquent des émotions négatives et représentent des mimiques aux bouches déformées ou aux coins tombants. Les émoticônes de surprise indiquent la surprise ou le choc et représentent des mimiques aux bouches et/ou aux yeux arrondis. Enfin, les émoticônes relationnelles font exclusivement sens en relation avec l’interlocuteur : on pense par exemple au clin d’œil, ou au pouce levé pour donner son accord. Certaines émoticônes ne représentent pas des mimiques faciales mais font elles aussi partie des catégories citées ci-dessus, par exemple l’émoticône de cœur, qui est naturellement placée dans la catégorie des émoticônes positives. Après avoir catégorisé les différentes natures des émoticônes, il nous faut caractériser leurs fonctions. C’est le deuxième critère. Notre modèle distingue trois visées :

- Visée de contenu (c’est le cas classique de la modalisation, décrit précédemment : l’émoticône vise la proposition de l’énoncé qui précède pour en modifier l’interprétation littérale)
- Visée pragmatique : l’émoticône vise la relation à l’interlocuteur. Exemple : « Bonsoir ! ?? » ; ici, l’émoticône de sourire ne vise pas un contenu (le locuteur n’est pas amusé de dire bonsoir, ni parce que c’est le soir) mais la relation à l’autre. Il s’agit d’installer une relation positive avec l’interlocuteur et pas de modifier l’interprétation d’un énoncé.
- Visée énonciative : l’émoticône vise la forme ou l’aspect de l’énoncé. Exemple : une émoticône de sourire produite par le locuteur après que l’interlocuteur ait fait une faute de frappe, ou un lapsus gênant.

En ce qui concerne le troisième et dernier critère, les émoticônes peuvent soit viser des énoncés produits par le locuteur lui-même (on parle d’émoticône « monologique »), soit des énoncés produits par l’interlocuteur (on parle alors d’émoticône « dialogique »). On peut croiser ces trois critères et obtenir des effets différents. Par exemple, les émoticônes négatives dialogiques à visée de contenu marquent l’empathie. En croisant ces trois critères, et en observant les corpus, nous avons commencé à établir un premier modèle permettant de prévoir quel effet produit telle ou telle catégorie d’émoticône dans tel ou tel contexte.

Premier modèle

Voici, récapitulé sous forme de tableau, le modèle que nous avons commencé à élaborer (cf figure 2). Il s’agit évidemment d’un travail en cours et certaines choses sont amenées à être changées / améliorées.
Notre projet, à long terme, est évidemment de pouvoir intégrer l’ensemble de ce modèle à des outils de traitement automatique des corpus numériques, afin de pouvoir détecter automatiquement l’ironie, la provocation, l’empathie, et tous les effets décrits pour l’instant dans ce tableau. Nous avons commencé, avec Philippe Gambette (maître de conférence en informatique à l’Université de Marne La Vallée), à travailler sur cette intégration au sein d’un projet ANR consacré à l’étude des pétitions en ligne, le projet APPEL (nous travaillons sur les commentaires).

Les outils et ce qu’on peut en faire

La reconnaissance automatique d’émoticônes dans de vastes corpus

Le premier objectif que nous nous sommes fixé est de pouvoir extraire automatiquement des émoticônes d’un corpus, de les catégoriser automatiquement, et d’obtenir ainsi un corpus « étiqueté », sous forme de fichier .txt, susceptible d’être exploité dans des logiciels de textométrie et/ou de traitement automatique des langues (comme TXM ou TextObserver). Un logiciel, « Expora », développé par Philippe Gambette, permet d’extraire un corpus d’une base de données. Y a été ajouté la possibilité de rechercher et d’extraire spécifiquement des énoncés contenant des émoticônes. Deux problèmes se posent d’emblée pour qui cherche à développer un outil de recherche automatisée d’émoticônes : d’une part, les syntaxes des requêtes employées au sein des moteurs de recherche utilisés pour explorer les corpus fonctionnent avec les mêmes signes de ponctuation que ceux qui constituent les émoticônes ; d’autre part, dans les corpus eux-mêmes, certains signes de ponctuation sont parfois employés en séquences sans être des émoticônes (notamment dans les adresses URL, par exemple). La première étape du travail, pour les informaticiens avec qui nous collaborons au sein du projet APPEL, a donc été de coder un moteur de recherche permettant d’extraire automatiquement des énoncés contenant des émoticônes du corpus étudié et d’éliminer le plus de résultats parasites possibles.

Catégories et remplacement automatique des signes

Philippe Gambette a ensuite intégré au logiciel les différentes catégories d’émoticônes de notre modèle. Nous avons ainsi recherché, grâce au travail de codage accompli dans la première étape, toutes les émoticônes de notre corpus de commentaires, puis nous les avons nommées individuellement. Enfin, nous les avons classées manuellement, dans un tableau, dans les catégories « positive », « négative », « surprise », « relation ». Nous pouvons donc actuellement : extraire d’un corpus les énoncés contenant des émoticônes sous forme d’un fichier .txt. ; puis, à l’aide d’un premier script (écrit en python), nous pouvons remplacer, dans ce fichier .txt, les émoticônes sous forme de signes de ponctuation par leur nom ; et enfin, à l’aide d’un second script (écrit en python lui aussi), nous pouvons remplacer les émoticônes par leur nom de catégorie. Nous obtenons après ces différentes étapes un fichier .txt étiqueté, au sein duquel les émoticônes sont remplacées soit par leur nom, soit par le nom de leur catégorie. Nous pouvons, à partir de là, effectuer grâce à des logiciels de textométrie, comme TXM ou TextObserver, des recherches sur les émoticônes d’un corpus ; par exemple, faire des analyses factorielles permettant de rendre compte de l’environnement lexical de toutes les émoticônes positives, ou négatives, etc. Ces premiers résultats nous permettront d’affiner notre modèle, de confirmer ou d’infirmer les hypothèses qui le fondent, puis de passer aux étapes suivantes : la modélisation automatisée de la visée des émoticônes.

Exemple d’application

Pour l’instant, les résultats obtenus à partir de ces outils nous permettent de tester nos catégories d’émoticônes, d’observer leur positionnement dans les énoncés, de déterminer si elles ont une visée dialogique ou monologique, etc. Voici quelques exemples de recherches conduites avec le logiciel TXM sur notre corpus de thèse (les données concernant le corpus de l’ANR APPEL sont confidentielles), constitué de cinquante pages de t’chat. Ce corpus est trop petit pour que l’on puisse tirer de son étude quantitative des conclusions fermes concernant les émoticônes, mais il nous servira d’exemple. Le signe le plus fréquent, en termes de collocation avec des émoticônes positives, est le chevron fermé : « > ». Cela peut paraître surprenant, mais il n’en est rien : dans notre corpus, les pseudonymes des utilisateurs apparaissent entre chevrons. Ceci signifie que, de façon récurrente, les utilisateurs emploient une émoticône positive au tout début de leur tour de parole, pour réagir, très souvent, à l’énoncé produit précédemment par l’interlocuteur (visée dialogique). D’autre part, nous pouvons aussi utiliser ce type de recherche pour tester les catégories que nous avons choisi d’utiliser dans notre modèle. Ainsi, dans ce corpus, les éléments lexicaux se trouvant à une distance relativement proche (moins de dix mots de part et d’autre de l’émoticône) des émoticônes positives sont souvent des mots à connotation positive (on y retrouve par exemple « ciel », « soleil », « jouer », mais aussi le contre exemple : « cuite »). Il est aussi possible de rechercher les émoticônes produites par tel ou tel utilisateur, ou encore les émoticônes proche de tel ou tel mot qui nous intéresse, et d’en tirer des conclusions grâce au croisement avec les éventuelles métadonnées que nous possédons.
Nous n’en sommes qu’au début de notre travail de modélisation. Grâce à une analyse linguistique, qualitative, du fonctionnement des émoticônes, nous avons élaboré un modèle dont certaines parties sont susceptibles d’être intégrées à des logiciels d’analyse quantitative. Les possibilités, nous l’avons entrevu, sont déjà importantes. En travaillant à partir des résultats obtenus, nous souhaitons tester et affiner notre modèle, pour aller vers un outil permettant de détecter automatiquement les différentes visées des émoticônes. Ceci fait, il deviendra alors possible de commencer à traiter, sur de vastes corpus, la modélisation d’effets pragmatiques complexes comme l’ironie, la provocation, l’empathie, etc.