Facebook améliore ses algorithmes de reconnaissance visuelle

La reconnaissance d’images est l’un des piliers de la recherche en matière d’IA, et un domaine d’intérêt croissant pour Facebook.


Illustration : via Unsplash CC


    Temps de lecture : 3 min
À ce sujet, les chercheurs et ingénieurs du réseau social viennent d’annoncer tirer parti des millions voire milliards de photos publiées par les internautes Instagram, racheté en 2012. Leur objectif : améliorer leurs systèmes de reconnaissance visuelle par ordinateur, et les entraîner à reconnaître et à classer un large éventail d’objets.

Comme les modèles actuels sont généralement formés à partir de données étiquetées de façon manuelle par des humains, il n’est pas aussi simple d’améliorer les systèmes de reconnaissance visuelle. Ce processus d’apprentissage, que l’on pourrait qualifié comme « supervisé à forte intensité », donne de bons résultats de performance mais semble éprouver ses limites fonctionnelles. Facebook annonce disposer aujourd’hui d’un nombre incroyable d’images collectés notamment à partir du réseau social Instagram. Il apparaît alors comme impossible de catégoriser des milliards d’images lorsque toute la supervision est assurée manuellement.

Les équipes de Facebook se sont attaqués à ce problème en formant des réseaux de reconnaissance d’images sur de grands ensembles d’images publiques avec des hashtags, dont le plus important comprenait 3,5 milliards d’images et plus de 17 000 hashtags ! Le point crucial de l’approche consiste à utiliser des hashtags publiques qui sont donnés par les internautes comme « étiquette » au lieu de catégoriser manuellement chaque image. Cette approche semble avoir bien fonctionné dans la phase de test précise les intéressés : ils disent avoir obtenu un score record – 85,4 % de précision – sur ImageNet, un outil de benchmarking commun. En plus de permettre une véritable avancée dans le domaine de la reconnaissance visuelle, cette démarche nous apprend beaucoup sur la façon et les possibilités de passer d’un apprentissage supervisé par l’humain à un apprentissage faiblement supervisé, en utilisant par exemple comme ici les hashtags.

Tirer parti des hashtags au maximum

Puisque les internautes ont majoritairement tendance à sous-titrer leurs photos avec des hashtags, les ingénieurs de Facebook ont légitimement pensé qu’ils seraient une source de connaissance idéale pour construire et entraîner leurs algorithmes. Les hashtags assurent ainsi doublement leur mission : ils permettent de rendre les images plus accessibles, en se basant sur ce que les gens supposent que les autres trouveront pertinent.

Mais les hashtags font souvent référence à des concepts non visuels, comme #tbt pour « throwback Thursday ». Ou alors ils sont plus ou moins vagues, comme la balise #party, qui pourrait décrire une activité, un cadre, ou les deux. Pour les besoins de la reconnaissance d’images, les étiquettes fonctionnent comme des données faiblement supervisées, et les hashtags vagues et/ou non pertinents apparaissent comme des « bruits parasites » qui peuvent perturber les systèmes de deep learning.

Ces « étiquettes parasites » étaient au cœur du travail des équipes techniques de Facebook en charge d’améliorer la reconnaissance visuelle. C’est pourquoi ils annoncent avoir mis au point de nouvelles approches adaptées qui comprennent le traitement de plusieurs étiquettes par image (puisque les personnes qui ajoutent des hashtags ont tendance à en utiliser plus d’une), le tri des synonymes de hashtag et l’équilibre entre des hashtags fréquents (donc influents) et des hashtags utilisés plus rarement par les internautes pour décrire leurs photos. Les équipes sont allées plus loin en créant un modèle de prédiction fiable à partir des hashtags pour tirer parti de cette technologie pour d’autres applications d’IA comme la classification des images à partir des commentaires des utilisateurs, des hashtags et des vidéos. Cette nouvelle exploration de l’apprentissage faiblement supervisé était un vaste chantier qui a mobilisé chez Facebook les équipes R&D dédiées au machine learning (AML) et à l’IA (FAIR).

Innover en termes d’échelle et de performance

D’après les équipes de Facebook, une seule machine aurait pris plus d’un an pour développer un tel modèle d’apprentissage. Ils ont donc créé un moyen de répartir la tâche sur 336 GPU, réduisant ainsi le temps total d’apprentissage à quelques semaines seulement. Avec des modèles de plus en plus grands – le plus grand dans cette recherche est un ResNeXt 101-32x48d avec plus de 861 millions de paramètres ! – l’apprentissage gagne à être ainsi « distribué ». De plus, les ingénieurs de Facebook disent avoir mis au point une méthode pour éliminer les doublons afin de ne pas « mal former » les algorithmes.

Les résultats seraient assez surprenants. A partir d’ImageNet – l’une des bases de données d’images annotées les plus populaires dans le domaine des travaux de recherche en vision par ordinateur – le meilleur modèle (c’est-à-dire le meilleur algorithme développé) aurait atteint une précision de 85,4 % en s’entraînant sur 1 milliard d’images avec plus de 1 500 hashtags ! Il s’agit de la précision de référence ImageNet la plus élevée à ce jour et d’une augmentation de 2 % par rapport au modèle existant le plus avancé.

Il semble bel et bien s’agir d’améliorations fondamentales pour la reconnaissance visuelle et la détection d’objets. Mais les expériences ont également révélé plusieurs défis à surmonter.
Par exemple, bien qu’il soit utile d’augmenter la taille de l’ensemble de données d’entraînement, il peut être au moins aussi important de choisir un ensemble de hashtags qui correspond à la tâche de reconnaissance spécifique. Facebook annonce avoir obtenu de meilleures performances en s’entraînant sur 1 milliard d’images avec 1 500 hashtags qui ont été appariés avec les classes de l’ensemble de données ImageNet qu’en s’entraînant sur le même nombre d’images avec les 17 000 hashtags disponibles. D’autre part, pour les tâches avec une plus grande variété visuelle, la performance des modèles formés avec 17 000 hashtags semblent largement s’améliorer, ce qui indique qu’il serait possible d’augmenter le nombre de hashtags lors d’une prochaine phase de test. Augmenter le volume des données d’entraînement peut aussi être pertinent pour la classification des images. Mais peut créer de nouveaux problèmes, dont une baisse apparente de la capacité de localiser des objets au sein d’une image.

L’avenir de la reconnaissance visuelle

Le résultat le plus important à retenir de l’étude semble être la confirmation de la pertinence de choisir des modèles d’entraînement (pour la reconnaissance visuelle par ordinateur) à partir des hashtags. Les premiers intéressés ont à ce sujet ajouter qu’il n’y avait au final pas besoin de procédures trop complexes de « nettoyage » pour éliminer le bruit des étiquettes. De plus, les réseaux formés à partir des milliards d’images se sont montrés remarquablement résistants aux incohérences des étiquettes en général.

Facebook annonce à court terme envisager d’autres façons d’utiliser les hashtags comme étiquettes pour la vision par ordinateur. Il pourrait s’agir notamment d’utiliser l’intelligence artificielle pour mieux comprendre les séquences vidéo ou pour modifier le classement d’une image dans les flux Facebook. Les hashtags pourraient également aider les systèmes à reconnaître lorsqu’une image relève non seulement d’une catégorie générale, mais aussi d’une sous-catégorie plus spécifique. Par exemple, une légende audio pour une photo qui mentionne un oiseau dans un arbre est utile, mais une légende qui peut identifier l’espèce exacte, comme un cardinal perché dans un érable à sucre, fournit aux utilisateurs malvoyants une meilleure description.

Facebook estime que le besoin d’un apprentissage faiblement supervisé – et, à plus long terme, non supervisé – deviendra de plus en plus vital. Mais avant ça : comprendre comment compenser les inconvénients des étiquettes « parasites » est essentiel à la construction de systèmes d’entraînement à plus grande échelle.

Vous pouvez suivre l’actualité tech de Facebook directement sur leur blog code.facebook.com/posts.

AUCUN COMMENTAIRE

LAISSER UN COMMENTAIRE