logo Essonne

Trouver sa route sur le web

Chercher une information dans les méandres d’Internet est parfois fastidieux. Des logiciels se proposent de mener la traque à notre place : en utilisant les systèmes de questions-réponses. Au croisement de la linguistique et de l’informatique, ils dénichent eux-mêmes la réponse aux questions que l’utilisateur leur pose en langage courant. L’avenir des moteurs de recherche est en marche.

Trouver sa route sur le web© Stefanos

Vous cherchez la taille de la tour Eiffel sur un moteur de recherche comme Yahoo, Google ou Exalead ? Très bien, vous l’aurez en deux clics. En revanche, si vous souhaitez connaître la couleur de la robe que portait la reine d'Angleterre lors de son sacre, vous risquez la tendinite ! Une fois sur deux, les utilisateurs finiraient par baisser les bras devant l’échec de leur recherche. Pendant des années, Google et ses concurrents ont ferraillé sur le nombre de pages référencées (ils en indexeraient plus de dix milliards) et sur la pertinence des résultats. Ce combat est désormais dépassé : seule une avancée technologique majeure permettra aux moteurs d’accélérer les requêtes, voire simplement d’y répondre.

Cette avancée pourrait bien être les systèmes de questions-réponses (SQR). Au carrefour de la linguistique et de l’informatique, ces programmes sont capables d’analyser une question formulée en langage naturel, comme "Quelle est la population de la Hongrie ?", et d’aller chercher la réponse sur Internet ou dans des documents stockés sur le disque dur de l'utilisateur. Et ça marche : le champion en la matière, développé par l’université du Texas, affiche 90 % de bonnes réponses !

Même si l’un des auteurs de ce logiciel, Marcus Pasca, a rejoint l’équipe de Google il y a deux ans, le moteur de recherche américain n’a pour l’instant implémenté dans sa version anglophone qu’un équivalent rudimentaire de ces systèmes. En fait, il se pourrait bien que la France dame le pion au géant de l’Internet et fournisse le premier vrai couple "moteur de recherche/système de questions-réponses". Une équipe du Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Limsi) emmenée par Brigitte Grau et une société toulousaine, Synapse, collaborent en effet pour produire le système de questions-réponses du futur moteur de recherche français, "Quaero".

Comment ces logiciels sont-ils nés ? Sur quelle technologie reposent-ils ? Sont-ils tout puissants ? Réponses d’un humain, avant qu’une machine ne le remplace un jour...

01.Naissance des systèmes de questions-réponses : la grande désillusion

La machine EnigmaEnigma, machine considérée comme un des premiers ordinateurs. Elle a été inventée pour décrypter les codes de communications militaires des allemands lors de la Seconde Guerre Mondiale.
© Courtesy of the National Security Agency
Nous sommes au début des années cinquante. La guerre froide s’installe et avec elle le besoin de traduire à la volée les communications russes. Forts de leurs succès durant la guerre (l’ordinateur a été inventé et utilisé pour décrypter les messages des Allemands), les premiers informaticiens engagent quantité de laboratoires dans des recherches visant à construire des machines qui comprennent le langage humain. L’idée de ces pionniers ? Décoder un message et traduire un texte revient strictement au même : la langue ne serait qu’un code. Mais rapidement, les résultats déçoivent. Les informaticiens ont notamment sous-estimé les connaissances contextuelles et encyclopédiques nécessaires à la compréhension d’un texte. Par exemple, pour traduire correctement le mot "rails" dans les deux phrases : "Le travail est sur les rails" et "Le train est sur les rails", il faut savoir que le travail n’est pas nécessairement une chose matérielle qu’on déplace. En 1964, un rapport d’experts américains, le ALPAC (pour Automatic language advisory committee / Comité consultatif sur le langage automatique) ne peut que constater le fiasco des machines de traduction automatique. Son retentissement sera tel que la quasi-totalité des programmes de recherche seront stoppés aux États-Unis et en Europe.

Les systèmes de questions-réponses (SQR) naîtront de cette crise. Si nous ne pouvons construire un logiciel "tout puissant" qui sache traduire ou converser, se disent les informaticiens-linguistes, commençons par un programme qui comprendrait des questions formulées en langage naturel mais serait réservé à un domaine précis de connaissance. Ainsi naîtra à la fin des années soixante BASEBALL, l’un des premiers logiciels de questions-réponses. Le programme répond du tac au tac à des questions sur le championnat américain de baseball. Les questions posées étant de forme syntaxique très simple ("Quel est le meilleur lanceur de l’année ?"), il est facile de faire comprendre au logiciel quelle est l’information recherchée, et de lui demander d’aller chercher celle-ci dans une base de données écrite "à la main", c'est-à-dire dont on a assemblé les connaissances de telle sorte qu'elles soient simples à extraire.

Durant les quarante années suivantes, les SQR continueront de grandir à l’ombre du rapport ALPAC. Les deux questions essentielles seront : comment formaliser les règles de syntaxe et enseigner ces règles aux machines pour qu’elles puissent décrypter des questions complexes ? Quelles bases de connaissance doit-on construire pour épauler les machines ?

La réponse passe d’une part par le développement de grammaires dites "formelles" dans les années soixante-dix, dans lesquelles chaque élément de phrase peut être manipulé comme une équation mathématique. D'autre part, des dictionnaires sémantiques sont constitués, qui pour chaque mot décrivent une liste exhaustive de ses différents sens et des différents contextes dans lesquels ils s’emploient. Mais surtout, ce qui fera décoller les systèmes de questions-réponses, c’est le boom des capacités de stockage : avec l’explosion de la quantité d’informations disponibles numériquement (sur cd-rom ou sur Internet), les informaticiens peuvent chercher les réponses directement dans des textes et non plus dans des bases de connaissances construites "à la main".

Grâce à ces progrès, il existe aujourd’hui des SQR généralistes, qui répondent aussi bien à des questions comme "Quel pays sud-américain a la plus forte population ?" ou "Qu’est-ce qui a rendu célèbre Aleksandr Pushkin ?". Qu’ils s’appellent START (développé par le Massachusetts Institute of Technology), QALC (Limsi) ou encore SQuALIA (Laboratoire d’informatique d’Avignon), ces SQR s’affrontent chaque année dans des compétitions internationales. Ainsi, les logiciels anglophones croisent le fer aux USA, lors de la TREC (Text REtrieval Conference), tandis que ceux développés dans une langue européenne autre que l’anglais se mesurent entre eux, en Europe, lors d'une compétition appelée CLEF (Cross Language Evaluation Forum). Durant ces concours, les réponses proviennent de divers corpus de textes, notamment journalistiques et médicaux. En 2006, c’est le SQR de l’université du Texas qui s’est hissé en haut du podium à TREC. La société Synapse, qui commercialise un SQR baptisé QRYSTAL, a remporté, elle, la partie francophone de la dernière édition de CLEF. QRYSTAL est vendu essentiellement aux particuliers, mais il a été également implémenté dans les logiciels de recherche documentaire des bibliothèques nationales de République tchèque et de Pologne.

02.Les systèmes de questions-réponses dans le menu

Capture écran question/réponse QrystalQRYSTAL, SQR commercialisé par la société Synapse, champion des tests français de système questions-réponses. À la question posée ici "Qui fut la première femme dans l'espace ?", il propose la réponse : "Valentina Tereshkova".
© Synapse Développement- tous droits réservés
L’utilisateur pose une question au système de questions-réponses. Où et comment celui-ci va-t-il chercher la réponse ? Le préalable pour le SQR est de "comprendre" la question, c’est-à-dire d’identifier l’information qu’on lui demande d’aller chercher.

Pour ce faire, il repère d’abord dans la phrase de l’utilisateur la locution qui introduit la question (où, vers où, avec quoi, quand, à partir de quand, comment, avec combien...). Il a en mémoire les centaines de combinaisons possibles ; selon celle qu’il reconnaît, il en déduit si l’information recherchée est un lieu, une personne… Ceci fait, il détermine sur quel élément de la phrase la question porte. Cet élément est ce que les linguistes appellent le pivot de la phrase, qui n’est pas nécessairement le sujet de la phrase (dans la question "Quel produit est fabriqué par Peugeot", le pivot est ainsi Peugeot et non produit). Le SQR cible le pivot grâce à des outils d’analyse syntaxique qui décortiquent la grammaire du texte. Ces outils lui permettent par exemple de savoir si le mot /aura/ dans "Quel homme politique indien a bénéficié d’une aura internationale ?" est le futur d’avoir ou le synonyme de prestige.

Une fois dressé le portrait-robot de l’information, le SQR s’attaque à la recherche proprement dite. Il commence par élargir sa requête en explorant les diverses variations morphologiques de la question : "Qui est le président de la France ?" devient "Qui dirige la France ?", car diriger est synonyme de présider, lui-même une variante morphologique de président. Cet élargissement (réalisé notamment à partir de dictionnaires des synonymes et de familles de mots), permet au SQR de maximiser ses chances de faire "bonne pioche" lorsqu’il consultera sa base de connaissances, c'est-à-dire un corpus de textes de références ou Internet. Dans ce second cas, le SQR apostrophe simplement un moteur de recherche (Google ou autre) avec les mots de la question en argument, après filtrage des pronoms interrogatifs (ils ne sont plus porteurs d’information) et des mots vides de sens. Pour "Qui est le président de la France ?", il ira par exemple chercher auprès du moteur les suites de mots : /président/ et /France/ ; /dirige/ et /France/.

Que la base soit un corpus de textes ou des pages issues d’une requête d’un moteur internet, le SQR ne tente pas bille en tête d’y dénicher la réponse. Il doit auparavant analyser la base afin de résoudre les anaphores qui pullulent dans nos écrits ; c'est-à-dire les reprises de noms à travers des pronoms. Un "il" sujet d’un paragraphe peut ainsi renvoyer à un nom propre énoncé plusieurs paragraphes avant. Quand c'est le cas, le SQR teste les noms propres des phrases précédentes jusqu’à trouver celui qui est compatible avec la phrase contenant le "il". Les anaphores résolues, le SQR localise les passages où apparaissent les mots de la question.

Enfin, il extrait la "meilleure" réponse de ces passages. Pour cette ultime étape, deux approches s’affrontent chez les auteurs de SQR. Il y a les partisans de logiciels "tout statistique", qui isolent la réponse à partir de seules données probabilistes. On ne les détaillera pas ici, mais en voici un exemple : si accolé à Jacques Chirac se trouve statistiquement fréquemment le terme Président, alors le logiciel en déduit que Jacques Chirac est président. Et les adeptes des logiciels "tout sémantique", qui programment leur SQR pour qu’il fouille le texte à l’aide de petites règles de syntaxe. Dans ce cas, pour répondre à "Quel est le président de la France ?", il cherchera toutes les variantes de phrases qui sont censées contenir la réponse : "le président de la France est (…)", "en France, le président est (…)", etc. Le meilleur SQR francophone, le logiciel QRISTAL, développé par la société Synapse fonctionne sur ce modèle. Pour s’assurer de la réponse, le SQR peut la vérifier en analysant les autres passages issus de la base, faire appel à d’autres patrons d’extraction (règles permettant d'isoler une information à l'intérieur d'une phrase), ou encore rechercher dans d'autres sources d'informations.

Mais la meilleure façon de comprendre le fonctionnement d'un SQR, est encore de suivre un exemple de requête, au chapitre suivant !

03.Exemple

QUESTION : EN QUELLE ANNÉE EST NÉ NELSON MANDELA ?

Nelson Mandela"En quelle année est né Nelson Mandela ?" Comment un SQR analyse-t-il et répond-t-il à cette question ?
© ANC
1. Le système de questions-réponses (SQR) vérifie l’orthographe à partir d’un dictionnaire. S’il trouve une faute, il ne la corrige pas systématiquement. En effet, en cas d'ambiguïté, il ne peut se permettre de préjuger du résultat... Par exemple, si la question contient le mot eleve, le SQR l’ignorera car ce mot peut être remplacé par élève ou élevé.

2. Grâce à des outils d’analyse syntaxique, le SQR détermine le type d’information recherchée : il s’agit ici de l’année d’un événement et plus précisément d’une année d’une naissance.

3. Grâce aux mêmes outils, le SQR localise le pivot de la phrase, c’est-à-dire l’élément sur lequel porte la question : ici, Nelson Mandela.

4. Le SQR construit une requête à destination d’un système de recherche d’information, qui est soit un moteur de recherche web ou un moteur plus classique (par exemple celui d'une base de données d'une bibliothèque). La question subit alors une double opération : une cure d’amaigrissement suivie d’une déclinaison destinée à élargir la recherche. "En quelle année est né Nelson Mandela ?" se dédouble en : "naître, Nelson, Mandela" et "naissance, Nelson Mandela". Le moteur interrogé renvoie les pages contenant ces termes.

5. Le SQR résout les anaphores dans les pages renvoyées par le moteur.
"Nelson Mandela est le président d’Afrique du Sud. Il est né le 18 juillet 1918 dans un village xhosa du Transkeï." devient "Nelson Mandela est le président d’Afrique du Sud. Nelson Mandela est né le 18 juillet 1918 dans un village xhosa du Transkei."

6. Le SQR extrait la réponse. Cette sélection de la ou des meilleures réponses peut être faite grâce à l’utilisation de patrons d'extraction. Le SQR cherchera alors les formules du type : "Nelson Mandela (année naissance/année mort)" ou "Nelson Mandela est né le (année naissance)". La sélection peut être aussi faite par un calcul de proximité. Ainsi, le "1918" de la phrase "Nelson Mandela est né le 18 juillet 1918 dans un village xhosa du Transkei" apparaîtra comme une meilleure réponse que le "1912" rencontré dans le passage : "Nelson Mandela n'était pas né quand le Congrès national africain (ANC) vit le jour (1912)."

04.La hauteur de la tour Eiffel, mais pas encore la hauteur de vue

Capture écran réponse image STARTSTART, développé par le MIT, est un des seuls SQR à pouvoir donner des réponses en images (photographies, cartes…). Ici la requête était "une photo de la Tour Eiffel".
© The InfoLab Group/MIT Artificial Intelligence Laboratory
Quand les SQR seront-ils disponibles sur nos ordinateurs ? En fait, certains moteurs de recherche proposent déjà des versions rudimentaires de systèmes de questions-réponses. La question "Quelle est la population de la Hongrie ?" posée sur Live Search (moteur de recherche de Microsoft) fournit directement la réponse 9 981 334 habitants, accompagnée de la source de l’information. La version anglophone de Google offre la même prestation. Mais on est encore loin des possibilités offertes par un SQR tel que décrit plus haut : les questions possibles sont limitées et restreintes à des domaines tels que la géographie, les planètes ou les films. Seul Yahoo propose un service où l’on trouve la réponse à des questions aussi diverses que "Pourquoi lorsqu’on offre un bouquet de fleurs le nombre de roses doit être impair ?" et "C’est quoi le PH ?" mais les réponses sont données de façon communautaire par… les internautes eux-mêmes. Ce service est d'ailleurs un succès avec un million de visiteurs par mois en France*, preuve de la demande du public pour une information ciblée.

Les véritables SQR généralistes sont donc encore absents de la Toile. Pour deux raisons. D’abord parce qu’ils sont loin d’être infaillibles. Pourtant champion des SQR francophones, QRISTAL n’affiche que 68 % de réussite. Pourquoi ? Pour Brigitte Grau, du Limsi à Orsay, "le problème des ressources est crucial. Plus il y a de connaissances sémantiques, plus les systèmes de questions-réponses sont performants." Les SQR anglophones peuvent ainsi se reposer sur un dictionnaire sémantique quasi exhaustif, WordNet, accessible gratuitement en ligne ! Construit au fil des ans depuis 1985 sous la direction de Georges Miller, psychologue à l’université de Princeton aux États-Unis, WordNet comporte aujourd’hui plus de 150 000 mots (il donne pour chacun les différents sens selon le contexte), quand le corpus sémantique utilisé par QRISTAL n’en possède que 70 000.

Seconde raison à l’absence de vrais SQR sur le web : leur relative lenteur. QRISTAL met plusieurs secondes pour aller chercher sur Internet la réponse à une question. Autant dire une éternité pour les internautes habitués à être servis en un clin d’œil par les moteurs de recherche. Pour Quaero, le futur moteur de recherche auquel participe Synapse, la société s’est fixé de faire chuter à 100 ms le temps d’une requête. Quaero est un projet de moteur de recherche multimédia initialement européen et devenu fin 2006 purement français. Il réunit des acteurs publics tels que l’Inria (Institut national de la recherche en informatique et en automatique) et l’université Joseph Fourier de Grenoble, et privés comme Thomson et France Télécom. À son lancement, en 2011, il devrait permettre de fouiller non seulement des pages web mais aussi des documents vidéos et sonores. Et il pourrait bien être le premier moteur de recherche au monde à être pourvu d’un SQR. Celui-ci sera co-développé par Synapse et par le Limsi.

Capture écran réponse texte STARTSTART, développé par le MIT, après analyse de la question "Qui a construit la Tour Effel ?", propose une réponse : "Gustave Eiffel".
© The InfoLab Group/MIT Artificial Intelligence Laboratory

Comme les pionniers de l’informatique ambitionnaient de le faire en leur temps, Quaero saura-t-il répondre à des questions abstraites du type : "Qu’est-ce qui différencie les programmes des candidats du second tour de l’élection présidentielle 2007 ?" En fait, pour que les SQR puissent répondre à ce genre de question, il leur faudra apprendre à inférer, c'est-à-dire raisonner, comme l’explique Dominique Grégoire, gérant de Synapse : "Les inférences sont rares aujourd’hui dans les SQR. Il y en a quelques-unes dans QRISTAL : le logiciel peut calculer un âge à partir d’une date de naissance. Mais, pour aller plus loin, il faudrait procéder à une analyse du texte en profondeur. C’est impossible à l’heure actuelle, car 20 % des mots sont incompris parce qu’ambigus." Dans la phrase "Une femme se présente à l’Élysée", difficile ainsi de savoir pour un SQR si le mot "femme" est entendu comme genre à part entière ou simplement comme l’opposé de mari. Les SQR devront réaliser des progrès spectaculaires avant de saisir le contexte de ce type d’affirmation et de pouvoir trancher entre les deux possibilités. À moins que la quantité croissante d’informations disponibles rende superflus les raisonnements : à terme, prophétise Brigitte Grau, "on peut imaginer que toute information cherchée existe explicitement quelque part sur le web, et que le raisonnement nécessaire à ce type de question a déjà été mené et publié." Ce jour n’est hélas pas encore arrivé : pour le moment, mieux vaut s’adresser aux SQR pour connaître la hauteur de la tour Eiffel, que pour choisir quel bulletin glisser dans l’urne.



* 1 098 000 visiteurs uniques en octobre 2006. Source Nielsen//NetRatings.

Restez connecté

Suivez-nous : Page Facebook Page Twitter

Lettre d'information :

Vidéo

Cette vidéo nécessite le plug-in gratuit Flash 8.
Il semble que vous ne l'avez pas.
Cliquer ici pour le télécharger

Interview de Xavier Raepsaet - La propulsion nucléaire spatiale

Portraits d'experts

  • Romina Aron Badin, les primates au coeur
  • Jacques-Marie Bardintzeff, une vie consacrée aux volcans
  • Catherine Charlot-Valdieu :  Home sweet home
  • Didier Labille, l’astronomie en amateur professionnel