Réflexion : IA et moteurs de recherche

26 mai 2023

La question du langage naturel
La question de la pertinence des réponses
Une pertinence nulle (pour l'utilisateur)
Encore un immense potentiel gaspillé

Pas une journée ne passe sans qu'un nouveau grand ponte d'Internet annonce ajouter des fonctionnalités à base d'Intelligence Artificielle dans ses produits. Inévitablement, cette frénésie s'empare des moteurs de recherche. Google et Microsoft sont en tête de pont.

Ironiquement, Eric Schmidt et Bill Gates (respectivement ex-patrons de ces deux entreprises) sont les premiers à avertir des dérives potentielles de l'IA (ou en tout cas, des changements profonds qu'elles vont opérer). Mais comme d'habitude, tout le monde est pressé d'introduire de nouvelles technologies sans questionner leur pertinence pour les utilisateurs.

En l'occurrence, introduire l'IA dans les moteurs de recherche n'est pas fondamentalement une mauvaise idée : l'utilisateur écrit une requête en langage naturel et le moteur sort une liste de réponses "adéquates".

Cette idée est scindées en deux postulats :

l'utilisateur écrit une requête en langage naturel
le moteur de recherche sort une liste de réponses "adéquates"

Chacun de ces postulats introduit lui-même ses propres problèmes.

La question du langage naturel

Soumettre une requête en langage naturel à un moteur de recherche signifie lui demander quelque chose comme on le demanderait à un humain. Par exemple : "combien de panneaux solaires faut-il pour alimenter une maison".

Le moteur de recherche doit faire face à une quantité assez impressionnante de problématiques pour accomplir son objectif. Il doit corriger les erreurs d'orthographe ou de frappe et ce, quelque soit la langue, isoler les éléments de langage utiles à la recherche (dans cet exemple, "faut-il pour" n'est pas un élément nécessaire de la requête), etc.

En gros, le moteur de recherche doit être capable de contextualiser la recherche. En gros, on lui demande de lire dans nos pensées.

C'est à cette problématique qu'est censée répondre l'IA. Pas pour le bien des utilisateurs, mais pour que les moteurs puissent dire "chez nous, vous pouvez demander quelque chose comme si vous vous adressiez à un humain". L'IA est censée s'intercaler entre l'arrière-boutique technique du moteur, et l'utilisateur. On appelle ça une interface.

L'IA est indéniablement douée pour ce type d'exercice parce que, comme toute chose en informatique (et sans doute dans d'autres domaines), elle a été conçue pour ça. Les mathématiques employées par l'IA sont capables de convertir en tokens (des objets mathématiques) des éléments de langage utilisables de façon logique (les algorithmes).

Quand on demande à des IA génératives de produire une image à partir d'une requête en langage naturel, la première étape consiste à analyser la requête, pour transmettre les tokens ainsi produits aux algorithmes qui, eux, vont produire une image potentiellement cohérente.

Donc, pour l'instant, dans un moteur de recherche, l'IA n'intervient que comme interface permettant à l'utilisateur d'exprimer une requête en langage naturel. En conséquence, ma question est la suivante : pourquoi faire ?

A-t'on réellement besoin de poser des questions à un moteur de recherche comme on le ferait à un humain ? Dans le cas d'un assistant domotique, où l'on parle pour formuler une demande, je conçois que parler "comme à un humain" fasse sens. Mais dans un moteur de recherche où l'on écrit une requête, je ne trouve pas ça pertinent, voire franchement contre-productif.

Avant l'effervescence de l'IA dans le domaine des moteurs de recherche, lorsque l'on cherchait quelque chose, on pouvait donner une série de mots-clé au moteur qui devait, a priori, bien se débrouiller avec. Après tout, il s'agit simplement de donner une note à chaque page indexée en fonction, schématiquement, du nombre de mots-clé concordants. Plus il y a de mots-clé dans la page, plus elle est sémantiquement appropriée et donc, elle devrait être plus pertinente pour l'utilisateur. C'était, en tout cas, leur but initial.

Pour reprendre mon exemple précédent, dans un monde pré-IA, j'aurai formulé ma requête de la façon suivante : "panneau solaire alimenter maison" (notez qu'il n'y a même pas besoin de s'embêter avec les pluriels). Cette requête ne contient que le strict nécessaire pour déterminer ce que j'attends comme résultats pertinents.

Le problème qui se pose alors est évidemment connu depuis très longtemps, et il porte le nom de SEO-bombing, qui consiste "simplement" à barder ses pages web de mots-clé pas toujours en rapport avec le contenu avant de les soumettre aux moteurs de recherche. Avec des millions de requêtes d'indexation par jour, il est impossible de s'assurer que toutes les pages ne sont pas construites spécialement pour tirer profit de cette technique.

Un revendeur de panneaux solaires va les intégrer à ses pages web indexées par les moteurs de recherche, et par conséquent, va atterrir dans les résultats de votre recherche sans jamais répondre à la question posée. Une requête en langage naturel va même aggraver le phénomène (à cause du mot "combien", associé à un hypothétique token "combien ça coûte", alors que l'idée de base est "combien de panneaux solaires [...]").

C'est ainsi que l'on a tué les mots-clé.

Comme les mots-clé n'ont plus aucune utilité, il faut trouver autre chose pour lier des pages web à une requête sur un moteur de recherche. Facile avec l'IA : on a vu que son rôle consistait à tokeniser des séquences en langage naturel (c'est-à-dire convertir ces séquences en objets mathématiques via plusieurs procédés qui, eux, sont très complexes mais cette complexité n'est pas l'affaire des moteurs de recherche). Il suffit de soumettre les pages de l'index à une IA qui va se charger toute seule de les tokeniser. La comparaison avec les tokens produits par une requête d'un utilisateur se fait alors "le plus simplement du monde".

L'IA permet donc aux moteurs de recherche de résoudre plusieurs "problèmes" :

offrir aux utilisateurs la possibilité de formuler les requêtes en langage naturel
éviter le SEO-bombing en analysant directement la sémantique des pages web plutôt qu'en se référant aux outils pré-existants et utilisés à des fins "malveillantes"
automatiser un maximum de choses, notamment au niveau de l'indexation des pages, et externaliser la complexité (en gros, sous-traiter la gestion de l'IA à un tiers comme OpenAI pour les moteurs basés sur ChatGPT)

C'est bien beau tout ça mais vous me direz, en quoi c'est une mauvaise chose ?

En fait, je suis simplement attristé de la tournure des choses, des "évolutions" de l'informatique et surtout, de ses détournements à des fins monétaires.

Je l'ai dit : la formulation en langage naturel ne me paraît pas pertinente dans le cadre d'un moteur de recherche web. Ensuite, l'emploi de l'IA va surtout profiter aux moteurs de recherche, sans pour autant améliorer "l'expérience utilisateur", qui revient finalement, toujours dans le cadre d'un moteur de recherche, à fournir des résultats pertinents. Et c'est là que le bât blesse, car rien ne risque de changer à ce niveau.

La question de la pertinence des réponses

Les réponses attendues à une requête à un moteur de recherche sont profondément subjectives. Quand vous cherchez "combien de panneaux solaires faut-il pour alimenter une maison", il faut s'attendre à ne pas trouver de réponse satisfaisante parce que ce nombre dépend de paramètres qui vous sont propres, tels que la consommation de votre maison, la surface de la toiture de votre maison, etc. Les moteurs de recherche doivent donc donner des résultats les plus génériques possibles, parce qu'il est pratiquement impossible de trouver une réponse directe à cette question.

Le problème de la pertinence des réponses survient lorsqu'au contraire, on cherche quelque chose de très spécifique. Les moteurs de recherche semblent désormais partir du principe que vous ne savez pas ce que vous voulez (j'y vois une philosophie d'entreprise dans le cas de Google), et même si vous savez que la réponse à votre question devrait être facile à trouver, ils vont vous proposer des réponses complètement à côté de la plaque.

Déjà, la plupart du temps et en fonction de votre moteur de recherche, vous allez vous retrouver avec une page remplie uniquement de résultats sponsorisés, plus ou moins en rapport avec votre requête. Dans mon exemple, Google me propose une pleine page de liens vers des boutiques en ligne pour acheter des panneaux solaires ou vers des entreprises qui en font l'installation. Et cela risque d'être pire avec l'IA.

Ensuite, parce que votre requête va correspondre à une minorité de requêtes similaires (mais pas assez pour être égales) déjà formulées par d'autres utilisateurs. Or, d'expérience, sur des sujets très spécifiques et/ou de niche, et peu importe le moteur de recherche, j'ai toujours l'impression d'être un idiot : les résultats donnés par le moteur sont jugés pertinents pour la majorité des utilisateurs, mais, manque de bol, je fais partie de la minorité. Je suis obligé de fouiller parfois jusqu'à la vingtième page de résultats pour trouver exactement la réponse à ma question.

J'échoue à comprendre en quoi l'IA va améliorer cela.

Quoiqu'il arrive, il faut que quelqu'un, quelque chose (un algorithme) décide d'attribuer une note de pertinence aux résultats trouvés et potentiellement en rapport avec ma requête. Cet élément décisionnel est fonction de beaucoup de choses, et notamment :

la popularité, c'est-à-dire le nombre de visites vers une page donnée en fonction des tokens recherchés (donc si la majorité des utilisateurs ayant formulé la même requête que vous clique sur une page qui n'a rien à voir parce qu'elle a été spécialement conçue pour les tromper, vous tombez aussi dans le piège)
les critères déontologiques du moteur de recherche (qui peuvent provoquer la censure de certains résultats, que cela soit estimé approprié ou non par les visiteurs n'entre pas en ligne de compte)
les critères de sécurité du moteur de recherche
d'autres critères non divulgués

Ces éléments existeront toujours avec l'emploi de l'IA parce qu'ils forment les spécificités commerciales de chaque moteur.

On pourrait croire que l'IA devrait offrir un outil objectif, détaché des considérations spécifiques de chaque entreprise. Après tout, on n'arrête pas de parler de supprimer les biais de l'IA. Mais en fin de compte, tout le travail de mise en place de l'IA au sein des moteurs de recherche va précisément consister à s'assurer que des biais existent toujours, parce que ce sont ces biais qui caractérisent les moteurs. Certains moteurs pourront se permettre de modifier ces biais au passage à l'IA (ça sera probablement le cas de Google), d'autres devront faire preuve de plus de prudence (comme Microsoft qui a un passif assez lourd sur la question).

Au final, l'introduction de l'IA ne devrait malheureusement pas favoriser les sites plus pertinents, seulement ceux qui rentreront dans le cadre imposé par ces biais, comme ça a toujours été le cas. Donc, encore une fois, l'IA servira surtout aux moteurs, et beaucoup moins aux utilisateurs.

J'ajouterai même que je suis persuadé que la pertinence des résultats va continuer de chuter avec le passage à l'IA. Cela n'a rien de scientifique, j'en ai peur, mais j'ai constaté au fil du temps que je trouve de moins en moins facilement ce que je cherche. Il est certain que cela dépend d'autres facteurs que les algorithmes en jeu, par exemple mes centres d'intérêts qui ont évolué, ou la quantité de personnes qui cherchent à faire les mêmes choses que moi qui s'est réduite avec mon avancée dans certains domaines spécifiques, ou le désintérêt progressif de certaines choses par la majorité des gens. Des éléments sur lesquels je n'avais de toute façon aucun contrôle. Des éléments qui me font me dire : "Je ne peux pas être le seul à vouloir faire ça !".

Une pertinence nulle (pour l'utilisateur)

J'ai le sentiment qu'encore une fois, dans le domaine de l'informatique, on surfe sur une vague commercialement alléchante, mais qui ne profitera finalement qu'aux entreprises et non aux utilisateurs. Pour être franc, je ne vois qu'une potentielle augmentation de l'hostilité contre les utilisateurs des moteurs de recherche, et d'Internet en général.

L'IA va simplifier beaucoup de procédures actuellement coûteuses en temps et/ou en ressources informatiques. Ces économies vont évidemment profiter aux entreprises, mais quels seront les bénéfices pour les utilisateurs ? Ils ne pourront pas espérer de meilleurs résultats à leurs requêtes, ni plus d'objectivité. Ils resteront toujours enfermés dans une bulle cognitive, déterminées par les moteurs pour être ni trop grande (auquel cas leurs règles ne pourraient plus s'appliquer) ni trop petite (au risque de perdre des utilisateurs). C'est juste que tout changement dans la taille de cette bulle sera techniquement plus facile à réaliser.

Et peut-on réellement dire que formuler des requêtes en langage naturel est un bénéfice pour l'utilisateur ? Je sais bien que ce n'est pas parce que moi j'ai "appris à parler" aux moteurs de recherche que personne n'utilise le langage naturel, mais je me pose en fait la question plus profonde : pourquoi parler naturellement avec une Intelligence Artificielle ? N'est-ce pas contribuer directement à la dénaturalisation de l'Homme ? N'est-ce pas s'exposer stupidement à une auto-flagellation, comme on l'a vu récemment avec les "petites-amies virtuelles" ? Pourquoi le test de Turing est devenu un challenge à atteindre plutôt qu'un outil "académique", scientifique ?

L'autre objectif poursuivi par l'intégration de l'IA dans les moteurs de recherche est l'apprentissage automatique. Cela ne risque-t'il pas de porter - encore plus - préjudice aux sites intéressants mais peu populaires (un peu comme Amazon qui réduit la note de mon livre parce qu'il ne se vend pas) ? Et, a contrario, d'augmenter - encore plus - la popularité de sites peu intéressants mais techniquement conçus pour vous inciter à cliquer sur leurs résultats de recherche ? Comment ne pas voir en cela des techniques commerciales pourtant éprouvées depuis longtemps, et comment peut-on encore tomber dans ces panneaux ?

Autrement dit, je crains que l'IA ne fasse qu'amplifier les problèmes existants, sans le moindre bénéfice pour l'utilisateur final. Mais pourquoi s'en soucier de toute façon, lorsqu'on est le moteur de recherche par défaut sur des milliards de périphériques à travers le monde, et qu'une fraction complètement marginale va manuellement choisir un autre moteur.

Encore un immense potentiel gaspillé

Pour moi, l'IA aurait pu apporter un élément que j'estime indispensable aux moteurs de recherche : l'objectivité. Un élément évidemment en complète opposition avec les prérogatives financières de ces moteurs, dont le but est sans équivoque : gagner de l'argent d'un côté (vous faire cliquer sur des offres commerciales sponsorisées) et en perdre le moins possible de l'autre (redistribuer juste assez d'argent pour que les véritables producteurs de contenus s'imaginent satisfaits du contrat).

Or, l'IA risque aussi de faciliter l'intégration de contenus, y compris en provenance d'auteurs qui ne veulent pas figurer dans les résultats de recherche de ces moteurs, que ce soit par éthique personnelle, par ciblage ou toute autre raison qui leurs sont propres. Car, si l'on recherche déjà les moyens de bloquer l'intégration de certains contenus aux corpus d'apprentissage de ces IAs, je pense qu'ils sont tous voués à l'échec.

Il est impossible, notamment par l'usage de stochastique dans les mathématiques impliquées dans la génération de contenu, de certifier qu'une oeuvre particulière (qu'elle soit textuelle ou non) a effectivement été utilisée pour en produire une "nouvelle" avec une IA. Inversement, et pour la même raison, il est impossible de certifier qu'une oeuvre n'a pas été utilisée par une IA pour en produire une nouvelle.

Je crois que bientôt, cette caractéristique particulière servira au plagiat automatisé. On ne parlera plus de SEO-bombing mais de IA-bombing, ce qui va nuire non seulement aux utilisateurs du moteur de recherche, mais aussi aux producteurs de contenus "authentiques".

Mises bout à bout, toutes mes remarques me conduisent à reformuler avec une nouvelle véhémence les craintes que j'ai évoqué dans mon article : L'IA pose la question de l'identité. À mettre de l'IA partout, tout le temps même lorsque cela n'est pas pertinent et utile à l'utilisateur, nous allons finir par nous perdre.

Et je déplore ce paradigme associé à "mon monde", celui de l'informatique.

La question du langage naturel¶

La question de la pertinence des réponses¶

Une pertinence nulle (pour l'utilisateur)¶

Encore un immense potentiel gaspillé¶

La question du langage naturel

La question de la pertinence des réponses

Une pertinence nulle (pour l'utilisateur)

Encore un immense potentiel gaspillé