La startup française Giskard a mené une étude comparative pour analyser en détail les hallucinations générées par les principaux modèles de langage.

Les hallucinations de l’IA : un défi majeur révélé par le benchmark de Giskard

Comprendre le phénomène des hallucinations de l’IA

Les hallucinations de l’IA désignent les moments où un modèle d’intelligence artificielle, notamment les grands modèles de langage (LLM), produit des informations incorrectes, voire absurdes, tout en les présentant comme des faits. Ces erreurs sont souvent perçues comme crédibles, ce qui représente un risque majeur pour la fiabilité des systèmes d’IA générative.

Par exemple, certains chatbots ont affirmé que Harry Potter faisait équipe avec un brocoli ou que les vaches pondent des œufs. Ce phénomène, bien que souvent involontaire, soulève de vraies questions sur l’utilisation de l’IA dans des contextes sensibles comme l’éducation, la santé ou la recherche.

Pourquoi les modèles hallucinent-ils ?

Les hallucinations de l’IA s’expliquent par le mode de fonctionnement des modèles : ils prédisent les mots en se basant sur des bases de données massives. Si ces données sont biaisées, erronées ou incomplètes, les réponses peuvent être déconnectées de la réalité. Un modèle peut alors « inventer » une information pour combler les lacunes, ce qui peut nuire à la confiance des utilisateurs.

Giskard et son benchmark Phare : une initiative cruciale

La startup française Giskard a récemment publié Phare, un benchmark conçu pour tester la sûreté des modèles de langage face aux hallucinations de l’IA. Ce projet, disponible sur leur site officiel, évalue notamment la précision, la robustesse, la résistance à la désinformation et l’usage sûr des outils externes.

Voici les quatre tests utilisés dans cette première phase du benchmark :

Test de précision factuelle : peut-on faire confiance à la réponse de l’IA ?
Test de résistance à l’ambiguïté : le modèle évite-t-il les spéculations ?
Test de détection de théories complotistes : est-il capable de démystifier ?
Test d’interaction avec des outils externes : préfère-t-il deviner ou demander des infos manquantes ?

Classement des modèles les plus fiables face aux hallucinations

Les résultats du benchmark sont sans appel : tous les modèles ne se valent pas. Le ton de l’utilisateur, la longueur de la réponse demandée ou encore la formulation de la question influencent largement les performances des IA.

Top 5 des modèles les plus résistants aux hallucinations :

Claude 3.7 Sonnet — 86 % de précision (source)
Claude 3.5 Sonnet — 81 %
Claude 3.5 Haiku — 72 %
Llama 3.1 405B — 71 %
Gemini 1.5 Pro — 64 % (source)

En bas de classement, on retrouve notamment :

GPT-4o mini — 45 % (OpenAI – GPT-4o)
Gemma 3 27B — 41 %
Grok 2 — 34 %

Selon Giskard, les modèles réagissent plus mal lorsqu’on leur demande une réponse concise, ce qui dégrade fortement leur performance.

Pourquoi ce benchmark est essentiel pour l’avenir de l’IA

Avec la démocratisation de l’IA dans les moteurs de recherche, les assistants vocaux ou les outils de productivité, les hallucinations de l’IA représentent un enjeu critique. L’initiative de Giskard contribue à une meilleure transparence et à l’identification des risques dans l’usage des LLM. Le reste du benchmark Phare traitera bientôt de la nocivité, des préjugés et de la vulnérabilité aux abus.

Pour consulter le benchmark en entier, rendez-vous sur le site de Giskard.

Les hallucinations de l’IA : un défi majeur révélé par le benchmark de Giskard

Comprendre le phénomène des hallucinations de l’IA

Pourquoi les modèles hallucinent-ils ?

Giskard et son benchmark Phare : une initiative cruciale

Classement des modèles les plus fiables face aux hallucinations

Pourquoi ce benchmark est essentiel pour l’avenir de l’IA

Ikigai

Next Post

Chatbot Arena : le TripAdvisor des IA ?

Tester Jules : l’IA codeur de Google

Quels sont les modèles de hallucinations les moins fiables ?

Les hallucinations de l’IA : un défi majeur révélé par le benchmark de Giskard

Comprendre le phénomène des hallucinations de l’IA

Pourquoi les modèles hallucinent-ils ?

Giskard et son benchmark Phare : une initiative cruciale

Classement des modèles les plus fiables face aux hallucinations

Pourquoi ce benchmark est essentiel pour l’avenir de l’IA

Ikigai

Next Post

Related Posts

Chatbot Arena : le TripAdvisor des IA ?

Tester Jules : l’IA codeur de Google