Pendant deux décennies, les rédacteurs web ont appris à construire leurs articles comme des romans. Une introduction qui pose le contexte, des insights progressivement dévoilés, une conclusion qui synthétise. Ce modèle narratif a longtemps fonctionné pour retenir l’attention humaine.
Les données suggèrent qu’il est mal adapté aux systèmes d’IA.
Une analyse publiée sur Search Engine Journal portant sur 1,2 million de résultats de recherche et de réponses ChatGPT a identifié des patterns précis sur la façon dont l’IA sélectionne et cite les contenus. Les résultats remettent en question plusieurs habitudes rédactionnelles bien ancrées.
L’IA lit comme un journaliste de presse quotidienne, pas comme un lecteur
Le premier enseignement de cette analyse concerne la distribution des citations dans un article. Le phénomène observé, appelé “ski ramp” dans l’étude originale, est statistiquement très solide : P-Value de 0,0, ce qui signifie que le pattern est reproductible et non attribuable au hasard.
Voici la répartition constatée sur 18 012 citations analysées :
44,2 % des citations proviennent du premier tiers du contenu. 31,1 % viennent de la partie centrale. 24,7 % sont extraites de la conclusion ou du résumé final.
L’IA attribue donc une attention disproportionnée au début du texte.
Deux explications sont avancées. D’une part, les modèles de langage ont été entraînés massivement sur des formats journalistiques et académiques qui placent l’information principale en tête (ce que les journalistes anglophones appellent le BLUF, Bottom Line Up Front). D’autre part, les modèles cherchent à établir un cadre interprétatif le plus tôt possible pour traiter le reste du texte de façon cohérente.
À noter que l’IA ne se contente pas de lire la première phrase de chaque paragraphe. Une analyse plus granulaire sur 1 000 contenus très cités montre que 53 % des citations proviennent du milieu d’un paragraphe. L’IA recherche la phrase qui contient le plus d’information utile, quel que soit son emplacement dans le paragraphe. Ce qui compte, c’est d’être dans les premiers 20 % de la page.
Lire Aussi : Citations dans les IA génératives : ce que vous devez savoir
5 caractéristiques du contenu qui se fait citer
Au-delà de la position, l’analyse a identifié cinq attributs linguistiques qui augmentent significativement les probabilités d’être cité.
1. Un langage affirmatif et précis
Les contenus cités utilisent environ 2 fois plus de formulations définitoires (“est défini comme”, “désigne”, “correspond à”) que les contenus ignorés : 36,2 % contre 20,2 %. L’IA fonctionne avec des bases vectorielles où le verbe “être” crée un lien fort entre un sujet et sa définition. Une phrase de type “X est Y” répond directement à une requête de type “Qu’est-ce que X ?”, ce qui réduit ce que les spécialistes appellent la perplexité du modèle.
En pratique, évitez les introductions contextuelles vagues du type “Dans un monde où le numérique prend de plus en plus de place…”. Préférez : “Le SEO programmatique est une méthode qui consiste à…”.
2. Une structure question/réponse
Les contenus cités sont deux 2 plus susceptibles de contenir un point d’interrogation (18 % contre 8,9 %). Et 78,4 % de ces citations avec questions proviennent des titres H2 ou H3, immédiatement suivis d’une réponse directe.
L’IA traite votre titre de section comme une requête utilisateur et le paragraphe suivant comme la réponse générée. Un H2 formulé comme “Quand le référencement naturel est-il apparu ?” suivi d’une réponse commençant par “Le SEO est apparu…” sera bien plus citable qu’un H2 générique “Histoire du SEO” suivi d’un texte narratif.
Ce phénomène d’écho entre la question et la première entité de la réponse joue un rôle important dans la sélection par l’IA.
3. Une densité élevée en entités nommées
Un texte standard contient entre 5 et 8 % d’entités nommées (noms de marques, d’outils, de personnes, de lieux). Les contenus fortement cités affichent une densité de 20,6 %.
La raison est qu’une entité nommée ancre l’information. “Il existe de bons outils pour cette tâche” ne dit rien de vérifiable. “Parmi les outils les plus utilisés, on trouve Semrush, Ahrefs et SE Ranking” est une information que l’IA peut traiter et citer avec confiance.
Sur des sites comme blogdunumerique.com, on observe d’ailleurs que les articles comparatifs d’outils, riches en noms propres et références concrètes, génèrent souvent une forte visibilité dans les réponses des IA génératives.
N’hésitez pas à citer vos sources, vos outils de référence, et même vos concurrents si cela sert le propos.
4. Un ton équilibré entre fait et analyse
L’analyse a mesuré le score de subjectivité des contenus cités à l’aide d’un indicateur NLP standard allant de 0 (purement factuel) à 1 (purement subjectif). Les contenus les plus cités se situent autour de 0,47, soit un équilibre entre le constat factuel et l’interprétation analytique.
Un texte entièrement factuel et sec (score proche de 0) est moins cité qu’un texte qui présente un fait et explique ce qu’il implique. À l’inverse, un texte d’opinion pure (score proche de 1) ne trouve pas grâce aux yeux des modèles.
Le registre idéal est celui de l’analyste ou du journaliste spécialisé : un fait, ce qu’il signifie, pourquoi c’est pertinent.
5. Une écriture lisible, pas simpliste
Dernier point, et celui-là mérite attention : les contenus cités ont un niveau de complexité rédactionnelle légèrement inférieur aux contenus ignorés, mais pas de façon spectaculaire. L’IA ne favorise pas les textes rédigés pour des enfants. Elle préfère des structures syntaxiques claires, sujet/verbe/complément, sans jargon inutile ni phrases à rallonge.
En résumé, écrivez comme un bon article de presse spécialisée, pas comme une thèse de doctorat.
Lire Aussi : Comment empêcher Google d’utiliser vos photos pour entraîner ses modèles
Ce que vous devriez changer dans votre façon de rédiger
Ces données ont des implications directes sur la façon de structurer un article si vous voulez être visible dans les réponses des IA génératives, et par extension dans les nouvelles interfaces de recherche qui s’appuient dessus.
Placez votre information principale dans les premiers paragraphes. Ne gardez pas la conclusion pour la fin. Formulez vos titres de sections comme des questions réelles que vos lecteurs posent. Nommez les outils, les marques, les personnes et les chiffres dès que possible. Adoptez un registre analytique plutôt que narratif ou purement académique.
Ce n’est pas une révolution rédactionnelle. C’est un retour à des principes journalistiques que le SEO avait parfois mis de côté au profit de techniques destinées à prolonger le temps passé sur la page. L’ère de l’IA remet la clarté au centre.
