Le content spinning, l’ancètre de la génération automatique de textes

florence le votJe me présente tout d’abord : je m’appelle Florence Le Vot et j’ai fondé l’agence web & SEO RaDiance Conseil en 2002. Je suis également partenaire et responsable du volet SEO au sein d’un start-up studio et j’interviens également en tant que consultante SEO pour un certain nombre d’acteurs du web.

Le content spinning : une technique totalement dépassée en 2019 !

Les responsables de Google ont affirmé publiquement qu’il n’y avait pas de pénalité pour cause de contenu dupliqué. On peut notamment citer Andrey Lipattsev, Search Quality Senior Strategist chez Google, qui l’affirmait dans une vidéo en juin 2016. On est donc tentés de le croire. Mais les observations que l’on peut faire sont pourtant en contradiction avec cette affirmation. À moins que nous n’ayons pas la même définition du mot « pénalité » ? En effet, lorsque Google trouve plusieurs pages qui ont un certain niveau de similarité, il est amené à faire quelques choix parmi lesquels :

  • N’en indexer qu’une ;
  • Indexer les pages évaluées comme trop proches dans un index secondaire, qui n’est pas affiché spontanément par le moteur (les « pages similaires ») ;
  • Mal classer ces pages ou la plupart d’entre elles.

 

Dans tous les cas, il y a une forme évidente de pénalité. C’est particulièrement frappant lorsqu’on traite le problème de near-duplicate au sein d’un même site : une fois les problèmes résolus, les classements et le trafic décollent :

Comment peut-on traiter ces problèmes de near-duplicate ?

Certains l’ont traité en réécrivant une partie des articles. Mais dès que l’on a plusieurs centaines voire plusieurs milliers de pages, ça devient inenvisageable. Surtout s’il s’agit d’un catalogue de produits amené à subir des mises à jour fréquentes.

Certains se sont alors tournés vers la technique du content spinning. Malgré son intérêt, cette technique a parfois mauvaise presse. On l’associe à du contenu illisible, on la classe dans l’éventail des techniques black-hat, on rappelle régulièrement que le content spinning est contraire aux guidelines de Google. Faisons la part du vrai et du faux dans tout cela :

  • La technique du content spinning est effectivement une technique rédactionnelle black-hat, dans la mesure où elle vise à produire un maximum de variations à partir d’un texte-source. Soyons honnêtes : cela n’apporte aucune plus-value aux internautes. Le but recherché c’est d’amener les moteurs de recherche à penser qu’il s’agit de textes suffisamment différents pour que ça vaille le coup de tous les indexer et de leur donner la même chance de bien se positionner qu’une page dont le contenu aurait été rédigé à la main. La GAT (Génération Automatique de Textes) fait la même chose certes, mais elle le fait beaucoup mieux. Nous verrons comment un peu plus loin. On peut également classer dans l’éventail des techniques black-hat la production d’articles SEO sans grand intérêt pour les internautes, dont le seul but est de positionner une page sur un groupe de mots-clés donnés ou de placer des liens vers des sites que l’on veut pousser. Mais le fait est que ces techniques donnent de très bons résultats, aujourd’hui encore, et depuis aussi loin que je travaille dans le SEO, c’est-à-dire depuis 17 ans.
  • Le contenu généré par un spin peut effectivement être illisible s’il a été produit de manière automatique, en remplaçant des mots par des synonymes. Il y a évidemment différents niveaux de qualité en matière de content spinning mais en dehors de ce que fait SPINWAVE, j’ai surtout vu des choses allant du très mauvais au très moyen. Pour atteindre un tel niveau de qualité, nous avons tout d’abord recruté des rédacteurs de haut niveau (tous les rédacteurs ont des diplômes de type Master I ou II dans des matières comme les Lettres Modernes, les Lettres Françaises Appliquées, la Linguistique ou l’Informatique Linguistique). Nous avons ensuite réfléchi à la manière de produire des textes d’une qualité correcte avec le maximum de variations à tous les niveaux : groupes de mots, phrases, groupes de phrases, paragraphes, sections. À partir de cette réflexion, nous avons développé des outils qui n’existent nulle part ailleurs. Et des méthodologies qui ont permis de renforcer la qualité et la performance de nos spins.

Le content spinning complètement dépassé par la puissance de la GAT

Mais le content spinning est totalement dépassé par la GAT (Génération Automatique de Textes) aujourd’hui. L’apport croisé de l’IA (Intelligence Artificielle), du deep learning et de la data-science permet d’aller bien plus loin et bien plus vite que ce que produisent laborieusement des rédacteurs en alignant des accolades et des pipelines.

Comment fonctionne la génération automatique de textes chez SPINWAVE ?

Il faut tout d’abord savoir qu’il y a une rédactrice ou un rédacteur aux commandes. Préférentiellement un·e linguiste, d’ailleurs. Un·e linguiste possède une connaissance technique du langage, de ses rouages, de la multitude de règles qui régissent le français en particulier, de toutes les possibilités qui permettent de produire des sens proches avec des tournures et des mots différents.

La ou le linguiste en charge du projet s’appuie sur notre outil de GAT pour générer toutes les possibilités de construction de phrases permises par la langue française. Il les visualise et décoche celles qui ne conviendraient pas au contexte. La démarche est beaucoup plus efficace qu’en content spinning, où le rédacteur doit se creuser la tête pour chercher des variantes de phrases puis les rédiger une à une, en oubliant la moitié quand ce n’est pas les trois quarts des variantes possibles. Nos tests nous ont permis de mesurer la différence entre le nombre moyen de tournures que trouve un rédacteur au bout d’une demi-heure et le nombre moyen de tournures que trouve notre système en 3 minutes, à partir de 50 phrases de 10 à 20 mots. Le rapport varie de 1:5 à 1:15 selon les phrases et selon les rédacteurs. C’est-à-dire qu’à partir d’une phrase d’origine pour laquelle un excellent rédacteur va trouver 10 tournures différentes en se creusant la tête pendant 30 minutes, notre système en génère entre 50 et 150 en 3 minutes. Et on n’a pas encore commencé à créer de variantes au sein de toutes ces tournures, avec des synonymes ou des groupes de mots.

Le 2ème avantage de notre système de GAT c’est l’approche probabiliste, par la science des données. Le système propose à la linguiste ou au linguiste chargé du projet de multiples insertions au sein des phrases, pour en maximiser la diversité. Là aussi, le rédacteur-linguiste n’a pas à se creuser la tête pour ne trouver qu’une petite partie des variations qui pourrait surgir de son cerveau sur le moment, en fonction de son inspiration ou de sa fatigue : le système les trouve toutes. Par exemple :

  • J’adore aller me promener sur les marchés !
  • Qu’est-ce que j’adore aller me balader sur les marchés, pas toi ?
  • C’est un vrai plaisir d’aller se promener sur les marchés de bon matin !
  • C’est un tel plaisir pour moi d’aller me promener de bon matin sur les marchés !
  • Etc.

À partir de cette seule phrase, avant même d’avoir commencé à placer des synonymes, notre système a déjà trouvé 83 variantes différentes, par l’inclusion de certains éléments, l’inversion ou le remplacement de certains, etc. Et toutes ces phrases sont absolument irréprochables.

Grâce à ce travail prépondérant sur les tournures de phrase, notre solution travaille relativement peu sur les synonymes, contrairement à ce que font la plupart des spinneurs de contenu. Chez nous, ce travail est effectué de manière très sélective, pour éviter d’avoir des problèmes de sens ou des phrases aux tournures maladroites. Au sein de la phrase qui nous sert d’exemple, nous avons 3 groupes signifiants à la base : « j’adore », « me promener » et « les marchés ». L’outil de GAT en ajoute quelques-uns au passage : « tellement » et « de bon matin », par exemple, qui auront eux aussi des synonymes. À partir de la phrase indiquée juste au-dessus en exemple, on arrive à produire 57’104 variations absolument irréprochables grâce à tous les mécanismes combinatoires que l’on déploie.

Vous comprenez aisément qu’aucun rédacteur ne peut arriver à cette performance. Même si on lui en donne le temps. Et encore moins lorsqu’il s’agit de produire au final des articles de plusieurs dizaines de phrases et plusieurs centaines de mots.

Il y a ensuite la correction automatique des fautes : fautes d’orthographe, fautes d’accord, fautes de conjugaison ou de grammaire, élisions, problèmes de ponctuation… Avec autant de variantes produites, cette tâche ne peut pas être traitée par un être humain. Sur cet aspect là également, le content spinning est totalement dépassé. Et le coup de grâce, c’est ce qui va suivre…

Parlons de l’ajustement et de la personnalisation des narrations.

Si l’on dispose de variables (les caractéristiques techniques d’un produit, par exemple), on peut alors ajouter un ensemble de règles à partir desquelles on  va pouvoir créer des arbres de décision multiniveaux. Imaginons que nous devions décrire des bateaux. En fonction de leurs dimensions et d’autres caractéristiques, nous allons pouvoir adapter les termes utilisés pour les décrire : une petite embarcation, une barque, un bateau, un voilier, un catamaran, un trimaran, un yacht.  Mais nous pourrons également adapter le discours :

  • Cette petite embarcation vous permettra d’aller pêcher seul ou avec un ami.
  • Cette barque vous permettra d’accueillir confortablement 3 autres personnes.
  • Ce bateau vous permettra de faire de belles virées en mer, en famille ou avec des amis !
  • À vous les joies de la navigation avec ce superbe voilier !
  • Ce catamaran sportif vous donnera de belles sensations.
  • Ce trimaran habitable est tout à fait adapté à de longs séjours. Avec lui, vous pourrez faire le tour du monde si cela vous chante.

Conclusions

On voit clairement, à partir de ces exemples, que les caractéristiques du produit sont exploitées intelligemment pour produire des narrations à la fois personnalisées, pertinentes et diversifiées. En guise de conclusion, posons-nous ces quelques questions :

  • Que préfèrent les internautes ? Lire des caractéristiques brutes, ou des textes générés de manière intelligente à partir de ces données ?
  • D’un point de vue SEO et sémantique, qu’est-ce qui est le plus riche ? Des données brutes ou des textes chargés de termes et de cooccurrences ?
  • Au niveau des taux de conversion, qu’est-ce qui donne les meilleurs résultats ? Des données brutes ou des textes qui permettent à l’internaute de se projeter dans l’expérience et les bénéfices qu’il pourra retirer du produit ?
  • Si tant est qu’il soit humainement possible d’en produire autant en si peu de temps, en quoi des textes produits manuellement, un par un, seraient-ils meilleurs qu’avec notre solution ?
POUR NOUS CONTACTER
12 rue de Harcet - 64200 BIARRITZ
Tél. : 0805-69-29-89 (appel gratuit)
Merci ! Nous vous recontacterons au plus vite.
POUR NOUS CONTACTER
12 rue de Harcet - 64200 BIARRITZ
Tél. : 0805-69-29-89 (appel gratuit)
Merci ! Nous vous recontacterons au plus vite.