Profil et résultats de recherche : réflexion sur la possibilité de reverse-engineering du PageRank dans le contexte du marketing ciblé
Par Mathieu le dimanche 12 janvier 2014, 23:32 - Informatique - Lien permanent
Si vous avez lu mon billet précédent, vous savez que la mesure d’audience utilise les cookies.
Il y a quelques jours, dans une conversation par mail à propos du référencement, je me suis souvenu de l’effet du « filter bubble » (voir aussi), c’est à dire que les résultats de recherche sont personnalisés en fonction de votre profil marketing, et le profil est directement construit à partir des outils de mesure d’audience.
Mais alors, comment faire du reverse-engineering sur les réponses des moteurs de recherche, pour comprendre les leviers permettant de positionner son contenu dans le bon profil marketing (“top keywords”, etc) ? Pour pouvoir faire ses expérimentations, il faut acheter des profils “tout prêts”, ou en construire un.
Note après relecture : En y repensant, je me suis dit qu’avec cet article j’étais en train de construire quelque chose de similaire au « nettoyeur » de la nouvelle intitulée « Scroogled », écrit par Cory Doctorow (voir le lien en fin d’article).
La construction d’un profil, comment ça marche ?
À la base de tout profil marketing sur Internet, il y a les cookies. Les cookies sont des informations au format texte qui sont stockées sur votre ordinateur lorsque vous visitez un site.
Les plate-formes marketing utilisent des services gratuit d’analyse d’audience (Xiti, Google Analytics…), de publicités (DoubleClick…), ou de réseaux sociaux (Facebook, Twitter…) pour collecter des informations sur la navigation des internautes, et lier un identifiant, stocké dans un cookie, à un profil de consommateur stocké sur leur serveur.
Étape 1 : Création de l’identifiant unique de suivi
Lors de la première rencontre entre l’utilisateur et le système de suivi marketing, un identifiant unique d’utilisateur est créé, et envoyé dans un cookie pour y être enregistré.
Étape 2 : Reconnaissance de l’utilisateur, enrichissement de la base de données
Une fois que le cookie contenant l’identifiant de suivi est placé dans l’ordinateur de l’utilisateur, celui-ci va être envoyé chaque fois que le système de suivi en fera la demande, même en consultant un autre site.
Premières difficultés…
Mais il y a plusieurs types de cookies : il y a les cookies “simples” qui peuvent être déclarés aussi bien depuis le Javascript que les entêtes HTTP, et il y a les autres, tous les autres. À savoir :
- Les cookies Flash
- Les cookies des applets Java
- Les “super cookies” HTML5
- Ce que vous n’avez jamais imaginé.
Construire un profil marketing signifierai pouvoir tracer, aspirer, et réinjecter tous ces cookies d’un navigateur à l’autre après la construction du profil.
Pour mimer totalement le comportement d’un utilisateur, il faudrait d’utiliser une “macro” qui cliquerait dans une vraie fenêtre de navigateur, et qui exporterai ensuite les fichiers de profil du navigateur (historique, cookies, cache, etc). La complétion du profil ne ferait alors aucun doute, mais celui-ci risque d’être assez volumineux et peu pratique à manipuler par la suite. De plus, les solutions de clic automatique (“macros”) ont leurs limites, quoi que vous fassiez, il vous faudra certainement créer vos profils à la main.
Autre limite : une fois le profil construit, commencer à l’étudier c’est aussi commencer à l’abîmer. En effet, réaliser des requêtes qui ne collent pas tout à fait au profil va avoir pour effet un recentrage du profil par les régies tout au long des requêtes, pour finalement arriver à un profil différent de celui qu’on a construit. Les requêtes sont vraiment dans ce cas du “one shot”. Comme en physique quantique, on ne pourra pas connaître l’état du système avant de l’avoir mesuré, et en le mesurant on l’aura détruit.
Comment construire un profil marketing ?
Les outils
Pour pouvoir construire de toute pièce un profil il nous faut :
- Un navigateur web que l’on peut scripter facilement : Firefox
ou Chrome. Non, oubliez Chrome, son API de script ne permet pas de bloquer des ressources avant le chargement des pages, ce qui rend l’exécution des filtres de régie non fiables. - Une connexion internet la plus classique possible : pas de serveur ou de centre de calcul, une IP classique, localisée dans le pays ciblé pour l’étude.
- Une idée du profil à construire : requêtes, durées de connexion, clics à effectuer, etc.
Approche brute
L’approche brute consiste à construire un profil en ne mimant que les données de clic de l’utilisateur. Principalement, elle se distingue de l’approche connectée par son absence d’utilisation des réseaux sociaux. Cela inclut aussi un blocage systématique de tous les mécanismes intégrés par ces réseau sociaux, qui traquent les utilisateurs, même lorsqu’ils ne sont pas membres.
C’est donc plus qu’une approche non-connectée, c’est pour cela que je ‘appelle l’approche brute. On ne va donc cibler que certaines régies marketing, et seulement celles-ci.
Il est nécessaire de partir d’un profil de navigateur vide, puis de configurer le logiciel de clic automatique avec des requêtes et des comportement prédéfinis. Le navigateur sur lequel sera exécuté la macro devra avoir un bloqueur sélectif de contenu installé, pour bloquer les régies tierces, et ne se faire suivre que par les régies que l’on souhaite. Je déconseille la mise en place d’un “Do-not-track”, cette seule information pouvant servir à identifier l’utilisateur sur un profil particulier (“utilisateur éduqué à internet cherchant à se « protéger des malwares »”), et pouvant changer les résultats construits après un partage de données entre régies.
Le blocage des régies tierces se fera donc via un filtre AdblockPlus spécialement créé, ou les projets Ghostery/Disconnect, correctement configurés eux aussi.
Approche “connectée”
L’approche connectée fait une utilisation totale de l’interconnexion des régies. Tout d’abord on va s’inscrire sur les réseaux sociaux pour identifier précisément son “personnage”, puis laisser les réseaux sociaux connectés lors de la navigation.
De cette manière, le croisement des informations du profil avec les informations collectées lors des clics de l’utilisateur pourra se faire, et la simulation du profil sera parfaite.
Limites
Il est très difficile de construire un profil cohérent « à partir de rien » : il faut avoir à la base une idée des requêtes à effectuer et du comportement de l’utilisateur, ce qui biaise l’étude puisqu’elle se basera sur un profil construit à partir de nos propres préjugés, et non pas sur la réalité.
De plus, lors de la création d’un profil pour l’approche connectée peut prendre énormément de temps, et n’est pas toujours possible automatiquement (les réseaux sociaux se protègent contre les robots).
Utilisez des profils existants !
Et si la solution la plus simple était tout simplement la meilleure ? Pourquoi s’embêter à construire des profils quand on peut utiliser ceux que construisent les internautes eux-mêmes ?
Avec un peu de persuasion, on peut « emprunter » les cookies d’un ami ou d’un proche, afin de tester ses requêtes directement à partir du profil qu’il a construit !
Sauvegarde du profil de navigateur
Le mode le plus simple pour récupérer à coup sûr tous les cookies d’un internaute c’est enregistrer le profil navigateur, qui inclut cookies, cache, mots de passe, favoris, et historique.
Évidemment, parfois ce n’est pas possible pour des raisons diplomatiques, mais lorsque c’est possible, c’est toujours la le meilleur moyen de s’assurer une complétude des données de base.
La procédure pour y parvenir dépend du navigateur de l’internaute à qui on emprunte ses cookies :
Sauvegarde sélective
La sauvegarde sélective consiste, comme son nom l’indique, à sélectionner les cookies traceurs, et à n’exporter que ceux-ci.
Cela permet d’avoir facilement des informations cohérentes, sans avoir à exporter tout le profil, cache et historique compris.
Identifier les cookies traceurs
L’identification des cookies traceur peut être un problème en soi. Ce n’est plus le cas depuis que les projets comme Ghostery/Disconnect existent : ces derniers énumèrent dans leur code source l’ensemble des cookies et webbugs nécessaires au tracking, triés par régie !
Aspirer tous les cookies
Aspire les cookies est le point délicat, puisque la procédure dépend de quel navigateur est utilisé. Il pourrait être utile de faire une extension pour navigateur, afin de pouvoir exporter et importer facilement les cookies désirés.
Réinjecter les cookies aspirés dans un profil vide
Là encore, une extension pourra faire l’affaire, car la procédure manuelle risque d’être fastidieuse et varie d’un navigateur à l’autre.
Conclusion
Nous avons vu qu’il était en théorie possible de construire un profil marketing pour faire du reverse engineering sur les résultats personnalisés en fonction du profil d’un utilisateur.
Nous avons vu qu’il était quand même plus simple, de récupérer les cookies d’un utilisateur donné, à condition qu’il soit d’accord.
Les données de profil nous suivent de plus en plus. Des téléphones aux navigateurs internet, les données collectées sur les utilisateurs n’ont jamais été aussi nombreuses, jusqu’à en devenir invasives. Ces données, d’une précision jamais égalée, commencent petit à petit à devenir ce qui nous définit en ligne, plus que notre nom ou notre pseudo. Et si un jour on pouvait vendre son profil marketing comme on vendrait une fausse carte d’identité ? Pour aller plus loin, je vous invite à lire la nouvelle Srooggled de Cory Doctorow.