WordCamp Marseille 2017

Nous avons la chance d’avoir été sélectionné parmis les orateurs du WordCamp Marseille de 2017

Francois interviendra pour présenter notre plugin WP Search Console qui utilise l’API de notre crawler Mitambo.

Nous aurons l’occasion de parler SEO et WordPress sous un angle différent en illustrant comment nos analyses sémantiques aident les auteurs à mieux écrire pour le référencement.

Le résultat est une optimisation massive et rapide que peu de techniques/méthodologies peuvent apporter.

Le ticket reste a un prix démocratique de 20 euros pour la journée.

Les copains qui seront là

Nous aurons le plaisir de retrouver plusieurs experts avec lesquels nous avons déjà travaillé comme

Sans compter d’autres copains qui seront dans la salle comme Stéphane Briot.

Extension Chrome: SEO SERP | INSTANT RANK TRACKER

Nous avons corrigé et republié une extension chrome SEO SERP | INSTANT RANK TRACKER utile pour trouver rapidement le classement d’une page sur une requête donnée.

L’extension est particulièrement utile quand vous souhaitez optimiser le contenu d’une page.

Vous placez quelques mots pour composer une requête et un ou plusieurs domaines que vous souhaitez suivre

Vous gardez l’historique de vos recherches

L’historique des requêtes effectuées

Le tableau des positions pour l’ensemble de vos recherches


Télécharger l’extension SEO SERP ici

Data visualisation d’analyse sémantique – R&D chez Mitambo

Recherches dans notre device lab

Si vous suivez nos activités, vous savez certainement que nous travaillons la visibilité sémantique depuis plusieurs années.

Une des difficulté est d’arriver à comprendre son site dans son ensemble.

Ecrire un article et arriver à l’optimiser sur une petite variété de mots-clés c’est assez trivial !

Différents outils sont à votre disposition :

Avoir une visibilité plus large sur les « grappes » ou les « clusters » de thématiques qui se dégagent de votre site web est plus complexe.

Jusqu’ici il n’existait pas d’outil facilement accessible qui permettent de contrôler visuellement cette approche.

Data visualisation sémantique Interactive

Si vous regardez la vidéo ci-dessus, vous verrez une de nos approches qui est en cours d’étude.

Vous voulez réagir?

N’hésitez pas à utiliser les commentaires ci-dessous (s’ils sont encore ouverts)

Vous voulez obtenir suivre la progression de ce projet?

N’hésitez pas à vous inscrire sur la liste de notre plugin wordpress. La nouvelle version est en cours de développement. Vous pourrez (peut-être) faire partie de la première génération des testeurs.

Hacking de Mitambo.com : Mail Poet et OptimizePress 2.0

Voilà une petite semaine que nous avons coupé l’accès à plusieurs de nos sites web qui ont été hackés.

Ils étaient hébergés sur le même serveur.

La faille était le plugin Mail Poet. Une fonction dans un template admin permettait d’uploader un fichier sans contrôler le rôle utilisateur.

L’intrusion remonte au 8 juin 2014.

Nous n’avons pas remarqué tout de suite l’effraction et j’ai manqué de rigueur dans mes actions.

Les symptômes montrés sur différents sites hackés n’étaient pas présent chez nous.

  • Comme par exemple l’apparition d’un répertoire « /products/ » contenant 2 à 300 URLs statiques parlant de cialis, viagra, …
  • Ou encore la création d’un user admin 1001001 avec un pwd vide
  • Ou l’injection de code base64 dans les templates.

J’ai cherché ces symptômes.

Ils n’étaient pas là.

Je pensais être tranquille.

J’aurai du penser à faire une inspection plus sérieuse comme voir quels fichiers avaient été modifiés autour du 8 juin.

Autre erreur : avoir juste désactivé le plugin … plutôt que de l’effacer directement.

Ce qui est apparu chez nous était une redirection dynamique : des urls ont bien été enregistrées par Google. Et elles étaient interceptées directement. Elles renvoyaient le trafic vers un site pharmaceutique.

Notre aventure s’est passée en plusieurs temps.

Il y a une dizaine de jours nous avions reçu une alerte de Wordfence installé sur l’un des sites. Il nous a montré que le thème était vérolé avec des injections de code en base64.

Puis Pierre de Alouit Media nous a montré des URLs suspectes enregistrées par Google.

cialis-site_mitambo_com

viagra-mitambo_com

Des découvertes surprenantes

Nous avons commencé l’inspection en détail et plusieurs découvertes nous attendaient.

La première erreur a été de faire cette inspection sans agir tout de suite et changer les paramètres d’accès.

Mais dans notre naïveté, nous découvrions juste les intrusions.

Et nous cherchions à comprendre comment cette redirection pouvait fonctionner. Laissait-elle des des traces dans les logs? Est-ce que des .htaccess avaient été modifiés? …

Après 4 heures d’explorations et quelques nettoyages nous sommes allés dormir à peu près vers minuit.

Détail : à force de tester la redirection et d’arriver sur le site pharmaceutique, je me suis laissé tenté par le live chat et le robot derrière. Je lui ai dit ma façon de penser et que des sites comme les leurs méritaient d’être détruits.

Bref … nous sommes allé dormir sans penser à changer le nom user/pwd du compte mitambo.  En nous disant qu’on formatterait tout le serveur durant le week-end.

Le lendemain matin, surprise surprise :

  1. la redirection ne fonctionnait plus … premier sourire. youpee le hack a été coupé après nos premières actions
  2. en fait non …
  3. le bonheur fut de courte durée
  4. plus aucune page ne fonctionnait
  5. et même plus aucun des sites n’étaient accessibles
  6. WTF pour rester poli.

Donc pour résumer en descendant à la console, il n’y avait plus rien … plus de répertoire racine qui contenait tous les dossiers des sites.

Pfft.

Envolé,

Effacé.

Ennuyant mais pas catastrophique : des backups existaient.

La première idée qui m’est remontée est celle d’avoir parlé à la mafia.

Vous savez l’innocent qui va exprimer sa colère sur le service client du site pharma.

C’est un peu le gars qui voit les traces de pas du voleur.

Ces traces arrivent au café de la place.

Le gars les suit et il vient s’énnerver sur le gars assis à la terrasse.

Tu les menaces verbalement en lui disant ce que tu penses. 

Mais lui, comme dans les films, tranquille il te regarde et ne dit rien.

Tu repars chez toi. Et sur le chemin le mec te suit. Il te rattrape et il t’exécute sur place.

Là c’est pour l’histoire du mytho.

On aurait du se mettre en mode « parano » pour penser à changer TOUT DE SUITE le profil d’accès.

Et là le réveil ne fut pas très amusant.

Concrètement, je pense que ce(s) hacker(s) joue(nt) plutôt au rodéo hacking.

Plus sur le sujet en bas de l’article.

La cause de l’intrusion : MAIL POET

1,7 Mo de plugin Mail Poet ont été téléchargés depuis les archives wordpress..

Sucuri estime 30 à 50.000 le nb de site hackés.

50.000 sites x 300 pages statiques = 15.000.000 de liens, oui 15 million de liens créés massivement en quelques jours.

50.000 sites x  x autant de pages des sites « injectées » = 50.000.000 de liens injectés.

Vous situez un peu le niveau de ce genre d’actions?

Note: je me suis demandé si dans la spam team chez Google, ils avaient un super dashboard avec le top 100 des sites qui recevaient subitement le plus de backlinks.

Ce que j’ai trouvé bizarre par contre c’est qu’aucune demande de mises à jour du plugin MailPoet n’est remontée dans mes interfaces WP.

On est à la 2.6.9 … et le plugin vérolable est la 2.6.6. La correction a été publiée début juillet. Et durant 2 mois je n’ai pas vu les demandes de mises à jour.

C’est Sucuri qui a donné l’alerte et prévenu MailPoet.

En relisant les archives, je vois qu’ils n’ont pas été très éléguants. Ils avaient plus peur pour leur image de marque que de défendre l’intérêt de leurs utilisateurs/clients.

Il suffit de lire la lettre ouverte envoyée à Sucuri. Cela fait réfléchir …

Soit le(s) hacker(s) avai(en)t neutralisé les alertes de mises à jour. Ce qui me parait probable vu le nombre de scénarii mis en oeuvre sur les différentes actions commises. C’est un fichier à surveiller et il suffit de modifier quelques lettres.

Donc première conclusion … si vous pensez n’avoir « QUE » du code base64 dans vos templates … méfiez-vous : essayez de savoir comment il est arrivé là.

Car un hack peut en cacher un autre.

La deuxième faille découverte: Optimize Press 2.0

Jusqu’ici vous pouvez chercher sur le web, la 2° version de ce thème n’avait pas été hackée. Ou alors je n’ai pas trouvé les bonnes sources.

En fouillant dans l’ensemble des dossiers, j’ai découvert 2 applications :

Une en base64 à double encodage … dont je n’ai pas vu le code en clair.

Une deuxième application pour créer des attaques DDOS ( flood UDP).

Oui ma bonne dame, nous avions un serveur zombie à disposition qui a peut-être servi (à l’insu de notre plein gré) à aller raquetter un site e-commerce ou l’autre avec un flood intenpestif.

Ces fichiers étants cachés dans les répertoires « d’images boutons » générés par le thème.

Le soir avant la disparition des dossiers j’avais fait tourner le plugin SUCURI mais il n’avait détecté aucune erreur … alors que le dossier UPLOAD était bien infecté par plusieurs fichiers PHP.

Donc malin(s) le(s) gusse(s) qui n’est pas à son premier coup d’essai.

Je ne sais pas dire avec certitude si MAIL POET a servi de cheval de troie. Et qu’ensuite disposant d’un accès plus large, ils ont importés d’autres éléments.

Mais ce scénario semble fort probable.

Le Rodéo Hacking :

On imagine aisément la « valeur » de ce genre d’actions du point de vue des pirates. Ils vont donc protéger leur acquisition en résistant.

En lisant les archives de sucuri, je découvre que certains hackers monitorent carrément toutes les activités réalisées à leur encontre pour les neutraliser. Certainement pour piloter leurs actions et éviter de contacter des serveurs qui sont « tombés ».

C’est certainement ce qui a du se passer : nos différentes explorations, le nettoyage du code base64, l’activation de sucuri, des mises à jour sécurité de mailpoet, … ont du envoyer un rapport d’alertes.

Ce dernier a probablement déclenché l’action d’effacement.

La bonne surprise c’est que les dossiers n’avaient pas été effacés.

Le nom du dossier avait simplement été effacé. Et il n’apparaissait plus dans l’affichage des listings de répertoire.

On l’a découvert durant la période de re-formatting du serveur.

Même si nous avions des backups, c’était une bonne nouvelle.

Pour pouvoir continuer à fouiller les dossiers et regarder les scripts encore en place.

Repartir sur une nouvelle configuration

Nous sommes reparti from scratch pour reconfigurer tout le serveur en partant de la dernière version d’Apache.

Une nouvelle version du serveur

Une nouvelle config  du serveur apache 2.4 avec php-fpm en proxy/APC/mod_pagespeed beaucoup mieux sécurisé.

Chaque virtual host est maintenant complètement isolé des autres.

L’infection d’un host ne permettra plus de contaminer les autres.

Note: on avait cette configuration en place mais pas avec le niveau de sécurité suffisant

La configuration technique sera publiée ultérieurement si vous  êtes intérressés.

Une gestion de firewall, coupé l’accès FTP et passé tout en sFTP

Une procédure de backup automatique améliorée : on gardait 2 mois d’archives. On s’est rendu compte ici qu’on aurait pu avoir un soucis (que sur deux mois, la totalité des archives auraient pu infectées).

Tout cela fonctionne via des scripts shells avec une poussée d’une copie vers un service cloud.

Concrètement que pouvez-vous faire pour savoir si vous êtes infecté?

Installer Wordfence et Sucuri dans leur version gratuite

Faire tourner leurs scans d’audit.

Ils ne sont pas infaillibles … mais leur approche est structurée.

Suivre leurs recommandations pour renforcer (harden) les zones sensibles avec les droits appropriés sur les dossiers.

Protéger votre backend xml-rpc des attaques brutes forces (les tentatives de logins) en ayant vérifié :

  1. Que vous n’avez aucun utilisateur qui dispose d’un identifiant « admin » ou « www.mondomaine.com » ou « domaine » ou « domaine.com »
  2. Que votre nom d’auteur affiché sur vos articles ne correspond pas à votre ID d’accès (voir les paramètres sur votre page profil).

Installer un plugin de backup et automatiser vos sauvegardes (sauf si comme nous vous pouvez automatiser cela directement depuis le serveur).

Une sauvegarde sur le serveur mais surtout sur un espace tiers : votre compte dropbox, un hébergement dans le cloud, … Si votre serveur prenait l’eau vous auriez tout perdu.

Encore mieux une solution payante comme VaultPress qui vous sauvegarde le contenu dans 3 endroits, vous ré-active une version en 1 clic.

Notez que Automattic (société derrière WordPress, Vaultpress, …) vient de racheter une application de sécurisation. Elle sera bientôt disponible contre un abonnement dans le JetPack.

Vous avez été infecté?

Il est vivement recommandé de refaire votre installation wordpress depuis une version clean.

Idem pour tous vos plugins => il faut effacer les anciens dossiers et les ré-installer. Sucuri propose une action pour forcer la mise à jour.

Vérifiez bien votre dossier /uploads/

Passez en revue toutes vos images pour voir si une extension .PNG ne serait pas en fait un script PHP déguisé. (et tt les extensions comme un wp-config.bak ou .tmp …)

La solution de tranquilité?

Faire appels aux services d’un professionnel spécialisé en sécurité.

Vous pouvez contacter Julio Pottier (que je ne connais pas mais que Fabrice Ducarme connait bien). Ou encore faire appel à des sociétés comme Sucuri ou WordFence.

Quelle aventure, non?

Fabrice Ducarme (WP Formation) sur l’intérêt de l’approche Mitambo

Qui est Fabrice Ducarme?

fabrice-ducarmeFabrice est formateur certifié. Il propose des formations en mode présentiel sur le CMS WordPress.

Il est intervient au WordCamp Paris et d’autres conférences liées à WordPress.

On peut dire sans exagérer qu’il est une des personnalités de la planète WordPress France.

Vous pouvez découvrir ses programmes de formations sur WP Formation.com

Historiquement, François avait prit contact avec Fabrice à l’annonce d’un soucis rencontré avec les animaux du zoo de Google qui lui avait fait perdre classements et visiteurs.

Après une intervention « énergique » de Fabrice (la situation était grave) et quelques conseils de votre serviteur (conseils puisés sur les recommandations de notre application sémantique Mitambo), son site est reparti à l’assaut de sa thématique wordpress.

En une petite année, WPFormation c’est imposé comme une destination incontournable dans la majorité des recherches liées à WordPress.

Fabrice avait sorti un article racontant notre collaboration : ‘Mitambo Dresseur de Pingouin‘. Un article qui avait généré un nombre  assez important de demandes d’aides mais souvent farfelues ou incohérentes.

Fabrice, un expert à recommander?

Comme plusieurs personnes avec qui nous travaillons depuis quelques mois/années, Fabrice est une personne que nous recommandons pour plusieurs thématiques liées à WordPress et à la mise en oeuvre Woocommerce pour laquelle il a déjà une bonne expérience.

Les places sont rares dans son emploi du temps, donc si vous tombez dans une bonne période pour travailler avec lui, ne ratez pas le coche !

De Futures Collaborations entre Mitambo et WPFormation?

Oui il en est question pour intégrer notre méthodologie de travail dans un plan de formation sur WordPress. Oui car la formation WordPressPro de Fabrice intègre une partie des concepts intégrés dans notre application Mitambo Crawler.

Mais ce n’est encore qu’une rumeur … et vous savez ce que sont les rumeurs sur le web 😉 Ce n’est plus une rumeur.

Contact Rapide

N'hésitez pas à prendre contact avec nous. Nous vous répondons rapidement.
  • Indiquez nous le site web pour lequel vous souhaitez une aide (un audit, un conseil, un accompagnement, ...)
  • Aidez nous en décrivant votre contexte (vous pensez être victime de panda ou penguin, vous n'avez pas le trafic souhaité, vous perdez du trafic de façon inexplicable, ...).
  • Pouvez-vous nous donner une fourchette du budget à votre disposition pour améliorer votre site?
  • Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Comment réussir la migration de son site web?

Glacier nps

Comment préparer un travail de migration de site web et mettre toutes les garanties de son coté?

Autrement dit comment réussir la migration d’un projet entre deux versions de votre site web?

Vous avez déjà certainement vécu cette expérience douloureuse !

Lors de la mise à jour importante de votre site:

  • vous avez changé le thème,
  • vous avez repensé tout le design
  • et même l’architecture de contenu,
  • vous avez ré-organisé la structure du site.

Et une catastrophe de la migration du site s’est produite : sans savoir pourquoi (au début) :

  • des visiteurs n’ont plus trouvé certaines pages
  • (et les robots aussi),
  • des pages ont perdu des positions,
  • d’autres ne sont plus indexées, etc.

Conclusion: votre trafic a diminué radicalement. Vous avez du parer au plus urgent.

Dans ce type d’aventure malheureuse, le travail réalisé pour la refonte de votre site oublie une étape préparatoire importante: l’inventaire et l’importance des ressources perçues par les moteurs de recherche.

C’est une erreur qui se produit souvent :

  1. vous êtes pressés,
  2. les délais de travail sont très courts,
  3. vous n’avez pas un budget important à consacrer au projet,
  4. votre prestataire vous accompagne il va penser à tout,

Sur base de notre expérience dans l’accompagnement de clients, nous vous présentons ici une structure détaillée sur la manière dont nous procédons et nous conseillons nos partenaires, pour éviter les inconvénients de ces accidents de migration de site.

Et si nous oublions des éléments qui vous semblent critiques, profitez des commentaires pour nous apporter votre retour expérience.

Dans les évolutions d’un site, il y a plusieurs cas de figures que nous rencontrons régulièrement :

  1. le site qui s’est « choppé » une pénalité google
  2. le site qui a vécu sur des pratiques désuètes (backlinking spamco la fête c’est tout automatisé)
  3. le money site entouré d’un réseau plus ou moins important de domaines « amis » qui ont pris du plomb dans l’aile
  4. le nouveau site qui fait table rase du passé

Définir la valeur de l’héritage de votre site web comme garantie pour réussir la migration de son domaine!

À la décision de mise à jour d’un site, il n’y a pas toujours une conscience claire de la valeur des contenus existants.

  1. Soit parce que l’agence web n’a pas une culture « à jour » sur les bonnes pratiques pour les moteurs de recherches,
  2. Soit parce que l’éditeur du site veut des résultats sans vouloir/pouvoir comprendre les concepts clés (perception sémantique, autorité, popularité, …).

L’éditeur du site est de bonne volonté mais il ne met pas les priorités dans le bon ordre de bataille : il veut mettre à jour son image de marque, il souhaite suivre l’évolution technologique (un thème responsive design pour servir tablettes et smartphones), il doit suivre l’évolution de son offre commerciale, il veut améliorer la conversion sur ses ventes, …

La table rase n’est pas bonne conseillère pour le SEO.

Nous voyons régulièrement des équipes repartir d’une feuille blanche.

Ce qui est pratique pour formuler les nouveaux besoins mais sans trop savoir comment gérer l’héritage de l’ancien site web.

Comment savoir ce qui doit-être préservé et comment il faudra reconstruire les éléments clés sur ces contenus (perception sémantique, autorité, …)? D’ailleurs c’est quoi tout ces concepts … faut-il vraiment y croire?

De façon générale le fonctionnement des moteurs de recherches n’est pas facilement compréhensible ou parfois trop vite simplifié.

La question de la migration des contenus est reportée à plus tard. Qu’allons-nous garder? Qu’allons-nous ré-écrire? Pourquoi? Comment? Qui va le faire?

La question du référencement est dans 90% des cas reportée à plus tard (on fera cela après le lancement du site ou elle sera réglée par un consultant externe, etc ).

L’après lancement dans ma migration d’un site est souvent compliqué à gérer car les priorités des décideurs se portent ailleurs.

  1. Les équipes de dev ne sont plus toujours disponibles pour apporter des améliorations.
  2. Souvent elles sont mobilisées sur de nouveaux projets.
  3. Et les temps d’interventions seront plus longs à obtenir.
  4. Et long cela peut vouloir dire des années.

Les difficultés de convaincre un client

Parfois quand le client (éditeur/annonceur) travaille avec une agence depuis longtemps, il est difficile d’expliquer que les approches qui ont fonctionné jusqu’il y a peu, fonctionnent moins bien, voire plus du tout.

Un exemple avec des agences qui ont utilisé la technique des mini-galaxies de sites web hébergés tous sur le même serveur.

Certaines techniques de fermes de liens ont vécu ou demandent des adaptations plus subtiles pour éviter de passer par les fourches caudines.

Mais c’est toujours difficile d’aller convaincre le client de ré-investir un nouveau budget … pour détricoter le passé sachant que la pérennité du travail ne sera pas/plus garantie. La politique de terreur générée autour du cirque des animaux de Google effraie beaucoup d’éditeurs.

Certains ne veulent donc pas soulever le tapis.

C’est décidé, on crée le nouveau site !

Pour démarrer la refonte d’un site web, en parallèle du travail d’analyse (architecture d’information, wireframes, design UX, UI, coding des templates, nouveaux contenus, …) nous conseillons vivement la réalisation et le support des recommandations d’un rapport d’audit du site actuel (ancien).

Où plus exactement nous conseillons au moins de créer une suite de 3 rapports :

  1. Avant la migration
  2. Pendant la migration
  3. Après la migration

1. Rapport pré-migration de site

Un état général de la situation « on-site » et « off-site » pour comprendre les forces et faiblesses du site.

En interne du site pour identifier les pages stratégiques aux yeux de l’éditeur mais aussi aux yeux du moteur.

En externe pour comprendre la relation du site avec son écosystème et sa position par rapport aux concurrents.

2. Rapport durant la migration de site

Notre approche est d’intégrer la dimension d’optimisation du site PENDANT la refonte. Nous travaillons de préférence sur un site de développement protégé de l’indexation. C’est la meilleure garantie pour ne pas partir en vrille sur un site « live ».

Le nouveau maillage interne

Cela permet de suivre le travail réalisé sur les templates et l’encodage des contenus pour mesurer concrètement la perception sémantique et l’autorité des pages dans le graphe du site. Il est possible de tester différents modèles de maillage interne et de mesurer concrètement leur efficacité.

Derrière les adaptations techniques, on peut travailler réellement sur la distribution du flux (le fameux « jus de liens ») qui vient influencer les 2 éléments clés (perception et autorité). On identifie les zones fortes et les plus faibles qui devront être renforcées.

C’est un excellent moment pour conforter le développement d’une ligne éditoriale dont l’un des rôles sera de venir renforcer les pages / les zones stratégiques manquant d’influx.

Il est possible de calculer précisément le nombre de pages à rajouter. Cela permettra facilement de répartir les thématiques à aborder pour intéresser vos visiteurs/clients et renforcer la structure de l’édifice.

3. Rapport post-migration de site

Ca y’est le grand jour est arrivé, les  dizaines voire centaines d’heures de travail ont produit le nouveau site. Il est enfin basculé en production par étapes ou d’un bloc suivant la taille du site.

Il est important de continuer les analyses pour suivre le bon fonctionnement des recommandations proposées aux étapes précédentes. Et de pouvoir identifier le focus des itérations suivantes qui viendront améliorer la qualité de perception des contenus. Avec l’intégration du suivi des positions, on pourra mesurer clairement le bon fonctionnement de la nouvelle mouture du site web.

La structure détaillée
du rapport de migration du site

Les principales étapes du rapport d’audit de site web :

  1. Collecte de données
  2. Analyse des données
  3. Observations et recommandations
  4. Définition des priorités d’actions

Le détail point par point des 4 étapes clés pour réussir la migration de son site:

Credit photo Glacier NPS

Quand sémantique et autorité interne parlent de la vitalité d’un site

Dans les analyses d’audit livrée par le crawler Mitambo, nous proposons plus d’une trentaine de visuels qui permettent d’analyser l’exploration du site par profondeur ou par sections.

Chaque visuel et les comparaisons entre dimensions apportent une richesse d’observations qui permettront d’orienter rapidement les zones d’investigations à privilégier pour obtenir des résultats rapides (quick wins).

Profondeur d'un site Visuels Toutes Dimensions
Profondeur d’un site Visuels Toutes Dimensions

Cette approche très intéressante car elle reste polyvalente dans les usages de rapports créé par une agence : en prospection cela permet d’expliquer rapidement les forces et faiblesses d’une structure de site, en cours de projet on ne peut obtenir une photographie précise des progressions des campagnes d’optimisation.

Vous avez à disposition des informations visuelles qui parleront à des publics non avertis pour leur faire comprendre l’importance de certains chantiers.

Profondeur – Sémantique – Autorité

profondeur-semantique-autorite
Diagramme de profondeur pour comparer sémantique – autorité

La perception sémantique

Quand vous optimisez des mots clés d’une page (Optimisation On Page), vous ne travaillez jamais que sur la moitié de l’optimisation sémantique. On parle d’optimisation du « SUJET » de la page.

Vous utilisez les balises HTML pour pondérer les mots et les expressions que vous souhaitez voir ressortir sur la page.

Mais vous n’avez jamais que la moitié de l’histoire. Et malheureusement c’est elle qui est souvent racontée partout sur le web et souvent par des gens qui ont une visibilité reconnue d’expert (en contenu rédactionnel, en référencement, …).

C’est pourtant une demi-vérité.

L’autre face de cette optimisation vient de la « REPUTATION » des liens. Soit au plus simple « les termes » utilisés dans les ancres de liens viennent « confirmer » ce que vous souhaitez mettre en avant dans le corps de la page.

Ce que nous appelons « la PERCEPTION » est en fait appelée « relevance » en terme informatique. Il s’agit de la rencontre des ces 2 espaces « SUJET » et « REPUTATION ».

Pour être complet, la relevance est un sujet plus large et subtil : il ne s’agit pas uniquement de mesurer la présence de ces termes mais aussi de les pondérer avec différentes mesures. Ceci permettant d’évaluer différentes influences et donc de classer des résultats ayant une même perception lexicale.

Très longtemps seule la réputation a compté. N’en déplaise aux chapeaux blancs de l’époque, cela a fait les beaux jours des netlinkeurs et des communautés black-hats. La situation a changé à certains égards … mais pas encore partout.

A l’intérieur de votre site, en 2014 vous gardez de belles marges de manoeuvres pour progresser rapidement.

Dans les analyses réalisées par Mitambo, nous identifions les mots relevants pour chacune des pages analysées. Ce qui permet sur le visuel ci-dessus de comprendre comment se distribue cette relevance avec la profondeur.

Il s’agit d’un site qui a été retravaillé et dont l’éditeur a intégré dans sa ligne éditoriale une approche pour garantir une meilleure distribution de la réputation de liens en interne. Un an après on voit les résultats ressortir au niveau sémantique.

L’autorité et la balance des liens

Nous utilisons plusieurs indicateurs pour évaluer l’autorité des pages à l’intérieur du site. La balance de liens (entre les liens entrants et les liens sortants) est un premier indicateur qui annonce une tendance. Il permet de comprendre rapidement la logique de maillage interne utilisée dans le site (ou simplement propagée par les différents templates de mise en page).

Quand perception et autorité ne collent pas
Quand perception et autorité ne collent pas

On voit clairement sur cette vue que les pages ont une perception qui est positive dans son ensemble. Vous avez un détail sur l’image supérieure. La longueur des barres vertes dépasse amplement les barres bleues.

Mais dans cet exemple la distribution de l’autorité n’est pas suffisante. Les barres vertes sont trop courtes. Donc une première conclusion est que le site ne pourra pas « envoyer » suffisamment de pages dans les classements. Et surtout que la « poussée » interne entre les pages ne sera pas particulièrement forte.

Un exemple classique

Exemple de structure classique mal organisée
Exemple de structure classique mal organisée

Ce genre de visuel est un classique du genre quand on explore un site pour une première fois.

La majorité des thèmes pour WordPress (et en général pour tous les CMS) ne sont pas pensés pour proposer un maillage interne suffisant. Au mieux une page ou un article reçoit un coup de boost tant qu’elle fait partie de la section des « derniers articles publiés ». Puis elle disparaîtra dans la masse du site. Soit elle ne reçoit que quelques liens (pages de catégories, pages de mots-clés, …) et elle en donne un nombre important (souvent trop important).

Si les pages ne reçoivent pas suffisamment de « liens internes entrants », il est impossible de contrôler leur efficacité : difficile de pouvoir influencer la « réputation » de liens et au final leur « perception ». Sans compter que leur influence dans le graphe du site revient à une dilution du jus de liens qui ne peut avoir beaucoup d’influence. Et un grand nombre de pages sans trop d’influence ne peut conférer une grande autorité même à un petit nombre de pages.

Par ailleurs, on observe qu’un petit nombre de pages reçoivent un maximum de liens. Ce sont les pages qui auront le plus de chance d’obtenir une forme d’autorité et d’aller se classer. Le tout sera d’analyser la force réellement reçue par la poussée de liens.

La majorité des thèmes, même ceux qui se revendiquent « optimisés pour le SEO » n’échappent pas à ces observations.

Sur l’exemple ci-dessus, la proportion de « bleu » dans les niveaux inférieurs montre qu’il y a clairement un problème de perception sémantique. Il faudrait explorer ces raisons. Ensuite plusieurs pistes pourraient-être proposées pour améliorer la situation.

Mais comment faire?

Heureusement Mitambo est à la rescousse

Il est possible d’accéder aux listing détaillés qui vous montrent URL par URL ces niveaux de perceptions sémantiques (on dit perception lexicale pour être correct) .

Voici trois exemples sur le site Abondance.com dont nous vous avons parlé récemment puisque nous avions publié sa carte sémantique

Perceptions à 5 mots

perception-sémantique-5-mots
perception-sémantique-5-mots

Perceptions à 3 mots

perception-sémantique-3-mots
perception-sémantique-3-mots

Perceptions à 0 mots

perception-sémantique-0-mots
perception-sémantique-0-mots

Pour chacune des pages, vous avez un résumé complet des mots relevants qui sont identifiés (ou pas). On peut détecter rapidement des anomalies ou des patterns (certains termes ou expressions qui ont tendance à se répéter sur trop de pages).

Vérifier la relevance proposée?

relevance-sémantique-verification-classement
relevance-sémantique-verification-classement

C’est quelque chose qui est possible: à l’aide d’une extension Chrome comme SEO SERP, vous pouvez vérifier rapidement si une liste de mots (et surtout ses combinaisons) permet de trouver la page classée. Suivant les cas, en inspectant les niveaux d’autorité interne, la force des liens, … on peut avancer différentes hypothèses pour améliorer la situation d’une page.

L’approche est réellement très productive quand vous devez travailler sur un groupe d’URLs bien ciblé. Vous prenez des notes dans un tableur avec différentes recommandations sur les éléments à améliorer.

Vous souhaitez l’utiliser pour vos clients?

Plusieurs agences et experts utilisent nos analyses pour leurs propres services d’accompagnement. Nous démarrons un plan de partenariat Mitambo. Si vous êtes motivés, prenez contact maintenant avec nous.

Nous vous aidons à produire différents documents et rapports visuels qui vous permettent d’aller à l’essentiel pour convaincre vos clients et ensuite pour les accompagner sur la durée.

WPFormation contre 4H18 : quels sont leurs thèmes sémantiques?

On ne présente plus dans les 2 blogs de Fabrice et Stéphane qui proposent différentes activités de formation et coaching autour du CMS WordPress:

Les formules proposées sont différentes et leurs approches reflètent leurs personnalités que l’on découvre sur les cartes suivantes.

WPFormation

wpformation

wpformation svg

4H18

wpformation svg

Quelques Observations:

Les deux cartes se lisent presque comme des mindmaps qui permettent de comprendre les thématiques dominantes développées par les deux auteurs.

L’alternative visuelle est proposée avec les tagclouds qui viennent confirmer les mots-clés dominants.

L’aspect de la carte à l’intérêt de définir des espaces et de montrer les dominantes qui se développent sur le site. La connexion entre les mots-clés principaux permet de comprendre également les interconnexions entre les thèmes. Autant Fabrice est centré sur sa thématique, autant on retrouve l’énergie de Stéphane qui varie régulièrement les approches de ses contenus.

Stéphane clairement s’aventure sur différentes thématiques qui s’interconnectent

Il y a plusieurs lectures possibles sur la carte qui la rend plus subtile que les nuages de mots-clés.

De quoi parle Matt Cutts sur son blog personnel?

Matt-Cutts-Google-SEO

Nous avons analysé le site de Matt Cutts au crible de nos analyses Mitambo pour comprendre les thématiques qui ressortent des sujets abordés et des discussions générées.

Comme notre précédent article a retenu l’attention de pas mal d’entre vous (analyses sémantiques de Abondance et Arobasenet), nous avons décider de présenter d’autres analyses de sites.

De quoi parle Matt Cutts? ou plutôt quels sont les thèmes qui ressortent sur son site?

Il y a plusieurs particularités qui placent le célèbre porte-parole du moteur de recherche à part.

Son exposition ne l’oblige pas à développer du contenu qui doit oeuvrer pour son référencement.

Il suffit de voir les commentaires et analyses que suscitent le moindre de ses tweets ou ses vidéos sur la chaîne youtube des google webmasters.

Par ailleurs, sa popularité génère souvent des commentaires par centaines sur ses pages. Nous étions donc curieux d’évaluer les thèmes sémantiques qui dominent l’ensemble des pages.

Après tout, il s’agit de son site personnel donc on pourrait s’attendre à voir ressortir des sujets « hors cadre » professionnel.

De quoi donc peut-il bien parler sur son site personnel si on essaie de comprendre les tendances principales? Pour les friands de ragots, il n’y aura pas de révélations fracassantes ou d’analyse idéologique sur son discours.

AVANT DE CLIQUER

Avant de cliquer sur les deux grandes images, Je vous invite à installer l’extension chrome suivante SVG NAV qui vous permettra de naviguer facilement sur les documents SVG.

Patience pour charger les documents. Ils pèsent +7 MB chacun.

Le Tag Cloud de Matt Cutts

Nous avons isolé le top 300 des mots les plus utilisés dans le corpus du site.

Avant d’aller plus bas sur la page, prenez le temps de regarder les mots du nuage de tags.
matt-cutts-tag-cloud
Comment imaginez-vous ces mots reliés ensembles? Est-ce que cela vous permet de comprendre des tendances?

La carte sémantique

On détecte principalement 5 ensembles qui s’articulent sur les mots suivant:

  • reply
  • you
  • site
  • google
  • page
  • link

Donc les thématiques professionnelles ne sont pas loin … même si les discussions dominent largement les thèmes développés.

Le « reply » et le « you » sont lié aux commentaires. Si vous zoomez sur l’image vous verrez de nombreux prénoms dans les 2 sphères de termes qui attirent tout de suite le regard.

matt-cutts-global-view

Et il y a 8 ensembles plus petits qui sont principalement liés à la zone des commentaires. On y parle du disclaimer et puis surtout des termes de cuisine.

Donc même sur son blog personnel, Matt Cutts prolonge sa mission d’éducation ou de porte-parole de son employeur.

Et vous, qu’avez-vous découvert sur cette carte? Qu’est-ce que cela vous évoque?

Visualisation d'espaces sémantiques : Abondance vs ArobaseNet

Nous avions réservé la primeur de ces visualisations de coocurrences à nos rencontres au SEO-Campus 2014. L’enthousiasme rencontré nous pousse à vous présenter ici une série d’images.

La génération de ces graphes repose sur des analyses statistiques qui permettent d’identifier les thèmes (mots et phrases) les plus pertinents dans l’ensemble du corpus du site. Le travail permet d’identifier les entités lexicales dominant les textes présents sur un site web.

Pour un premier exemple, nous avons retenu deux sites Web qui commentent quotidiennement les « actualités Google ».  Le premier est très connu, Abondance qui est tenu par Olivier Andrieu, le pape du SEO francophone (citation de Paul Sanches). Le deuxième est Arobasenet.com de Noël Nguessan. Les deux auteurs publient régulièrement des livres et ebooks sur le thème du référencement (ici pour Noël et ici pour Olivier).

Nous avons analysé les 2.000 premières pages trouvées en partant de la racine du site.

Avant de cliquer

Avant de cliquer sur les deux grandes images, Je vous invite à installer l’extension chrome suivante SVG NAV qui vous permettra de naviguer facilement sur les documents SVG.

Patience pour charger les documents. Ils pèsent de 12 à 15 MB chacun ce qui n’est pas étonnant vu le niveau de détails proposés.

Pour les autres, je vous invite à regarder la galerie qui est en bas de l’article.

Abondance.com de Olivier Andrieu
Visualisation de l'espace sémantique Abondance.com
Espace sémantique Abondance.com (lien vers fichier SVG)
Arobasenet.com de Noël Nguessan
Structure des espaces sémantiques ArobaseNet
Structure des espaces sémantiques ArobaseNet (lien vers fichier SVG)

Quel est rapport avec le référencement?

En 2013, plusieurs experts annonçaient que Google pourrait abandonner ou diminuer fortement l’influence de la réputation de liens au profit de la co-occurence.

Je vous glisse ici trois anciens articles qui parlaient de l’émergence de l’analyse basée sur la coocurrence, celui de Rand Fishkin de moz, de Bill Slawski (SEO by the sea) et Harris Bacic au search engine journal.

La vidéo de Rand Fishkin expliquant ce concept

Dans la vidéo, il parle de co-citation pour la co-occurence … il s’en explique sur l’article.

La cooccurrence ou le cocon sémantique (citation de Laurent Bourrelly) est donc le niveau au dessus de la couche lexicale (analyses des mots présents). Mais elle n’est pas le niveau ultime d’analyse (voir le paragraphe hummingbird ci-dessous).

Pour affirmer des certitudes sur l’influence d’espaces sémantiques, il faudrait pouvoir recouper ces analyses avec d’autres groupes de données provenant :

  • extractions des expressions lexicales relevantes à 1, 2, 3 termes
  • analyses des profils de backlinks (réputation de liens + force citation/trust des liens)
  • collectes des positions sur les ensembles de ces expressions relevantes (ici chez semrush pour abondance, arobasenet)

Si vous regardez la carte Arobasenet, on voit sur la gauche une cordillère des Andes dessinée par la fréquence d’utilisation des mois utilisés comme références contextuelles pour les citations/commentaires que Noël propose.

Architecture interne

Dans deux autres travaux que nous menons actuellement sur des refontes du maillage interne, on observe très concrètement une évolution des espaces sémantiques. Ceci sans changer fondamentalement la structure des contenus.

On essaiera de partager et commenter ces images prochainement. Et de mesurer concrètement les progressions de classements obtenues.

L’analyse visuelle ci-dessus ne tient pas compte du graphe des sites au sens historique du référencement. Autrement dit l’influence (ou le poids) des liens n’est pas prise en compte. La seule influence qui pourrait être corrélée serait l’ordre de découverte des textes. Les coocurrences (contextes qui ont des mots communs) seraient alors plus faciles à identifier dans des grappes mieux connectées. Elles se visualisent donc en espaces séparés mieux structurés.

Google Hummingbird

Au SEO Campus 2014, Woptimo a présenté une belle introduction didactique sur la notion de « concepts » que Google utilise avec sa dernière mouture dite du « Colibri ». Pour résumer Google tente de classer les contenus web et les recherches formulées en mode longue traine (pensons surtout aux recherches vocales qui viennent des tablettes et smartphones) sur 2 logiques : un concept et une intention de recherche.

Dans l’exemple présenté par Anthony Sigogne et Sébastien Monnier, ils partaient des résultats d’une recherche « photo de Paris« . Ils marquaient les différentes entités de résultats proposées par Google.

Je vous invite à parcourir leur présentation depuis le début, la progression est intéressante.

Dans l’analyse de vos corpus et de vos pages par Google, il utilise une série de « classifiers » (classificateurs). Ce sont différents algorithmes chargés de détecter des concepts et de typer les intentions de recherches.

Au niveau de l’intention du visiteur on peut la résumer en 3 types :

  1. interaction,
  2. navigation
  3. et information.

Donc on déduit que le modèle est en place :

  1. Il identifie l’intention du visiteur
  2. ensuite il détecte les concepts associés
  3. et il les classe hiérarchiquement pour répondre au mieux à l’intention.

A chaque concept retenu, est associé une liste de pages. La SERP finale (liste de résultats) est filtre ultime des ces éléments là.

Est-ce la fin du travail de base
sur les mots-clés?

La question peut faire sourire mais je l’ai entendue au SEO-campus après la présentation de Woptimo.

J’aurai tendance à dire au contraire : l’optimisation lexicale reste un fondement à maîtriser en priorité comme la base de la pyramide.

Même si son influence peut diminuer dans certains cas, la majorité des sites que nous analysons ont des bases lexicales faibles. Une amélioration de cette couche fondamentale ne se transformera que rarement en « sur-optimisation ». Aidée par une bonne architecture interne, elle permettra de déployer des espaces sémantiques plus clairs.

Et une meilleure qualité lexicale ne rendra que plus facile l’utilisation des couches de « concepts » à faire ressortir de certaines pages pour répondre aux dernières versions du Colibri.


Pour remplacer le "NOT PROVIDED": la sémantique des visites de vos utilisateurs

La fin du monde avec le google "not provided"?

Nous travaillons depuis plus d’une année sur notre application d’analyse d’utilisateurs de sites Web.

DecisiveMetrics (DMX) vous propose un moteur de collecte et d’analyse de tous les événements qui se produisent sur les écrans de vos visiteurs.

Ensuite une liste d’indicateurs (+80)  est calculée et rendue disponible dans un mode de reporting temps réel.

L’objectif est de vous rendre compte en temps réel de la pulsation de vos campagnes et d’assister vos visiteurs par des recommandations.

Nous vous identifions les pages stratégiques à optimiser avec la mise en avant de différents groupes de visiteurs identifiés par segments sémantiques. DMX est bel et bien complémentaires un service comme Google Analytics.

Pour vous donner une idée, une page vue génère une moyenne de 120 événements. Actuellement nous pouvons monitorer jusque 150 pages/seconde pour un domaine (ou ensemble de domaines).

Qu’entendons-nous
par évènement?

Un événement est un ensemble d’actions (une ou plusieurs) qui se produisent dans le navigateur:

Un clic ( sur un lien, sur une image, sur un objet sans lien [ texte, image, zone vide, …], …).

Il peut-être en un mouvement (une souris qui scrolle, un doigt qui fait glisser la page, …)

Le déclenchement d’un JavaScript (par exemple Google Analytics qui envoie sa collecte vers votre compte).

La collecte d’une information présente sur la page ou sur l’ordinateur de votre visiteur (le contenu d’un cookie)

Que collectez-vous?

Nous mesurons pour  chaque visiteur une série de paramètres classiques :

  • son adresse IP,
  • son user-agent,
  • son device,
  • la dimension de son écran,
  • certains cookies,
  • la dimension affichée des documents consultés
  • et d’autres éléments qui font notre exclusivité

Avec l’avènement du web mobile, il est à présent incontournable de pouvoir mesurer les familles de devices mobiles mais aussi de pouvoir clairement identifier les natures des comportements. Ces nouvelles segmentations sont aussi importantes que les sources de trafic.

metro-usage-mobile-data
credit: marko8904

Votre différence principale?

Mais nous sommes capables de collecter d’autres données SANS DEVOIR SCRIPTER VOS PAGES HTML.  Pas de balises HTML ou JavasScript particulières à ajouter dans vos pages ou à configurer dans un panel d’administration.

Si vous avez plus de 100 templates pour gérer l’ensemble de vos contenus, ou si vous avez des catalogues produits importants, nous avons pensé à vous. Il y a un travail de configuration à produire mais il est coté serveur chez DMX. Rapidement activé et configuré peu importe la taille de votre site et votre volume de trafic.

Garantie du bon fonctionnement de vos services tiers

Vous reposez certainement sur des services tiers comme Google Analytics, Tagman ou d’autres services de marquages de vos contenus.

DMX-GA-tracking-cookies
Decisive Metrics – tracking cookies Google Analytics

DMX mesure le fonctionnement de ces scripts pour toutes les pages visitées par des humains. Nous pouvons facilement vous montrer les zones où les scripts ne fonctionnent pas correctement (ou il serait absent).

Note: pour une analyse extensive, notre crawler sémantique Mitambo est capable d’analyses sur la présence du script dans vos pages (accessibles à un crawler). Les deux services offrants des analyses complémentaires.

Les mots-clés visités?

Pour chaque page visitée, nous obtenons ses mots-clés principaux. Au final d’un parcours, nous créons un nuage de mots-clés associé à la personne.

DMX-decisive-mot-clés
Decisive Metrics – extraction de mots-clés par page visitée

Toutes les recherches sur votre moteur de recherche interne, ainsi que les données encodées dans les formulaires, peuvent également être collectées.

Il nous est donc possible de d’interpréter (ou comprendre) le besoin de recherches exprimé par une visite sur votre site.

Et par extension, nous pouvons identifier les segments de visiteurs partageant les mêmes besoins. Et à l’inverse de pouvoir détecter les pages les plus relevantes pour leur recherche. En combinant plusieurs indicateurs il est encore possible d’affiner plus avant les liste de pages à proposer.

Une alternative au
Not Provided?

Avec un taux de « not provided » qui atteint les +80% dans un majorité de cas, il devient très difficile pour un éditeur, de surveiller les intentions de recherche qui conduisent les visiteurs sur leur site. Dans le cas de sites e-commerce, il est par exemple devenu très difficile de savoir quelles expressions convertissent … et donc de piloter des grands volumes de mots-clés. Sauf à utiliser les campagnes PPC Adwords pour contrôler des groupes tests.

Puisque ces expressions sont censurées par Google, malgré divers « hacks » proposés, il ne semble pas exister d’alternatives crédibles ou faciles à utiliser.

Et nos réflexions nous ont conduit à proposer une solution pérenne et sans risque pour les éditeurs de site.

Le parcours sémantique
du visiteur

Nous proposons donc une nouvelle approche, basée sur l’analyse sémantique du parcours d’un visiteur. Les séquences de pages sont enregistrées. Et chaque séquence de page génère plusieurs indicateurs dont un nuage de mots-clés.

DMX-Parcours-Semantique-3
Decisive Metrics – analyse d’un parcours sémantique

Différentes possibilités s’offrent à nous pour personnaliser la visite (suggestion de pages relevantes). De façon plus stratégique, nous proposons une nouvelle segmentation basée sur l’expression des besoins qui peut fonctionner en temps réel.

Nous pouvons extraire  des nuages de mots clés par section de votre site, par source de trafic ou en les filtrant à l’aide d’autres indicateurs. Ce qui permet au final d’identifier des pages dont les caractéristiques (ajout panier, vente, …) permettent une sélection pour un plan d’action.

DMX-intention-semantique-nuages-mots-clés
Decisive Metrics – nuages de mots-clés comparés

Ce plan d’action peut aller d’une liste de pages similaires à visiter (flux JSON à intégrer dans votre CMS) ou bien de pages prioritaires pour votre plan d’optimisation marketing (SEO/SEM).

DMX-intention-mots-cles-2
Decisive Metrics – liste des intentions visiteurs par entités

Que des mots simples?

Pour des raisons de performances, nous proposons toujours par défaut, une analyse de mots simples. Suivant vos besoins et la taille de votre trafic nous proposons plusieurs solutions pour extraire les combinaisons de mots multiples.

Personnaliser ses
propres indicateurs?

Contrairement aux principaux packages analytiques, nous offrons la possibilité de personnaliser une série d’indicateurs comme le taux de rebond, le temps passé sur une page va définir comme attirante, ou bien dormante, etc. Il est même possible de combiner plusieurs critères pour définir votre propre notion d’engagement (temps passé, longueur de scroll, d’interactions réalisées [partage social, ajout panier, …].

DMX-dashboard-KPI-config
Decisive Metrics – configuration du tableau de bord

À terme, l’objectif est d’adapter l’analyse des données à votre propre environnement métier.

Un tableau de bord personnalisé

Nous proposons une approche où vous avez entièrement la main sur les éléments que vous souhaitez afficher.

DMX-dashboard-devices-2
Decisive Metrics – Tableau de bord – configuration analyse des devices

Et plus concrètement?

L’application n’est pas encore disponible à la demande. Elle est cependant accessible à nos partenaires intéressés par notre approche.

Partenaire veut pas dire gratuit 🙂 « juste pour voir ». Malheureusement, nous l’avons répété suffisamment pour obtenir un échange win-win, l’investissement doit se faire par les deux « partenaires« . Donc nous vous demandons une participation financière qui est discutée ouvertement.

Que vous soyez éditeur de site ou agence, nous sommes ouverts à la discussion pour comprendre votre demande. Nous vous proposerons alors une solution spécifique basée sur notre outil Decisive Metrics.

Contact Rapide

N'hésitez pas à prendre contact avec nous. Nous vous répondons rapidement.
  • Indiquez nous le site web pour lequel vous souhaitez une aide (un audit, un conseil, un accompagnement, ...)
  • Aidez nous en décrivant votre contexte (vous pensez être victime de panda ou penguin, vous n'avez pas le trafic souhaité, vous perdez du trafic de façon inexplicable, ...).
  • Pouvez-vous nous donner une fourchette du budget à votre disposition pour améliorer votre site?
  • Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Le SEO-Campus 2014 arrive ces 13 et 14 mars

Google+panda+penguin

Il s’agit sans conteste, du plus grand événement francophone dédié au référencement, à l’optimisation de sites et au search marketing.

Cette année plus de 45 ateliers/conférences seront répartis dans trois salles à l’Usine, la fabrique d’événements À côté du stade de France.

Il se concentre sur les 3 thématiques suivantes:

  1. Moteurs de recherches
  2. SEO Avancé
  3. Univers du Search

Signe d’une internationalisation, plusieurs invités s’exprimeront en anglais comme Dixon Jones de Majestic SEO, Alexis Rylko du Borovoy Studio ou Aleyda Solis de Woorank.

Nous avons déjà pointé quelques moments qui seront incontournables (même si tous les sujets s’annoncent passionnants, il faut être honnête, le temps passé dans les couloirs est parfois plus excitant pour toutes les anecdotes et histoires partagées avec les personnes rencontrées).

C’est le grand rassemblement annuel de la communauté SEO/SEM française.  Nous profiterons de l’événement, pour revoir des têtes connues et amies, mais aussi pour nouer de nouveaux contacts avec des gens qui ne connaissent moins.

Nous ferons connaître nos services et notre plugin wordpress d’optimisation de contenu marketing qui est testé en ce moment sur une centaine de sites.

Si vous avez déjà vos tickets et que vous souhaitez nous rencontrer, n’hésitez pas à laisser un commentaire ci-dessous. C’est avec plaisir que nous vous rencontrerons.

PS: si vous devez réserver votre billet de train, une seule adresse « capitaine train » : probablement la meilleure interface de réservation !

WP Mitambo en février 2014

Si vous découvrez notre site ou suivez nos activités, nous avons annoncé fin 2013 un plugin. Et c’est vrai que nous n’avons pas encore beaucoup communiqué sur ce plugin wordpress WP Mitambo.

Pour rappel, notre application de crawler sémantique dispose d’une API JSON qui permet de récupérer dans l’administration d’un CMS une partie des données analysées.

L’objectif est d’assister directement l’amélioration de la qualité des contenus à l’endroit où les auteurs passent le plus de temps. Nous leur propons de découvrir les mots-clés relevants identifiés et une partie du maillage interne.

Ils ont sous la main, toutes les informations pour générer une optimisation de leur site et de son maillage interne.

wp-mitambo-structure-31

Notre approche ne modifie aucune donnée, nous ne rajoutons aucun adjuvant, aucune transformation de templates, ni modification de la base de données.

Quoi? Pas de baguette magique? Rien qui va transformer mon site automatiquement pour l’envoyer dans le top 10 des Serps? Mais c’est nul ton truc !

Au royaume des aveugles, les borgnes sont rois ! Et WP Mitambo est un roi borgne. Là où tu vas peiner à identifier les mots-clés relevants sur lesquels une page pourra se classer, notre outil analysera des milliers de pages avec des recommandations pour chacune d’entre elles.

Que tu sois un parfait béotien ou un expert chevronné, tu reçois suffisamment d’informations pour te faire gagner un temps précieux et faire progresser la qualité générale des contenus proposés sur ton site WordPress.

Quelques chiffres sur la période beta

  • 48 wordpress participants invités en partie au WebDeux.Connect 2013 mais aussi en demande directe ici par le site.
  • En moyenne un blog participant compte 633 pages, 2.228 liens et 829 pages indexées sur Google
  • 26 25 personnes nous ont rejoint sur G+ WP Mitambo (communauté privée sur G+)
  • 7 à 9 personnes sont actives et demandent des crawls +/- réguliers
  • Plusieurs fonctionnalités ont été ajoutées suite aux questions et retours des ces participants.

Plusieurs experts SEO et agences SEO participent à la beta. Mais jusqu’ici ils restent parmi les plus discrets. Oui si tu es un expert et que tu participes à la beta, ton avis nous intéresse 😉

Quelques exemples en mini-audits d’une page sont présentés en vidéos ou en screenshots sur une série de sites. Et dans la mesure du possible, nous essayons de répondre aux questions.

La version 1.0 du plugin en approche?

Nous pensons avoir livré les fonctionnalités d’une version 1 qui permette d’obtenir une information claire sur l’ensemble des pages,  des posts, des tags, des catégories et mêmes de tout custom-post créé spécifiquement pour votre projet.

Nous préparons une proposition commerciale mais nous avons un modèle économique à trouver pour proposer une offre attractive et efficace. Et votre avis pourra nous éclairer.

Contrairement à ce que beaucoup pensent la partie du travail se produit sur nos serveurs. Le plugin se connecte sur l’API et rapatrie les données coté back-end. Donc nous ne pouvons pas à vendre le plugin en mode « one shot ». Il y a éventuellement une approche la durée (mode abonnement) et la taille du site à analyser.

Voici les questions que nous nous posons :

  • Quelle est la durée du besoin à couvrir?
  • Est-ce que les données seules peuvent aider à transformer son site?
  • Faut-il proposer un support derrière?
  • Est-ce qu’il faut livrer une formation vidéo pour livrer une méthodologie de travail?
  • Et collaborer avec des experts (wordpress, seo, …) qui pourraient intervenir sur les sites?

Parmi la première fournée de participants, beaucoup ont un niveau de compétence technique sommaire (ce n’est pas une critique, une observation car en général ils ne savent pas coder leurs thèmes ou transformer le code des certains éléments…). Certains découvrent l’univers de l’optimisation de site.

Il faut parfois nous croire sur parole, quand nous faisons quelques remarques qui ne sont pas toujours compréhensibles. Il est vrai que ce n’est pas toujours facile à accepter si on a du mal à comprendre les tenants et aboutissants.

Si vous avez des suggestions, n’hésitez pas à utiliser les commentaires en bas de page, d’avance merci.

Des informations oui mais après?

Donc nous vous fournissons des informations en première étape. Mais est-ce pour autant facile de savoir quoi changer pour améliorer un maillage interne par exemple? Par où commencer, comment mettre des priorités?

Ce sont de nombreuses questions auxquels un béotien ne sait pas répondre en commençant son exploration.

Quand on optimise un site: a-t-on besoin d’une assistance en continu ou bien uniquement sur des périodes très courtes? Où se trouve la valeur ajoutée: dans les données proposées ou dans les conseils qui vont permettre de réaliser des quick-wins?

Quelques citations sur G+ WP Mitambo

Sur la communauté G+, nous abordons régulièrement différents sujets et voici quelques extraits des échanges avec nos utilisateurs les plus enthousiastes:

Sébastien Pierrepack 6 janv. 2014

Ce qui est bien avec ce plugin. C’est que ce n’est pas lui fait le boulot mais c’est plutôt un bel outil qui aide pas mal. Je recommence à me frotter contre de sérieux “goliath” dans ma niche

Romain Collignon – 14 janv. 2014

A partir de ce travail, j’ai pu constater une augmentation de trafic début janvier (ce travail avait commencé en décembre mais avec le trafic des fêtes, ce n’était pas flagrant).

Jerome Vosgien – 31 déc. 2013

Elle permet surtout de se définir des objectifs. Disons les choses, j’ai un super merdier dans mes tags, le travail que je vais faire grâce à Mitambo va aussi me permettre de faire le travail de fond sur la sémantique, ou le champs lexical de mes sites.

Je me suis toujours dit (bêtement) que je devais créer du contenu du contenu du contenu et je verrai ensuite comment l’optimiser, c’est un tort. Créer du contenu optimisé SEO respectant intrinsèquement la ligne éditoriale du blog permet de gagner du temps.
Aussi, plus tôt on obtient du trafic naturel de Google et plus c’est encourageant !

Mais comme tout le monde ici, tout cela fait partie de l’expérience 🙂

Anne-Catherine Guervel – 27 déc. 2013

Je crois qu’en fait je ne suis donc pas si mal partie que ça en lisant tout cela 🙂  car j’ai presque équilibré certaines pages (b) (du moins j’ai moins de liens sortants … Je vais tenter de réaliser l’objectif (a) avec les articles à venir.

Je sais pertinemment que mon chemin ne sera pas facile mais je vois un peu plus clair et pour l’instant c’est le plus important pour moi.

Pour un changement de template je ne fais plus rien car le mien me convient, j’y suis à l’aise maintenant donc … certes j’ai modifié un peu le design mais sans vraiment rien enlevé.

Stephane Briot – 17 janv. 2014

Je me suis rendu compte que les widgets de la sidebar posaient plus de soucis qu’autre chose dans la perception des contenus par GG. Il aurait été possible de contextualiser (par catégorie ou tag), mais finalement, j’ai opté pour une suppression pure et simple.

Il en retourne une page plus clean favorisant, je crois, la lecture. J’ai déporté une partie des sidebars en dessous du billet. J’en ai profité pour reprendre le footer avec des liens vers des contenus importants pour mes positions.

Mais ce footer n’apparaît pas sur toutes les pages. Par exemple, il n’est pas sur les pages de rubriques, pas sur la home, etc.. Et pour le moment, la chose semble payante. Le jus se diffuse bien, les pages stratégiques prennent place peu à peu là où je le souhaite.

Envie de rejoindre le mode beta?

Il reste encore des places avant de lancer notre offre commerciale, si vous êtes tentés rejoignez-nous !

ATTENTION : si vous ne répondez pas rapidement pour activer votre demande, ne vous étonnez pas après du silence radio …  et de préférence nous souhaitons des gens motivés à travailler leur site pour apprendre rapidement et partager un retour dans la communauté.

N’hésitez pas à vous inscrire sur la liste d’attente, nous invitons régulièrement des nouveaux sites.

Comment déterminer le nombre de pages de votre site utilisées par Google?

Ça y est, votre nouveau site est indexé par Google car vous retrouvez enfin des résultats dans les classements.

google search engine ...
crédit moneyblognewz

Des questions sont fréquentes pour savoir combien de pages d’un site sont dans l’index de Google et surtout combien de pages sont utilisées pour répondre aux questions des utilisateurs?

Si vous gérez un nombre de pages important, plusieurs centaines à plusieurs milliers, il est difficile voir impossible de connaître le nombre de pages générées par votre système de gestion de contenu (CMS).

Alors si vous pouviez utiliser les raccourcis qui vous donneraient les informations que Google connaît sur votre site, cela vous simplifierait la tâche, non ?

Google propose une série de raccourcis qui permettent de réaliser ces recherches avancées.

Celles que nous allons voir dans cette note sont toutes basées autour de Site: qui est une pattern de recherche.

Si vous ne connaissez pas ou mal ces possibilités de recherches avancées je vous invite à regarder la page support officiel de Google.

Ces expressions de recherche vous permettent principalement de filtrer les résultats d’une recherche pour retrouver uniquement des URLs qui contiennent certains éléments.

google-site-pattern

site:mondomaine.com

La base de cette requête permet d’isoler toutes les URLs (pages, fichiers, …) que Google vous propose sur un domaine. En combinant cette requête avec un type de fichiers exemple avec(filetype:pdf).

Les pages indexées

Pour mesurer ces données, il y a principalement deux requêtes utiles :

  1. site:mondomaine.com/  pour l’index global
  2. site:mondomaine.com/& ou /*  pour l’index primaire
  3. site:www.mondomaine.com -inallurl:www.mondomaine.com renvoie aussi l’index primaire mais la 2° est plus simple à utiliser

Les pages dans l’index primaire étant jugées de meilleure qualité, elles seraient privilégiées au contraire des pages présentes uniquement dans l’index global qui elles seraient sélectionnées de façon secondaire. Cela pourrait varier suivant différents éléments utilisés pour personnaliser les résultats.

[table “” not found /]

rappel: ces chiffres ne sont pas absolus, ils peuvent varier suivant votre IP, le domaine google ciblé et le datacenter qui vous fournit la réponse. En général les écarts de variations ne sont pas important.

Notre expérience nous a souvent montré que l’architecture interne (les logiques de maillage mise en place) explique souvent la qualité du taux d’activation.

En ajoutant d’autres indicateurs comme le nombre de mots-clés positionnés, le nombre de backlinks et de domaines liant chacun des sites, on peut commencer à mesurer certaines forces en présence. Nous l’avions réalisé lors de l’étude sur 20 sites de l’écosystème de la chaussure.

Le taux d’activation versus
le taux de vélocité

Si vous connaissez le nombre de pages de votre domaine, vous pouvez rajouter une autre colonne qui sera composée nombre réel de pages proposé sur votre domaine.

Il permet de calculer ce que nous appelons un taux de vélocité du site. Souvent son inverse un taux d’inertie étant plus utile pour comprendre le comportement du site façe aux bots crawlers et leur indexation de contenu.

[table “” not found /]


Pour les traductions

[table “” not found /]

Nous rencontrons régulièrement des surprises quand nous crawlons des domaines. Nombre de pages et URLs découvertes dépassent souvent les estimations qui sont fournies.

Ce qui revient à comprendre que Google n’est pas intéressé par une partie qui peut être relativement importante d’un site. Autrement dit, il ne profite absolument pas de sa taille pour créer des leviers d’influence.

Dans l’exemple fictif ci-dessus avec un taux de vélocité T.V. à 30% cela revient à dire qu’il a un taux d’inertie T.I. de  70%, soit un nombre trop important des pages du site ne sont pas relevantes pour le moteur.

Ces indications sont intéressantes si vous connaissez la taille réelle du site … ce qui est assez difficile à obtenir à moins de crawler les domaines concurrents.

Mais un bon audit vous permettra de comprendre les raisons essentielles.

Des patterns de recherches plus ésotériques?

En 2007 Google annonçait officiellement l’existence de l’index supplémental. Ce dernier étant utilisé depuis 2003. L’index supplémentaire était alors l’endroit où Google classait des pages non utilisées pour ses classements car elle comportait une série de problèmes ou de signaux de basse qualité. D’après un commentaire de Matt Cutts (je ne retrouve plus le lien), il semblait dire que cette dychotomie n’existait plus vraiment. Sans doute qu’il n’y  qu’un seul index mais que les pages sont marquées « primaires » ou pas.

Jusque dans les années 2010, les commandes suivantes étaient assez commentées sur les blogs et forums anglosaxons. Elles servaient à identifier les pages dans l’index supplémentaire :

  • site:www.mondomaine.com *** -sljktf
  • *** site:www.mondomaine.com *** -sktf
  • site:www.mondomaine.com *** -sjpked
  • site:www.mondomaine.com *** -view
  • site:www.mondomaine.com *** -ndsfoiw

Il faut avouer qu’il y a un coté intriguant sur la signification cachée de ces acronymes. Certaines renvoient encore des résultats et des chiffres.

Ma première impression en voyant ces chiffres me fait penser à l’historique des pages crawlées d’un site. On dirait le total des URLs que le moteur de recherche à découvertes sur l’historique du site.

Cela pourrait sembler logique que Google calcule cette valeur, puisque l’historique du domaine joue un rôle dans la pondération résultats.

En explorant les résultats proposés, on ne retrouve que des pages de l’index global. Ceci réalisé sur des sites de taille modestes. A la fin des pages de l’index primaire, on obtient le message des pages écartées. Sans doute des résultats historiques sont plus accessibles la recherche publique.

Si vous avez une autre explication, n’hésitez pas à partager votre avis pour placer un URL qui enverrait vers une page qui enrichirait la discussion.

Plusieurs exemples de
résultats de recherches:

[table “” not found /]


Note: si vous utilisez la première commande  » *** -sljktf », vous découvrirez peut-être que Google suggère d’utiliser *** -sktf. On peut donc en déduire cette dernière est plus fréquemment utilisée.

Dans tous les cas, l’observation revenait sur plusieurs sites. Par ailleurs, si vous utilisez cette commande de façon rapprochée pour plusieurs sites, Google vous demandera rapidement valider un captcha. Sans doute cette requête est générée par des robots.

En parcourant de nombreux sites (blogs, forums) je me suis aperçu que cette commande avait été activée et désactivée de nombreuses reprises. Initialement utilisées pour lister les pages dans l’index supplémental. Puis annulée.

Comment savoir si une seule page est indexée?

Si vous avez un doute sur la publication de votre dernier article et sa visibilité dans les SERPs, vous prenez son URL complète et vous ajoutez devant site:mon-url-complete.com.

Et vous connaissez-vous d’autres expressions utiles pour mesurer ces informations générales?

Bye bye 2013, bienvenue à 2014

Adieu année 2013, tu auras défilé à grande vitesse pour notre petite équipe en nous offrant de belles rencontres.

Le résumé du billet

Pour les pressés voici ce dont nous allons parler dans ce billet qui se révèle plus long que prévu.

Un tour d’horizon des principaux milestones réalisés en 2013 :

  • Les évolutions de notre service historique le crawler sémantique
  • Les nouveaux services ouverts
    • L’analyse SEO de logs serveurs
    • Un plugin WordPress WP Mitambo
    • Un tool web analytique orienté SEO et Conversion
    • L’accélération web pour sites à gros trafic
  • Notre présence au Web Deux Connect 2013  (2° participation)
  • Et pour 2014 chez Mitambo?
    • Un nouveau service pour la gestion de rapports
    • L’internationalisation de nos services
    • L’agrandissement de l’équipe

Le tour d’horizon
de l’année 2013

Home-Mitambo-2

Comme toujours les bonnes et mauvaises nouvelles rythment la vie des entreprises. Pour les jeunes entreprises les émotions sont toujours vives. On n’est jamais loin du parcours d’obstacles tellement l’énergie et la passion investie sont intenses et nos attentes à la hauteur de nos ambitions.

Parfois certaines nouvelles sont attendues avec anxiété … et les résultats sont pareils aux montagnes russes. L’euphorie laisse place à la stupeur ou l’inverse quand un projet qu’on pensait oublié refait surface et démarre.

Nous souhaitons surtout remercier tous ceux d’entre vous qui ont osé nous faire confiance. Mille fois merci à ceux qui se reconnaîtront.

Osez Joséphine !

Du coté des bonnes nouvelles, nous sommes particulièrement heureux d’avoir pu gagner la confiance d’experts SEO qui travaillent au sein de grands comptes et dans certaines agences. Et la meilleure preuve de cette confiance vient de leurs recommandations au sein de leur propre réseau de contacts. Merci encore.

L’autre aspect enthousiasmant de cette année 2013 a été la variété des demandes et les besoins rencontrés par nos prospects et clients. Il y a chaque fois de nouveaux défis qui restent des stimulants intellectuels excitants.

C’est vrai nous ne publions pas assez de contenus sur le site pour expliquer plus en détails notre approche, nos bonnes pratiques et les résultats qu’on peut obtenir en suivant nos conseils. Chaque année nous espérons pouvoir y consacrer plus de temps … mais la quantité de travail abattue dans les coulisses reste toujours notre priorité.

Les évolutions du Crawler Sémantique Mitambo

Notre service historique est un crawler sémantique porté sur la compréhension de la qualité des contenus d’un site. Un des aspects étant l’identification des mots-clés relevants utilisés pour les classements dans les SERPs.

Le crawler est complet. Il ne s’arrête pas à la partie sémantique mais il prends en compte autant les problèmes techniques que le temps de chargement des pages ou l’analyse de la profondeur, la mesure des redirections, des pages dupliquées,  un calcul complet du graphe du site avec un PageRank brut interne pour chacune des pages. ( la minute pub : certains utilisateurs le trouvent comme  l’un des crawlers les plus complet du marché : demandez à l’essayer pour vous forger votre opinion.)

Une nouvelle interface a été proposée pour l’outil permettant d’améliorer la prise en main et la création de vues personnalisées. Pour le détail: toutes les URLs identifiées sur votre site sont disponibles dans l’interface.

Vous disposez de +50 critères de filtrage qui permettent rapidement d’isoler un groupe d’URLs en une vue personnalisée prête au partage avec vos collègues.

Une approche orientée cloud a été intégrée dans l’architecture générale. Pour simplifier l’explication, nous avons modifié le fonctionnement de l’ensemble des tâches nécessaires pour découvrir un site, lister les URL, sauver les pages, extraire l’analyse sémantique, générer un rapport de +20 pages A4 pour chacune des pages du site, …  Ces tâches peuvent-être distribuées dans notre cloud.

Nous n’avons pas encore atteint notre objectif qui permettra de distribuer une charge de travail continue sur autant de serveurs que possible. Mais la route n’est plus très longue.

La performance générale de cet outil a été fortement accélérée. A voir comment il évoluera cette année 2014 mais on pourrait atteindre de nouveaux plafonds en vitesse de traitement et en taille de données à gérer.

L’intégration de données externes que ce soit sur des API externes comme Majestic SEO a été testée avec succès. Elle devrait évoluer en 2014 avec une approche standardisée pour tous les projets de crawls. Depuis le début on peut importer les positions via des fichiers csv en provenance de tous les outils et services du marché.

Et finalement la nouvelle de fin d’année a été l’ouverture de notre API vers des CMS externes.

Nous avons créé le plugin WP Mitambo pour montrer la simplicité avec laquelle nos recommandations peuvent-être amenées directement dans un cadre de travail.

Des nouveaux services pour améliorer votre web marketing

En général nous répondons rapidement aux besoins exprimés par nos clients. Dans la mesure du possible nous essayons de proposer des innovations qui se transformeront en services en ligne standardisés.

En 2013, nous avons mis un gros morceau d’énergie sur deux nouveaux projets :

  1. L’analyse SEO de logs serveurs façon Mitambo
  2. La mesure et le suivi web analytique
  3. L’accélération web pour sites à forte charge de trafic

1. L’analyse SEO de logs serveurs

Suivre les robots des principaux moteurs de recherches, qui vous apportent du trafic, est une mission qui peut-être critique dans certaines niches.

Le challenge par lequel nous avons démarré était de fournir une solution à un éditeur de site dont la rotation journalière des logs était compliquée à gérer. Plusieurs dizaines de Go quotidiens pour lesquels il fallait une solution simple et élégante pour extraire plusieurs rapports et des visualisations adaptées.

Nous avons développé une solution de compression de données orientée SEO capable de compresser les logs sur une échelle de 1:339. Autrement dit 1 GB de logs devient un fichier de 4 MB compressé avec notre méthode maximale, 40 MB en compression moins forte. Ce qui simplifie la manipulation des fichiers.

La page de présentation du service d’analyse de logs est assez complète sur les listings qui sont proposés.  N’hésitez pas à nous contacter pour tester l’animal et voir comment nous pouvons vous aider.

2. Le tracking web analytique

Et oui en 2013 nous avons démarré notre propre solution de tracking web analytique. Beaucoup de personnes ont trouvé bizarre le lancement de ce projet alors que les solutions gratuites sur le marché dominent les usages. Et il faut reconnaître que ces produits ou services fonctionnent très bien … pour ce qu’ils font.

Alors pourquoi commencer un nouvel outil? Et surtout quel rapport avec le SEO ou l’optimisation de site pour le SEO?

Le début de l’histoire: la limite Google Analytics Free

Un de nos prospects au début de l’année 2013 atteignait la limite gratuite mensuelle de 10 Million de hits de son compte GA avec plusieurs dizaines de millions de pages vues. Et ses rapports web analytiques ne correspondaient plus aux données collectées directement sur l’application. Ennuyé par le prix à payer pour la licence premium, nous avons proposé une alternative avec une première démo.  Notre nouveau bébé Decisive Metrics était né.

1. Se passer des contraintes d’un plan de marquage

Une des premières idées était de simplifier l’intervention à réaliser dans les templates d’un site. Objectif #1 ne plus devoir marquer les éléments à monitorer sur les pages (boutons, formulaires, …). Placer simplement une ligne de script et démarrer le travail de collecte des données.

2. Mesurer toutes les actions d’un visiteur

Pourquoi se limiter à suivre un set réduit d’actions des visiteurs (clics sur les liens, les boutons, les formulaires activés, …) quand on peut collecter tout ce qu’une personne réalise sur son écran. Objectif #2 : suivre tous les mouvements de l’utilisateur: déplacement de la souris, la longueur de scroll, les clics sur des objets a priori inutiles (clics dans le texte, clics sur des images sans lien, …), le temps passé, etc.

3. Analyses visuelles avec des cartes de clics, de scroll, …

  • Quelle est la taille réelle de vos pages web et comment s’adaptent-elles au différentes familles de devices qui visitent votre site?
  • Quelles sont les zones d’attention et les zones d’interactions?

Nous proposons une série de visualisations qui répondent à ces deux questions.

Objectif #3: comprendre les mécaniques de conversion pour toutes les pages de votre site

4. Créer ses propres indicateurs sur l’engagement d’un visiteur

Parfois les indicateurs proposés par un outil fut-il génial ne correspondent pas toujours aux besoins d’une analyse. Par exemple, comment définissez vous un taux de rebonds sur votre site? Et comment votre plateforme web analytique le mesure-t’elle? Est-ce une donnée utile pour répondre à vos questions?

Comment définiriez-vous une notion d’engagement de visiteur sur votre site?

  • Est-ce quelqu’un qui passe du temps à lire vos contenus?
  • Doit-il commenter, partager, interagir ?
  • Doit-il revenir dans un certain laps de temps?
  • Faut-il qu’il soit inscrit sur votre site?

Voilà un défi que peu de plateformes web analytique sont capable de personnaliser.

Objectif #4: permettre d’établir des indicateurs personnalisés aux besoins d’un site pour simplifier la compréhension et la prise de décision.

5. Votre site est-il mobile ou pas encore?

D’ici trois années tous les téléphones low-end seront des smartphones. On annonce plus de 2 milliard de smartphones en circulation pour la fin 2014 et  5 milliard pour 2017. L’accès à l’Internet sera mobile. Ce n’est pas rien si les acteurs majeurs font évoluer leur approche de recherche d’information quand une grande partie d’entre elles seront simplement dictées oralement.

Est-ce que votre site est adapté pour servir les tablettes, les smartphones et les desktop pc?

Nous ne vous montrons pas seulement les familles de devices, nous vous calculons le gain de performance que vous pourrez atteindre

Objectif#5: mesurer concrètement la performance perdue pour les devices mal supportés sur votre site;

7. Tableau de bord en temps réel

Plus de 80 indicateurs standards ont été créés qui permettent de configurer des tableaux de bords assez variés.

Certains projets ont besoin d’agir sur des tableaux de bords temps réel pour comprendre l’évolution d’une campagne en cours d’action. Nous avons donc proposé ce service comme « standard » pour tous les projets monitorés.

8. Analyse business avec corrélations de données

Sur tous vos visiteurs, ou certains segments, vous seriez intéressé de connaitre les corrélations produits : produits visités, produits ajoutés au panier, produits achetés. Voire de remonter sur des logiques de marques associées.

Imaginez que vous organisez un concours avec +25 marques présentent sur la même page. Chaque bloc de marque propose un ou plusieurs produits à gagner. L’ordre des blocs change à chaque rafraîchissement de page.

Question: avec quel service web analytique pouvez-vous mesurer toute l’activité des visiteurs et sortir un rapport détaillé marque par marque? Et ceci en comprenant les survols de souris qui n’ont pas cliqués sur les blocs … mais qui montrent que la marque a été vue. Avec DecisiveMetrics vous pouvez le faire.

9. Les prochaines étapes pour Decisive Metrics?

En ce début 2014, le service n’est pas encore disponible pour une configuration à la demande comme pour un Google Analytics avec une interface publique prête à l’emploi. Nous devons toujours intervenir pour configurer une mise en place générale avec souvent la création de filtres pour des indicateurs customisés.

10. Collecter des millions d’events sans broncher

Rappellez-vous, le client initial avait un soucis avec la limite des 10 Mo de hits. Notre tout premier challenge était de pouvoir dépasser cette contrainte. Nous avons conçu une architecture capable d’encaisser les appels, d’enregistrer des logs et surtout des les traiter sur différentes échelles de temps (temps réel, 1 semaine, 1 mois, etc.).

En général nous collectons une moyenne de 100 et 120 events par page vue.  Disons que si votre site affiche 25 Mo de pages vues mensuelles, vous collecterez près de 3 Md d’events ( 3.000.000.000 ) sur un mois.

3. L’accélération web avancée

Entre l’optimisation des couches applicatives (serveur, base de données, applicatif, cms, cache) d’un site web et la délégation des ressources à des réseaux de distribution (CDN comme Amazon S3 et Cloudfront), il existe des applications intermédiaire de gestion de cache avancée comme Varnish ou Apache Trafic Server. Nous avons eu l’occasion de mettre en place une architecture de ce type.

Atelier SEO au WebDeux.Connect 2013

Jeff et Sébastien nous ont renouvelé leur confiance, en nous demandant d’animer un atelier SEO au W2C13. L’année passée nous avions partagé la scène en proposant à Paul et Mathieu de nous accompagner. Cette année suite à un empêchement, nous n’avons pas pu partager l’espace.

Cette année, la salle était plus grande et elle était toujours aussi complète, confirmant une nouvelle fois l’intérêt que l’optimisation SEO attire toujours un large public dans les conférences qui ne sont pas réservées aux professionnels. Par ailleurs, il y a eu d’autres interventions sur le sujet du SEO entre autre avec François Goube et de Dixon Jones le CEO de MajesticSEO qui était venu évangéliser sa plateforme incontournable.

Le WebDeux.Connect est un évènement incontournable sur la scène du Web professionnel organisé par une équipe humaine et hyper efficace drivée par David Lardier qui nous a aidé avec une grand gentillesse.

Le lancement de WP Mitambo

Le W2C13 fut l’occasion pour nous d’annoncer le plugin WordPress WP Mitambo permettant aux sites utilisant le CMS WordPress de récupérer une partie de nos analyses. Cette approche permet d’apporter des informations pratiques directement dans l’espace de travail aux auteurs qui produisent les contenus et aux éditeurs qui passent en revue la qualité produite.

Sur novembre et décembre, près de 50 sites wordpress ont été audités en participant au programme beta. Si vous êtes intéressés, n’hésitez pas à rejoindre notre programme ou à prendre un abonnement pour l’accompagnement.

Et Mitambo pour 2014?

Nos aventures vont s’accélérer puisque le nombre d’appels à utiliser nos outils et nos conseils qualités augmentent sans cesse.

Le croisement des données entre nos applications

Et si l’analyse sémantique (mesure de qualité sémantique) croisait le suivi des logs (robots vs humains) avec les activités humaines sur l’interface de votre site?

Et si on rajoutait des couches provenant de services externes (suivi de positions) et netlinking global à la sauce MajesticSEO?

Ce sont nos clients qui feront avancer les outils mais les données aiment se mélanger.

L’internationalisation de nos services

Avec les centaines d’audits réalisés chaque année sur les outils Mitambo, et la capacité de travailler une gestion de sites multilingues, nous pouvons désormais nous ouvrir à des collaborations dans plusieurs langues. Le site Mitambo sera donc traduit en anglais prochainement en espérant démarrer des collaborations ailleurs en Europe et dans le monde anglo-saxon.

Des nouveaux services

Un nouveau service est actuellement en cours de développement.

Agrandir notre équipe

L’équipe va certainement s’agrandir puisque certains clients souhaitent avoir des présences plus régulières. Et nos outils doivent grandir pour embrasser de nouveaux challenges. Nos journées étant limitées, nous chercherons certainement en 2014 comment étoffer nos rangs.

Et pour vous comment s’annonce l’année 2014?

Les mots-clés "Not Provided" bientôt blacklistés à 100% par Google?

Depuis plusieurs semaines, les annonces alarmistes vont bon train dans les sphères du référencement sur une information importante que Google a décidé de ne plus livrer aux webmasters : le sujet des mots-clés « not provided ».

La question que beaucoup de personnes se posent est la suivante : sommes-nous condamnés à piloter nos sites à l’aveugle? La réponse courte : NON évidemment! La réponse longue est développée ci-dessous.

image de Dollen
Sommes nous-condamnés à rester aveugles pour ne plus savoir ce qui amènent les gens sur notre site web? [image de Dollen – Flickr]

( Not Provided ) c’est quoi au juste?

Ces mots-clés, à présent affichés comme ( Not Provided ), correspondaient aux recherches effectuées par vos visiteurs sur les pages de résultats Google (SERPS) pour arriver sur votre site. La chaine de mots était associée dans l’adresse URL référrente (qui indique la provenance d’un visiteur).

URL referer avec un mot-clé fourni (provided)
URL referer avec un mot-clé fourni (provided)

Cela a commencé en octobre 2011 (il y a 100 semaines à la date de cet article). Par étapes successives, cette censure a été étendue à différents services (youtube, picasa, gmail, …) puis aux logiciels de la firme (barre de recherche de Chrome).

Et tout récemment Google aurait ajouté quelques tours de vis, après les révélations sur l’affaire PRISM avec la NSA, pour augmenter la protection de ses utilisateurs.

Olivier Andrieu prédit les 100% de blackout sur ces mots-clés pour la fin de l’année. Mais cette fois-ci il semble bien que le mouvement sème le trouble car le sujet est abordé même dans des sphères hors référencement. Je vous montre un exemple sur le podcast This Week In Google épisode 217 avec Jeff Jarvis et Kevin Marks qui eux s’inquiètent pour les éditeurs de contenu:

Le site Not Provided Count compile les données de 60 comptes Google Analytics et mesure la progression de cet indicateur sur 100 semaines (depuis le démarrage de ce filtre par Google). D’après leur calcul le taux de censure atteint désormais les 80% à la fin septembre 2013.

http://www.notprovidedcount.com/
source de l’image : http://www.notprovidedcount.com/

Il existe différentes réflexions sur les motivations « cachées » de Google, derrière cette décision, qui révéleraient plus clairement les traits dela guerre commerciale que la firme livre avec ses concurrents publicitaires. Les webmasters qui en font indirectement les frais, en seraient donc des victimes collatérales .

Officiellement il s’agit de protéger la vie privée des internautes vis à vis des sociétés ou organismes tiers qui collectent / interceptent une série d’informations dont les recherches effectuées sur les moteurs de recherches. Avec le développement des usages mobiles, les accès wifi n’étant pas des plus sécurisés, on peut comprendre la légitimité de cette décision.

Mais comme cette censure n’affecte pas tous les services commerciaux de Google, car si vous êtes client Adwords alors vous obtenez ces informations pour les clics générés sur vos publicités. Certains disent que les comptes Google Analytics Premium à 120 Ko seraient mieux protégés et d’autres comme Julien Coquet qui assurent que non. Certains y voient une façon d’élever une barrière à l’entrée pour pousser à adopter ses services commerciaux.

Renaud Joly avait développé plusieurs hypothèses intéressantes. L’intérêt de cet « aveuglement » serait principalement la volonté de diminuer les capacités d’action des intermédiaires publicitaires que sont les comparateurs, les régies, les réseaux d’affiliations et les services de re-targeting. Ces derniers utilisent des analyses mixées sur les cookies pour suivre les pérégrinations des visiteurs entre différents sites pour savoir où leur afficher une publicité pour des produits qu’ils ont consultés ou recherchés. Les mots-clés dans les URLs référantes étaient donc une mine d’or gratuite pour enrichir leurs méthodes de qualification.

Pour l’histoire, Google pense aussi à remplacer les cookies … sachant qu’avec l’HTML5 il est possible de stocker en local jusque 5MB de données qui sont plus exploitables que ce que les cookies peuvent apporter (ou la façon dont elles ont été détournée par leur usage initial qui devait gérer des sessions de visites). Données locales qui ne seront plus aussi facilement accessibles par des acteurs tiers. Si on relie cette idée à la guerre commerciale qui repose sur l’analyse intensive des cookies …

Quelles sont les solutions encore facilement accessibles?

Pour contourner ces informations disparues, il existe plusieurs alternatives. Elles ne sont pas nouvelles et souvent déjà bien exploitées par les professionnels du référencement et du marketing web.

L’avis de Stephane Briot qui exprime son point de vue de bloggeur et la façon d’adapter sa production de contenu en relation avec une présence active sur les réseaux sociaux.

Rand Fishkin chez Moz a partagé différentes suggestions dans son Whiteboard Friday

Il explique comment vous pouvez trouver des alternatives pour identifier des opportunités.

Résumé vidéo Moz Alternatives Not Provided
Résumé vidéo Moz Alternatives Not Provided

Les services à utiliser

Vous pouvez utiliser des services de volumétries de données :

  • Google Ad Planner pour avoir des idées sur des volumes de recherches
  • Google Trends
  • Google auto-completion dans la recherche
  • Google Suggestion Tools pour Adwords
  • Google Webmaster Tools
  • SemRush

Sylvain Richard a sorti un tutoriel illustré d’une série de screenshots sur deux outils à utiliser (Les suggestions sur la recherche Google (auto-complétion) et l’outil de suggestions de Google Adwords)

Le service Google Webmaster Tools vous apporte une mine de renseignements sur l’activité des crawlers GoogleBots sur votre site. Il propose un rapport intéressant sur les requêtes qui génèrent votre trafic. Google Webmaster Tools > Search Trafic > Search Queries.

Voir ici une présentation détaillée de ce service GWT. Il semble y avoir eu une disparition de ces données fin septembre 2013, mais Google aurait confirmé qu’il s’agissait d’un bug momentané.

Que faire avec vos données Web Analytics?

Dans Google Analytics, il est possible de créer des segments qui permettent d’analyser le volume des (not provided). Un article à vous mettre sous la dent si ce sujet vous intéresse chez Avinash Kaushik.

Ces analyses peuvent vous apprendre à mieux comprendre comment vos visiteurs cherchent vos produits et services. Elles peuvent vous aider à mieux choisir les « nouvelles » pistes évoquées plus haut. Pour explorer ces méthodes d’analyses web analytiques, je vous propose un article qui lie 11 autres publications d’experts parmi lesquels quelques pointures.

Et quelles sont les solutions proposées par Mitambo?

L’originalité de notre crawler est d’avoir développé des analyses avancées sur la perception des mots-clés.

L’idée étant de simuler ce qu’un GoogleBot va analyser sur chacune des pages d’un site web. Et d’en tirer des informations sur la perception sémantique qu’il va utiliser dans ses indexes primaires et secondaires pour classer vos pages web.

L’analyse ne se résume pas à identifier les mots-clés optimisés sur une page. Elle englobe tout le cluster des pages qui ont un lien pointant sur la page. Une vingtaine d’indicateurs sont passés au crible pour permettre de travailler sur la force d’un cocon sémantique (un concept cher à Laurent Bourrelly par exemple).

spartoo-perception-exemple-03
Exemple de perception sur le site de Spartoo.com

Une idée qui se révèle à présent payante à plus d’un titre avec cette thématique des mots-clés ( Not Provided ).

Pour éviter toute confusion : notre approche ne permet pas de retrouver exactement ce que les gens ont cherché sur Google. Nous ne faisons pas de reverse engineering.  Mais nous sommes capables de vous montrer +70% des combinaisons de mots qui seront utilisées par un moteur de recherche pour classer vos pages.

Exemple de perception pour le site webdeux.info
Exemple de perception pour le site webdeux.info. Les mots en rouge sont ceux identifiés comme PERCEPTION SEMANTIQUE de la page.

En utilisant les alternatives présentées plus haut pour mesurer les volumes potentiels de recherches et les tendances principales : vous avez toutes les bases pour baliser votre travail de production de contenu. Notre crawler sémantique vient vous aider à valider la qualité de perception qui est dégagée sur l’ensemble de votre site web.

Exemple d'une recherche souhaitée pour la page qui n'apparait pas dans les classements.
Exemple d’une recherche souhaitée pour la page qui n’apparait pas dans les classements.

Par itérations rapprochées, nous améliorons rapidement cette qualité sémantique. Et l’ensemble de vos classements progresse de façon « magique » plus votre site est capable d’envoyer un signal clair aux googlebots (et autres moteurs de recherches).

Concrètement sur quels leviers  pouvons-nous intervenir?

1. Mitambo Crawler Sémantique

  • Calculer le sujet sémantique des pages
  • Evaluer la réputation des pages
  • Analyser la perception sémantique de vos pages
  • Extraire la liste des mots-clés « perçus » et les combinaisons possibles

2. Mitambo Analytics

  • Lister les landing pages provenant des résultats google
  • Lister les pages suivantes visitées
  • Extraire les recherches internes

3. Combiner les deux ensembles de données

  • Obtenir la perception sémantique de chacune des landing pages
  • Extraire les listes de mots-clés des clusters de pages visitées (cluster sémantique)

4. Intégrer les collectes de positions

  •  Utiliser votre outil / service de collecte de positions
  • Ajouter les listes de mots-clés proposées par Mitambo
  • Collecter les positions
  • Importer jusqu’à plusieurs milliers de requêtes dans Mitambo Crawler Sémantique
  • Suivre l’évolution des classements et la qualité interne

Pour plus d’information n’hésitez pas à prendre contact

Contact Rapide

N'hésitez pas à prendre contact avec nous. Nous vous répondons rapidement.
  • Indiquez nous le site web pour lequel vous souhaitez une aide (un audit, un conseil, un accompagnement, ...)
  • Aidez nous en décrivant votre contexte (vous pensez être victime de panda ou penguin, vous n'avez pas le trafic souhaité, vous perdez du trafic de façon inexplicable, ...).
  • Pouvez-vous nous donner une fourchette du budget à votre disposition pour améliorer votre site?
  • Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Architecture interne : Zalando, Spartoo et Sarenza (Analyse interne des 3 sites e-commerce)

Pour l’analyse du maillage interne, nous procédons par une analyse du graphe du site. Une des premières vues qui est créée passe par une étude de la balance des liens. Chaque page est passée en revue pour le nombre de liens entrants (internes) et le nombre de liens qu’elle distribue dans le site.

Les pages populaires reçoivent souvent plus de liens qu’elles n’en distribuent. Ce n’est pas une règle absolue et il y a plusieurs cas de figures à gérer. Mais en prenant du recul pour une analyse visuelle, ces rapports apportent une bonne évaluation de la qualité du maillage interne d’un site.

La Vue de l’Architecture Globale par la Profondeur

Pour une perception globale, nous simplifions les indicateurs en deux zones : les pages qui recoivent plus de liens qu’elles n’en donnent. Si l’indicateur est à un ( = 1 ) la page reçoit autant de liens qu’elle n’en propose.

Pour illustrer cette perception, nous avons analysés 20.000 pages sur chacun des 3 principaux sites de ventes de chaussures.

mitambo-chaussures-prof-ratio-liens->-1-zalando
Distribution Balance de liens chez Zalando
mitambo-chaussures-prof-ratio-liens->-1-spartoo
Distribution de la Balance de Liens chez Spartoo
mitambo-chaussures-prof-ratio-liens->-1-sarenza
Distribution de la balance de liens Sarenza

note: les barres bleues représentent des pages non analysées lors du test où nous sommes arrêté à 20.000 pages.

La Vue de l’Architecture Détaillée par la Profondeur

zalando-profondeur-liens-details
Distribution balance des liens Zalando (détails)
sarenza-profondeur-liens-details
Distribution de la balance des liens Spartoo (détails)
sarenza-profondeur-liens-details
Distribution de la balance des liens Sarenza (détails)

La Vue de l’Architecture Détaillée par les sections

Zalando-Sections-Liens-Details
Distribution des liens par section Zalando (détails)
spartoo-sections-liens-details
Distribution des liens par section Spartoo (détails)
sarenza-sections-liens
Distribution des liens par sections Sarenza (détails)

La principale différence de Zalando par rapport aux deux autres sites, tiens dans sa structure en sections.

Nous utilisons ici une approche visuelle différentes pour les 2 autres graphiques car sur les 20.000 pages analysées, nous avons identifiés plus de 921 sections. Chacune compte en moyenne une à deux pages qui sont des têtes-de-ponts qui recoivent une poussée de lien des autres pages. On peut prendre une représentation de pyramides.

Sarenza et Spartoo ont donc une architecture qui est plus horizontale. Ce qui ne veut pas dire que la logique des clusters n’est pas travaillée. Mais l’approche de Zalando est sans doute plus efficace si l’on en croit les données proposées par SEMrush.

keywords-pub-adwords-top-3-chaussures-France
Comparaison des 3 sites dominant les chaussures sur les mots-clés organiques et le nombre de publicités adwords en mai 2013

Perception sémantique sur Zalando, Spartoo et Sarenza ( Analyse interne des 3 sites e-commerce)

Un des éléments clés développé dans l’application Mitambo Crawler est une représentation de la perception des mots-clés par un moteur de recherche. Pour simplifier, on pourrait utiliser le terme de perception sémantique de chacune des pages (en galvaudant le terme de « sens »).

Notre approche est similaire au concept de cocon sémantique qu’un expert SEO comme Laurent Bourrelly présente régulièrement dans ses conférences.

Dans notre étude sur 20 sites de l’écosystème « chaussures » en France, nous regardons les trois sites qui dominent l’écosystème.

keywords-pub-adwords-top-3-chaussures-France
Comparaison des 3 sites dominant les chaussures sur les mots-clés organiques et le nombre de publicités adwords en mai 2013

Le site Zalando se détache clairement sur le nombre de mots-clés classés.  Ce qui lui permet de ne se concentrer que sur un groupe de publicités plus réduit que ses deux principaux concurrents.

La perception sémantique

Nous définissons la perception comme la rencontre entre le sujet d’une page et sa réputation de liens.

Dans les trois illustrations ci-jointe, ce sont les mots « perçus » qui ressortent en rouge. Ils sont communs aux deux colonnes « Réputation » et « Sujet ».

Perception pour Sarenza
Exemple de perception chez Sarenza

Le sujet des pages

Le sujet se résume aux mots qui sont les mieux pondérés sur la structure de la page. C’est le sujet tarte à la crème que vous avez certainement lu sur des dizaines de blogs vous conseillant comment optimiser vos pages. Il reprend une pondération des mots suivant leur présence dans différentes balises (title, description, h1, h2, strong, etc.).

La réputation des pages

La réputation est une sorte de résumé de ce que les autres pages « disent » de la page étudiée.

Dans le cas des analyses suivantes, nous nous concentrons uniquement sur la réputation interne. La réputation créée à l’intérieur du site. Pour les analyses sur l’importance de la réputation externe, nous vous invitons à lire les travaux de Link Research Tools. A chaque mise à jour importante de Google, ils étudient les nouvelles variations sur des centaines de mots-clés.

perception-reputation-sujet-03
Exemple de perception chez Spartoo

Le croisement des deux espaces nous donne une zone de perception de mots-clés. C’est une approche floue et souvent trop stricte car elle écarte certaines combinaisons de mots. Mais elle reflète le deuxième visage de la qualité du maillage interne d’un site. Elle est parfois trop stricte car elle ne tient pas compte d’une série d’exceptions qui souvent peuvent fonctionner très bien. Je ne parlerai que de la stratégie des mots rares (une faute de frappe par exemple) qui peut, dans certains cas, faire ressortir une page sans apparaitre dans cette zone de perception.

Dans l’exemple ci-dessus, nous voyons sur les deux lignes que le mot « chaussures » au pluriel ne se retrouve pas confirmé dans la réputation de la page.

Dans les analyses que nous produisons, nous pouvons rapidement valider si une série d’expressions permettent de trouver la page classée (ou pas).

spartoo-perception-exemple-01
spartoo-perception-exemple-01
spartoo-perception-exemple-02
spartoo-perception-exemple-02
spartoo-perception-exemple-03
spartoo-perception-exemple-03

Nous ne limitons pas l’analyse uniquement à ces termes optimisés, il existe d’autres indicateurs qui permettent de valider la « force » d’une page dans le graphe d’un site. Cette force vient principalement de la « poussée » qu’elle reçoit (de sa popularité) d’autres pages.

 

perception-reputation-sujet-02
Exemple de perception chez Zalando

De façon générale, plus la réputation est large, plus la page à des chances de pouvoir apparaître sur des requêtes différentes. Mais c’est n’est pas un critère absolu. La popularité de la page joue un rôle important. Cette force est à mesurer avec celle de la concurrence pour chacune des requêtes. Si vous vous retrouvez face à des pages qui bénéficient d’une poussée plus importante, il est fort possible que vous soyez obligé de développer une stratégie supplémentaire pour renforcer votre page.

La Perception Globale

Cette première série de graphes sont centrés sur une perception rapide de la qualité sémantique que l’on peut accorder à l’ensemble du site. Les pages qui n’ont aucune perception reflètent principalement une faiblesse du maillage : soit elles ne reçoivent pas assez de liens (et donc de signal de réputation), soit elles reçoivent des termes trop génériques qui ne sont pas alignés avec les mots qui ressortent sur leur sujet.

mitambo-chaussures-prof-perception->-1-zalando
Exploration Profondeur – Perception Générale pour Zalando
mitambo-chaussures-prof-perception->-1-spartoo
Exploration Profondeur – Perception pour Spartoo

 

mitambo-chaussures-prof-perception->-1-sarenza
Exploration Profondeur – Perception Générale pour Sarenza

On notera sur l’image ci-dessus, les barres en orange en bas du graphique. Elles représentent des pages qui n’ont pas été analysées lors de cette édude où nous n’avons étudié que les 20.000 premières pages découvertes en partant de la page d’accueil.

En comparant les 3 sites, Spartoo est le site le moins profond et le plus compact Et Sarenza est celui qui offre le plus de profondeur.

La Perception Sémantique Détaillée

On découpe les groupes de pages, par niveau de profondeur, par nombre de mots seul perçus.

De façon générale, les pages qui sont en bleu et orange, ont peu de chance de se retrouver classées (à confirmer avec leur popularité de liens)

mitambo-chaussures-prof-perception-zalando
Exploration Détaillées Profondeur – Perception pour Zalando
mitambo-chaussures-prof-perception-spartoo
Exploration Détaillée Profondeur – Perception pour Spartoo
mitambo-chaussures-prof-perception-sarenza
Exploration Détaillée Profondeur – Perception pour Sarenza

On notera sur l’image ci-dessus, les barres en mauve en bas du graphique. Elles représentent des pages qui n’ont pas été analysées lors de cette édude où nous n’avons étudié que les 20.000 premières pages découvertes en partant de la page d’accueil.

E-commerce Chaussure : Que pouvons-nous apprendre des trois sites dominants?

Dans l’étude sur les 20 sites liés à la thématique de la chaussure en France (mai 2013), principalement trois sites dominent les classements:

  1. Zalando
  2. Sarenza
  3. Spartoo

Voici deux visualisations qui présentent la force de ces sites suivant 4 dimensions comparées :

  • Le trafic organique
  • Le nombre de mots-clés organique
  • Le nombre de mots-clés pour les publicités
  • La taille du site dans l’index primaires
Trafic Organique et Volume de Keywords pour Sarenza, Spartoo et Zalando en France
Trafic Organique et Volume de Keywords

Pour les deux sites Spartoo et Sarenza, ils ont un volume de mots-clés organiques similaire, mais Sarenza semble faire la différence sur certaines expressions qui lui confère une avance plutôt comfortable.  Zalando met tout le monde d’accord sur l’avance qu’il arrive à génèrer.

Si on regarde sur le graphe ci-dessous, la taille des cercles reprend celle des indexes primaires (les indexes principalement utilisés pour les classements):

  • Zalando : 78.000 pages
  • Spartoo: 64.500 pages
  • Sarenza : 58.100 pages
keywords-pub-adwords-top-3-chaussures-France
Comparaison des 3 sites dominant les chaussures sur les mots-clés organiques et le nombre de publicités adwords en mai 2013

Cette avance, elle se marque encore plus sur la quantité de mots-clés utilisée pour les publicités. Zalando peut réduire la voilure fortement. Et par contre Sarenza est obligé de compenser avec un volume de mots-clés aussi important que sa liste de trafic organique. En explorant les listes de mots et les valeurs équivalentes au PPC, nous pourrions calculer un prix moyen d’acquisition de visiteur pour chacun des sites. Et par différentiel mesurer le bénéfice immense que tire Zalando de son avantage dans les classements organiques.

Si vous souhaitez obtenir plus de détails et jouer avec l’ensemble des données, vous pouvez jouer sur ce tableau de bord.

Il y a plusieurs questions qui viennent à l’esprit dont la principale serait de savoir comment on pourrait expliquer cet avantage?

Nous avons analysés une portion de chacun de ces sites. Soit 20.000 pages par site, analyse limitée en partie pour l’ensemble de l’étude que nous avons réalisés sur les 20 sites choisis et le délai de l’analyse.

Plusieurs pistes ont été observées et nous vous les partageons via deux premiers articles :

  1. Analyse de la perception sémantique
  2. Analyse de l’architecture interne

Comme toujours, nous ne prétendons pas avoir de science infuse et nous souhaitons avoir des discussions sur des aspects soulevés ou même des questions qui ne sont pas abordées ici.