Analyse de logs SEO /
apprenez en plus sur Googlebot

17/08/2015

Avez-vous envie de savoir ce que Google Explore sur votre site ? Avez-vous envie de connaitre quelles sont les 404 que GoogleBot a rencontrées avant que WebmasterTools vous les signales ? Quelles tentatives de hack sont utilisées contre votre site WordPress ? Vous êtes au bon endroit, car nous allons parler les logs serveur et de leur importance en SEO.

Les logs c’est quoi ?

On parle de log ou de « fichier journal », derrière ces mots barbares se cache un principe simplisme. Les logs ont pour rôle d’enregistrer sous format texte des évènements. Cela peut être des logs d’erreurs qui enregistreront les problèmes rencontrés ou encore des log d’accès. Ce sont ces derniers qui nous intéressent, les logs d’accès ou « access logs » sous apache enregistrent tous les accès HTTP à un domaine ou une série de domaines. L’avantage de l’analyse de logs (contrairement à une analyse de crawl) c’est que l’on ne rate rien. En effet si vous avez des pages orphelines (non reliés par des liens à la structure de votre site) l’analyse de log va les trouver à la différence d’une simple analyse de crawl.

Que trouvons-nous dans les logs d’accès ?

Dans les logs nous allons trouver tout un tas de choses, les accès à nos pages, les accès images, aux ressources (JavaScript, CSS…). Ces logs sont présentés sous forme de lignes contenant le domaine concerné, l’ip de la machine ayant accédé au fichier, ainsi que son nom (UserAgent)

Quel intérêt ?

Savoir qui accède et qui voit quoi est primordiale. En quoi l’analyse de log peut améliorer votre SEO, quelques exemples (non exhaustif).

L’intérêt de l’analyse de log c’est donc d’être à l’écoute de l’ensemble des accès de votre site.

Commment accéder à mes logs ?

Maintenant que vous, vous dites qu’explorer vos logs c’est indispensable et super vous vous demandez surement comment concrètement le faire.

Pour ce faire vous aurez besoin de récupérer vos logs, pour ce faire vous avez plusieurs choix en fonction de votre configuration. Soit vous êtes sur un hébergement mutualisé et il faudra surement se connecter à votre panel d’administration pour télécharger les précieux fichiers (  exemple pour OVH ) pour les traiter sur votre machine.

Sur un serveur dédié c’est plus simple, il suffit de se rendre dans (apache)

cd  /var/log/apache2

Puis téléchargez l’ensemble de vos fichiers de logs en les zipant tapez

zip -r mes-logs.zip other_vhosts_access.log*

Puis téléchargez cette archive grâce à FTP, ou SFTP. Vous pouvez aussi déplacez ce fichier dans un dossier accessible en HTTP pour le télécharger exemple : (mv mes-logs.zip /home/antoine-home/www/)
Vous pouvez aussi laisser vos fichiers sur le serveur et les trier directement sur place, cependant il faudra faire attention à ne pas utiliser toutes les ressources de votre serveur en triant.

Pre-trier mes logs

La manière la plus simple de pre-trier vos logs c’est de le faire en ligne de commande grâce à grep puis de diriger la sortie vers un fichier séparé grâce à >>

Vous pouvez récupérer plusieurs types de données grâce aux commandes suivantes :



// Récupérer toutes les 404 rencontrés par Googlebot dans le fichier google.log cat other_vhosts_access.log* | grep 'monbraceletnato.fr' | grep 'HTTP/1.1" 404' | grep -i 'googlebot' >> google.log // Récupérer toutes les pages explorés par GoogleBot dans le fichier googleCrawl.log cat other_vhosts_access.log* | grep 'monbraceletnato.fr' | grep 'HTTP/1.1" 200' | grep -i 'googlebot' >> googleCrawl.log // Récupérer les tentatives de hack d un WordPress cat other_vhosts_access.log* | grep 'monbraceletnato.fr' | grep 'HTTP/1.1" 404' | grep 'plugins' >> security.log // lister les pages actives (pages ayant recu au moins une visite SEO) cat other_vhosts_access.log* | grep 'monbraceletnato.fr' | grep 'HTTP/1.1" 200' | grep -i 'google.fr/url?' >> referer.log

Trier le fichier de sorti avec Excel

Vous allez donc obtenir un fichier se terminant en .log , mais vous aimeriez peut être utiliser Excel pour finement trier, non ?

Pour cela, ouvrez le fichier que nous venons de créer en ligne de commande avec Excel.

excel-logs-seo1

Sélectionnez la première colonne, et cliquez dans le menu sur « Donnés » puis sur « convertir ». Sélectionnez l’option « Délimité » puis sélectionnez l’option « séparé par un espace »

Et vous obtenez des logs tout propres que vous pouvez maintenant analyser
Vous pouvez maintenant facilement  explorer vos logs, comprendre ce qui se passe débusquer des tentatives de hack… Bref vous n’allez plus rien rater. Si vous avez aimé cet article n’hésitez pas à cliquer sur le bouton j’aime en bas de l’article.