17/08/2015
Avez-vous envie de savoir ce que Google Explore sur votre site ? Avez-vous envie de connaitre quelles sont les 404 que GoogleBot a rencontrées avant que WebmasterTools vous les signales ? Quelles tentatives de hack sont utilisées contre votre site WordPress ? Vous êtes au bon endroit, car nous allons parler les logs serveur et de leur importance en SEO.
Les logs c’est quoi ?
On parle de log ou de « fichier journal », derrière ces mots barbares se cache un principe simplisme. Les logs ont pour rôle d’enregistrer sous format texte des évènements. Cela peut être des logs d’erreurs qui enregistreront les problèmes rencontrés ou encore des log d’accès. Ce sont ces derniers qui nous intéressent, les logs d’accès ou « access logs » sous apache enregistrent tous les accès HTTP à un domaine ou une série de domaines. L’avantage de l’analyse de logs (contrairement à une analyse de crawl) c’est que l’on ne rate rien. En effet si vous avez des pages orphelines (non reliés par des liens à la structure de votre site) l’analyse de log va les trouver à la différence d’une simple analyse de crawl.
Que trouvons-nous dans les logs d’accès ?
Dans les logs nous allons trouver tout un tas de choses, les accès à nos pages, les accès images, aux ressources (JavaScript, CSS…). Ces logs sont présentés sous forme de lignes contenant le domaine concerné, l’ip de la machine ayant accédé au fichier, ainsi que son nom (UserAgent)
Quel intérêt ?
Savoir qui accède et qui voit quoi est primordiale. En quoi l’analyse de log peut améliorer votre SEO, quelques exemples (non exhaustif).
- Éliminer le duplicate content : en SEO nous essayons d’éviter le plus possible le contenu dupliqué (2 contenus identiques sur 2 URL distinctes), si votre site génère des URL avec des paramètres, il y’a de grandes chances que vous vous retrouviez avec pas mal de contenus dupliqués. Exemple (http://exemple.com?article=4&category=3) si ensuite vous inversez (http://exemple.com?category=3&article=4) et que vous tombez sur le même contenu il y’a de grandes chances que votre site soit truffé de contenu dupliqué. Mais ce n’est pas toujours évident de découvrir le contenu dupliqué avant que Google vous ne l’annonce de manière violente en vous affichant 100 fois plus de résultats que vous avez de page quand vous tapez site:exemple.com dans Google.
- Eviter les 404 : en SEO nous avons aussi pour objectif d’éviter que Google rencontre des pages non trouvés. Imaginez que votre superbe Landing page optimisé pour le SEO est du jour au lendemain introuvable par Googlebot, je ne vous donne pas longtemps avant que vous perdiez la position associée à cette page.
- Localiser les 302 : les redirections 302 sont des redirections temporaires, mais elles ont le désavantage de ne pas transmettre la popularité d’un lien. Si la redirection doit durer dans le temps il faut qu’elle soit faite en 301, mais comment localiser toutes mes 302 ? Grâce à l’analyse de log
- Lister ses pages stratégiques : Trouvez vos pages qui génèrent du trafic depuis google sans pour autant utiliser Google Analytics. Vous pouvez par exemple avoir des pages orphelines (non reliés à la strucutre de votre sir mais qui génèrent des visites SEO, cela serait dommage de supprimer ces pages sans les rediriger.
- Identifier les tentatives de hack : c’est particulièrement vrai pour les sites sous WordPress, vous pourrez voir que des bots (robots) essayent d’utiliser des failles sur des plug-ins que vous n’utilisez pas…
L’intérêt de l’analyse de log c’est donc d’être à l’écoute de l’ensemble des accès de votre site.
Commment accéder à mes logs ?
Maintenant que vous, vous dites qu’explorer vos logs c’est indispensable et super vous vous demandez surement comment concrètement le faire.
Pour ce faire vous aurez besoin de récupérer vos logs, pour ce faire vous avez plusieurs choix en fonction de votre configuration. Soit vous êtes sur un hébergement mutualisé et il faudra surement se connecter à votre panel d’administration pour télécharger les précieux fichiers ( exemple pour OVH ) pour les traiter sur votre machine.
Sur un serveur dédié c’est plus simple, il suffit de se rendre dans (apache)
cd /var/log/apache2
Puis téléchargez l’ensemble de vos fichiers de logs en les zipant tapez
zip -r mes-logs.zip other_vhosts_access.log*
Puis téléchargez cette archive grâce à FTP, ou SFTP. Vous pouvez aussi déplacez ce fichier dans un dossier accessible en HTTP pour le télécharger exemple : (mv mes-logs.zip /home/antoine-home/www/)
Vous pouvez aussi laisser vos fichiers sur le serveur et les trier directement sur place, cependant il faudra faire attention à ne pas utiliser toutes les ressources de votre serveur en triant.
Pre-trier mes logs
La manière la plus simple de pre-trier vos logs c’est de le faire en ligne de commande grâce à grep puis de diriger la sortie vers un fichier séparé grâce à >>
Vous pouvez récupérer plusieurs types de données grâce aux commandes suivantes :
// Récupérer toutes les 404 rencontrés par Googlebot dans le fichier google.log
cat other_vhosts_access.log* | grep 'monbraceletnato.fr' | grep 'HTTP/1.1" 404' | grep -i 'googlebot' >> google.log
// Récupérer toutes les pages explorés par GoogleBot dans le fichier googleCrawl.log
cat other_vhosts_access.log* | grep 'monbraceletnato.fr' | grep 'HTTP/1.1" 200' | grep -i 'googlebot' >> googleCrawl.log
// Récupérer les tentatives de hack d un WordPress
cat other_vhosts_access.log* | grep 'monbraceletnato.fr' | grep 'HTTP/1.1" 404' | grep 'plugins' >> security.log
// lister les pages actives (pages ayant recu au moins une visite SEO)
cat other_vhosts_access.log* | grep 'monbraceletnato.fr' | grep 'HTTP/1.1" 200' | grep -i 'google.fr/url?' >> referer.log
Trier le fichier de sorti avec Excel
Vous allez donc obtenir un fichier se terminant en .log , mais vous aimeriez peut être utiliser Excel pour finement trier, non ?
Pour cela, ouvrez le fichier que nous venons de créer en ligne de commande avec Excel.
Sélectionnez la première colonne, et cliquez dans le menu sur « Donnés » puis sur « convertir ». Sélectionnez l’option « Délimité » puis sélectionnez l’option « séparé par un espace »
Et vous obtenez des logs tout propres que vous pouvez maintenant analyser
Vous pouvez maintenant facilement explorer vos logs, comprendre ce qui se passe débusquer des tentatives de hack… Bref vous n’allez plus rien rater. Si vous avez aimé cet article n’hésitez pas à cliquer sur le bouton j’aime en bas de l’article.