Quel type d’information contient un fichier journal ?

Lors de l’utilisation d’un ordinateur, d’une navigation sur Internet avec une tablette ou lorsque vous exploitez un site Web sur un serveur, il existe de nombreux et différents processus qui se déroulent en arrière-plan de ces actions. Quand un problème survient, que des erreurs se produisent ou que vous souhaitez simplement en savoir plus sur le fonctionnement des actions d’un système d’exploitation, alors les fichiers log peuvent vous aidez. Ils sont automatiquement consignés par quasiment toutes les applications, serveurs, bases de données et systèmes.

En général les fichiers journaux (également fichiers de traces) sont rarement lus et évalués – ils remplissent en effet une fonction similaire à un enregistreur de vol, qui est inspecté uniquement en cas d’urgence. Grâce à la manière dont ils enregistrent les données, les fichiers log sont finalement une excellente source pour trouver les erreurs d’un système ou d’un programme et pour enregistrer le comportement des utilisateurs. Ceci est donc intéressant pour les fabricants de logiciels mais également pour les opérateurs de sites Internet, en effet ces derniers peuvent ainsi récolter de nombreuses données des fichiers journaux qui sont localisés sur le site Web.

Qu’est-ce qu’un fichier log ?

Les fichiers journaux sont l’historique des évènements et contiennent ainsi des fichiers textes simples. Cela comporte toutes les informations des processus qui ont été définies comme étant pertinentes par les programmeurs. Quand on arrive au niveau de la base de données du fichier journal, on y trouve tous les changements réalisés pour exécuter correctement les transactions. Si une partie de la base de données est supprimée, par exemple dans le cas d’une panne du système, alors le fichier journal est la base pour la bonne restauration, récupération des données.

Les fichiers log sont générés automatiquement en fonction de la programmation initiale. Mais il est tout de même possible de créer votre propre fichier journal, à condition d’être assez familier avec la méthode et l’aspect technique. En général, une ligne dans un fichier log contient l’information suivante : 

  • Enregistrement d’un évènement (par exemple le lancement d’un programme)
  • Horodatage, Ce qui associe une date et une heure à un évènement

En règle générale l’horodatage est préfixé pour tenir compte de l’ordre chronologique des évènements. 

Utilisation ordinaire du fichier journal

Les systèmes d’exploitation constituent plusieurs fichiers journaux standards dans lesquels différents types de processus sont associés. Par exemple le système Windows enregistre les informations des évènements de l’application, du système, de l’installation ou de la sécurité. Les administrateurs peuvent ainsi avoir un aperçu dans le fichier log correspondant à l’information, ce qui est utile pour corriger un problème. En outre les fichiers journaux de Windows indiquent notamment quel utilisateur s’est connecté au système. En plus des systèmes d’exploitation, les programmes et systèmes suivants collectent des donnés très différentes :

  • Les programmes d’arrière-plan comme par exemple les emails, les bases de données ou les serveurs proxy génèrent des fichiers journaux qui enregistrent surtout les erreurs et les messages d’évènements. Ce qui permet d’aider au niveau de la sécurité et notamment de restaurer une donnée lors d’un problème. 

  • Les Logiciels installés comme Programme Office, des jeux, Instant Messenger, un pare-feu, un logiciel antivirus, enregistrent aussi des données différentes dans les fichiers logs. Cela peut être également des configurations différentes ou des messages de conversations. Mais surtout, les accidents des programmes sont enregistrés, cela aide au traitement rapidement d’une erreur.

  • Les serveurs (notamment les serveurs Web) consignent les activités importantes du réseau, dont des informations importantes sur les utilisateurs et le comportement de ces derniers sur le réseau. De plus cela autorise les administrateurs à connaitre quel utilisateur a lancé une application ou téléchargé un fichier, combien de temps il a pris pour cela, et enfin quel système d’exploitation il a utilisé. L’analyse des fichiers log des serveurs Web est une ancienne méthode de contrôle du Web et un bel exemple des diverses utilisations des fichiers journaux.

Exemple type du potentiel des fichiers log : Les fichiers journaux des serveurs Web.

Initialement, les fichiers log des serveurs Web comme Apache ou Microsoft IIS  étaient l’option par défaut pour enregistrer et traiter une erreur de processus. On a rapidement découvert que le fichier journal d’un serveur Web contenait bien d’autres données importantes : des Informations sur l’accessibilité et la popularité des sites Internet hébergés sur le serveur ainsi que les données des utilisateurs comme :

  • L’heure et date de consultation
  • Le nombre de consultations
  • La durée de la session
  • L’adresse IP et le nom d‘hôte de l’utilisateur
  • Les informations sur le client demandeur (en général le navigateur)
  • Le moteur de recherche utilisé, dont les requêtes
  • Le système d’exploitation utilisé

Une entrée classique d’un fichier log d’un serveur Web se présente comme ci-dessous:

183.121.143.32 - - [18/Mar/2003:08:04:22 +0200] "GET /images/logo.jpg HTTP/1.1" 200 512 "http://www.wikipedia.org/" "Mozilla/5.0 (X11; U; Linux i686; de-DE;rv:1.7.5)"

Illustration détaillée des paramètres :

Sens Exemple Explication
Adresse IP 183.121.143.32 L’adresse IP de l’hôte demandeur
Vide - Identité par défaut non identifiée RFC 1413
Qui ? - Révèle le nom d’utilisateur, sous réserve que l’authentification HTTP a bien eu lieu, sinon cela reste vide comme dans cet exemple.
Quand ? [18/Mar/2003:08:04:22 +0200] Horodatage, ce qui signifie la date, l’heure et le décalage horaire.
Quoi ? GET /images/logo.jpg HTTP/1.1 L’évènement produit. Dans la cas présent une demande d’image via HTTP
Ok 200 Confirmation de la réussite de la requête (Codes de statut HTTP 200)
Combien ? 512 Si applicable : La quantité des données en Bytes
D’où ? http://www.wikipedia.org/ L’adresse Web d’origine du fichier
Comment ? Mozilla/5.0 (X11; U; Linux i686; de-DE;rv:1.7.5) Informations techniques de l’utilisateur : navigateur, système d’exploitation, le noyau, interface de l‘utilisateur, guide vocal, version

Afin d’évaluer le flux d’information, un outil comme Webalizer a été développé. Cet outil exploite les données des fichiers log pour les convertir en statistiques, tableaux et graphiques. Ces informations sont notamment nécessaires pour déterminer les tendances de la croissance d’un site Internet, la facilité d’utilisation de chaque page, les thèmes et mots-clés pertinents.

Même si l’analyse du fichier log du serveur Web continue d’être encore utilisée, Il existe désormais des nouvelles méthodes de l’analyse Web comme les Cookies et le marquage Web. Les raisons sont notamment le taux d’erreur élevé dans l‘analyse des données du fichier log dans le classement des sessions, de plus les opérateurs de site Web n’ont pas toujours accès au fichier journal du serveur Web. En revanche tous les messages d’erreur sont enregistrés immédiatement et de plus les données provenant de l’analyse du fichier log restent à l’intérieur de l’entreprise.