13. Kapitel - Statistik und Datenschutz

13.1. Proxy-Statistik

13.1.1. Proxy-Protokollierung

Im Menü Information > Statistik > Einstellungen wird konfiguriert, ob der im Intra2net System enthaltene Proxyserver (siehe 12. Kapitel, „Proxy“) alle Webseitenzugriffe in eine Logdatei protokollieren soll oder nicht. Außerdem können diese Logdateien auch automatisch ausgewertet und aufbereitet werden.

Die Proxy-Logdateien werden, wenn aktiviert, in monatsweise umbrochene Dateien geschrieben. Diese sind im Menü Information > System > Logdateien abrufbar. Sie werden im Standardformat des Squid-Proxys gespeichert. Dabei wird die Zeit als Unix-Zeit in Sekunden seit 1.1.1970 0:00h, UTC angegeben. Wenn Sie die Dateien von Hand durchsuchen möchten, empfiehlt es sich, die Zeit über die Funktion "Herunterladen mit normaler Zeit" umrechnen zu lassen.

13.1.2. Auswertung

Wenn aktiviert werden die Proxy-Logdateien auf Monatsbasis ausgewertet und als Statistik bereitgestellt. Der aktuelle Monat wird immer zur vollen Stunde aktualisiert. Diese Statistik ist unter Information > Statistik > Proxy abrufbar.

Die Statistik kann über die Auswahlbox in der oberen Zeile nach Webseiten, Rechnern oder Benutzern summiert werden. Eine Darstellung von Benutzerlogins ist nur sinnvoll, wenn der Proxy mit Authentifizierung genutzt wird.

Die Zeilen sind standardmäßig nach Zugriffsdauer sortiert, über einen Klick in die Kopfzeile können sie nach den anderen angezeigten Werten umsortiert werden.

Die Statistik kann von der Übersicht über Webseiten, Rechner und Benutzer weiter auf einzelne Rechner, Webseiten oder Tage eingegrenzt werden. Dies wird über einen Klick jeweils in die erste dargestellte Spalte erreicht.

Über das Pfeilsymbol hinter jeder Webseite kann diese direkt im Browser geöffnet und ihr Inhalt untersucht werden. Soll eine Seite in Zukunft gesperrt werden, so kann sie mit der Checkbox in der letzten Spalte markiert und über den Button unten direkt zu einer URL-Sperrliste hinzugefügt werden.

Viele Webseiten laden Ihren Inhalt, sei es nun Text oder Banner-Werbung, von unterschiedlichen Servern. Sie werden in Ihrer "Top 50 Webseiten" Auswertung deswegen Server wie google-analytics.com, doubleclick.net und weitere finden, welche beim Aufruf auf einer Webseite passiv mitgeladen wurden. Diese Inhalte wurde nicht aktiv vom Benutzer angesteuert.

13.1.3. Methodik

Im Folgenden wird beschrieben, wie die einzelnen Zugriffe kumuliert und in die dargestellten Werte umgewandelt werden.

Um eine Übersicht erst zu ermöglichen, speichert die Statistik nur einen verkürzten Namen der aufgerufenen Webadresse. Aus „http://www.web.de/shopping/“ sowie „web.de/mail/“ wird in beiden Fällen „web.de“.

Die meisten Webseiten bestehen nicht nur aus in HTML formatiertem Text, sondern auch aus Grafiken, Flash-Animationen etc. Um eine einigermaßen aussagefähige Zahl für die Anzahl der aufgerufenen Webseiten zu bekommen, werden für die unter Seitenzugriffe angezeigte Zahl nur die Aufrufe gezählt, bei denen einer der folgenden Datentypen übermittelt wurde:    

  • text/html

  • text/plain

  • text/javascript

Nach dem Abruf einer Webseite gibt es für den Proxy leider keine Möglichkeit, genau festzustellen, wie lange eine Seite wirklich gelesen wird. Deswegen kann die Proxy-Statistik die Dauer nur annähernd berechnen.

Für jeden Erstaufruf einer Webseite werden 60 Sekunden Verweildauer angesetzt. Erfolgt innerhalb dieser Minute ein weiterer Zugriff auf den gleichen Server, so wird der zeitliche Abstand zum letzten Zugriff auf die Dauer addiert. Ist der zeitliche Abstand zwischen zwei Zugriffen mehr als 60 Sekunden, so werden die ursprünglichen 60 Sekunden erneut angesetzt. Für die Verweildauer werden nur Abrufe von Datentypen gezählt, die auch als Seitenzugriff gezählt werden (siehe oben).

Bei Zeitraumübersichten wird die Anzahl der Seitenzugriffe einer Stunde zusammengefasst und das dargestellte Quadrat wird umso dunkler, je mehr Zugriffe in dieser Stunde stattfanden.

Wird der Zugriff auf eine Webseite durch einen Proxy-Filtermechanismus blockiert, so wird der Zugriff weiterhin wie ein normaler Zugriff protokolliert und ausgewertet. Eine getrennte Auswertung nach erlaubten und blockierten Zugriffen ist nicht möglich.