Repository logo
Article

Web log compression

Loading...
Thumbnail Image

Date

Presentation Date

Editor

Other contributors

Access rights

Access: otwarty dostęp
Rights: AGH Licence
AGH Licence - Fair Use

Licencja AGH - Fair use of copyrighted works

Other title

Kompresja logów webowych

Resource type

Version

wersja wydawnicza
Item type:Journal Issue,
Automatyka
2007 - T. 11 - Nr 3

Pagination/Pages:

s. 417-424

Research Project

Event

Description

Abstract

Web log data store client activity on a particular server, usually in form of one-line »hits« with information like the client's IP, date/ time, requested file or query, download size in bytes etc. Web logs of popular sites may grow at the pace of hundreds of megabytes a day, or even more. It makes sense to archive old logs, to analyze them further, e.g. for detecting attacks or other server abuse patterns. In this work we present a specialized lossless Apache web log preprocessor and test it with combination of several popular general-purpose compressors. The test results show the proposed transform improves the compression efficiency of general-purpose compressors on average by 65% in case of gzip and 52% in case of bzip2.


Pliki z logami webowymi przechowują zapis aktywności klientów na danym serwerze, zwykle w formie jednolinijkowych wpisów zawierających informacje typu: numer IP maszyny klienta, data/czas dostępu do danego zasobu, rozmiar ściągniętego pliku w bajtach etc. Dane te, na popularnych serwerach www, mogą przyrastać w tempie setek megabajtów na dzień lub nawet wyższym. Archiwizacja »starych« logów jest jednak zalecana, głównie w celu ich analizy, np. mającej na celu wykrywanie ataków sieciowych i nietypowych (niepożądanych) wzorców zachowań. W niniejszej pracy przedstawiamy specjalizowany, zorientowany na kompresję, preprocesor dla logów serwera Apache i testujemy jego efektywność w połączeniu z kilkoma popularnymi kompresorami ogólnego przeznaczenia. Wyniki eksperymentów pokazują, że zaproponowana transformata poprawia efektywność kompresji o 65% (tj. 3-krotnie) w przypadku gzipa oraz o 52% w przypadku kompresora bzip2.

Access rights

Access: otwarty dostęp
Rights: AGH Licence
AGH Licence - Fair Use

Licencja AGH - Fair use of copyrighted works