Repository logo
Article

Compact representation of URL collections with fast access

Loading...
Thumbnail Image

Date

Presentation Date

Editor

Other contributors

Access rights

Access: otwarty dostęp
Rights: AGH Licence
AGH Licence - Fair Use

Licencja AGH - Fair use of copyrighted works

Other title

Oszczędna reprezentacja kolekcji URL z szybkim dostępem do danych

Resource type

Version

wersja wydawnicza
Item type:Journal Issue,
Automatyka
2011 - T. 15 - Nr 3

Pagination/Pages:

s. 349-355

Research Project

Event

Description

Abstract

Efektywna reprezentacja słownika fraz tekstowych jest klasycznym problemem mającym zastosowania m.in. w wyszukiwarkach internetowych i kontroli pisowni. Zazwyczaj słownik jest stosunkowo mały w stosunku do tekstu, z którego zebrano kolekcję fraz (słów), jednak w niektórych zastosowaniach liczba fraz może być ogromna, co praktycznie zmusza do wykorzystania kompresji. Jednym z takich przykładów są kolekcje adresów dokumentów internetowych, tj. kolekcje URL. Duże kolekcje URL wykorzystywane są np. w analizie dużych wycinków tzw. grafu webowego. W niniejszej pracy proponujemy efektywny algorytm kompresji ułożonych leksykograficznie kolekcji URL, z obsługą zapytań typu extract.


Efficient representation of a string dictionary is a well-known problem with applications e.g. in Web searchers and spellchecking. Traditionally, the dictionary is relatively minor compared to the text from which the terms (words) are collected, but in several applications the number of dictionary items is huge, making a compressed format highly desirable. One of those cases are document addresses on the Internet, i.e., their URLs. Large collections of URLs are useful e.g. in analyses of (possibly large portions of) the Web graph. In this work we present an efficient compression algorithm for lexicogra-phically ordered collections of URLs, supporting extract queries.

Access rights

Access: otwarty dostęp
Rights: AGH Licence
AGH Licence - Fair Use

Licencja AGH - Fair use of copyrighted works