Repository logo
Article

Compact representation of URL collections with fast access

creativeworkseries.issn1429-3447
dc.contributor.authorGrabowski, Szymon
dc.contributor.authorSwacha, Jakub
dc.date.available2017-08-25T10:54:49Z
dc.date.issued2011
dc.description.abstractEfektywna reprezentacja słownika fraz tekstowych jest klasycznym problemem mającym zastosowania m.in. w wyszukiwarkach internetowych i kontroli pisowni. Zazwyczaj słownik jest stosunkowo mały w stosunku do tekstu, z którego zebrano kolekcję fraz (słów), jednak w niektórych zastosowaniach liczba fraz może być ogromna, co praktycznie zmusza do wykorzystania kompresji. Jednym z takich przykładów są kolekcje adresów dokumentów internetowych, tj. kolekcje URL. Duże kolekcje URL wykorzystywane są np. w analizie dużych wycinków tzw. grafu webowego. W niniejszej pracy proponujemy efektywny algorytm kompresji ułożonych leksykograficznie kolekcji URL, z obsługą zapytań typu extract.pl
dc.description.abstractEfficient representation of a string dictionary is a well-known problem with applications e.g. in Web searchers and spellchecking. Traditionally, the dictionary is relatively minor compared to the text from which the terms (words) are collected, but in several applications the number of dictionary items is huge, making a compressed format highly desirable. One of those cases are document addresses on the Internet, i.e., their URLs. Large collections of URLs are useful e.g. in analyses of (possibly large portions of) the Web graph. In this work we present an efficient compression algorithm for lexicogra-phically ordered collections of URLs, supporting extract queries.en
dc.description.placeOfPublicationKraków
dc.description.versionwersja wydawnicza
dc.identifier.eissn2353-0952
dc.identifier.issn1429-3447
dc.identifier.nukatdd2012319012
dc.identifier.urihttps://repo.agh.edu.pl/handle/AGH/46423
dc.language.isoeng
dc.publisherWydawnictwa AGH
dc.relation.ispartofAutomatyka
dc.rightsAGH Licence - Fair Use
dc.rights.accessotwarty dostęp
dc.rights.urihttps://repo.uci.agh.edu.pl/info/licence-agh
dc.subjectsłowniki skompresowanepl
dc.subjectkompresja urlpl
dc.subjectswobodny dostęppl
dc.subjectgraf webowy. compressed dictionariespl
dc.subjectURL compressionpl
dc.subjectrandom accesspl
dc.subjectweb graphpl
dc.titleCompact representation of URL collections with fast accessen
dc.title.alternativeOszczędna reprezentacja kolekcji URL z szybkim dostępem do danychpl
dc.title.relatedAutomatyka
dc.typeartykuł
dspace.entity.typePublication
publicationissue.issueNumberZ. 3
publicationissue.paginations. 349-355
publicationvolume.volumeNumberT. 15
relation.isJournalIssueOfPublication97cba8ee-62b1-4dfb-a80e-75c1f921d405
relation.isJournalIssueOfPublication.latestForDiscovery97cba8ee-62b1-4dfb-a80e-75c1f921d405
relation.isJournalOfPublicationb16a3604-d334-41d9-9446-dfef1368171d

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Auto_2011_3_23.pdf
Size:
85.75 KB
Format:
Adobe Portable Document Format
Description:
Artykuł z czasopisma