Budowa optymalnych modeli uczenia na podstawie wtórnych źródeł wiedzy

In the research a new conception of knowledge extraction from data has been developed. The characteristic feature of this approach was the multiple (i.e. by means of different machine learning tools) analysis of a primary source of knowledge (e.g. decision table), which supplied multi¬ple learning models, called here secondary sources of knowledge. Two different methods were used in the re¬ search. The first one relies on a separate optimization of each developed secondary source. The second method was distinctly different. In the first step, all developed secondary sources (decision rules) were merged together and then, the entire joined (large) model, was optimized using the same set of generic operations. To generate learning models (in the form of decision rules) a few well-known machine learning algorithms were used. In the next step, these learning models (secondary sources) have been optimized using a set of generic optimization operations. Improved models for both methods, were then evaluated - via testing the classification accuracy. To summarize results obtained, it might be stated that the optimization of learning models, using generic operations, yielded quite interesting and satisfactory results. Namely, the error rate, number of rules, average number of conditions decreased, and average value of rule strength in- creased. The improvement of learning models will play a significant role in a case of very extended models, i.e. models which contain very large set of rules.

Badania zrealizowane w ramach niniejszej rozprawy dotyczyły zdefiniowania algorytmu optymalizującego modele uczenia (tj. wtórne źródła wiedzy) w postaci zbioru reguł decyzji utworzonych na podstawie analizy tablicy decyzji (tj. pierwotne źródło wiedzy) przy użyciu różnych algorytmów uczenia maszynowego. W toku badań zdefiniowano zestaw operacji działających na zbiorach reguł, przeznaczonych następnie do implementacji programowej w profesjonalnym narzędziu informatycznym. Ostatnim etapem pracy były klasyfikacyjne badania porównawcze opracowanego algorytmu. Badania zostały przeprowadzone w procesie analizy bazy informacyjnej znamion melanocytowych skóry, a także w odniesieniu do baz informacyjnych zaczerpniętych z repozytorium UCI. Badane bazy były zróżnicowane pod względem rodzaju atrybutów i ich liczebności. Analiza uzyskanych wyników klasyfikacji wskazuje, że zastosowanie opracowanego algorytmu umożliwia zmniejszenie wartości błędu klasyfikacji jak i poprawy parametrów opisujących modele uczenia, bez względu na typ analizowanych danych. Ponadto, modele podlegają istotnym modyfikacjom jakościowym. Następuje pewne uogólnienie modelu uczenia, przy jednoczesnym zmniejszeniu liczby reguł. Połączenie zaś modeli w jeden model globalny a następnie jego optymalizacja pozwala uzyskać modele o właściwościach porównywalnych a niekiedy lepszych w stosunku do od¬rębnie optymalizowanych modeli. Zastosowane operacje generyczne znacznie eliminują zjawisko nadmiarowości w modelach uczenia, uzupełniając je nowymi, brakującymi regułami.

Access rights

Access: otwarty dostęp

Rights: AGH Licence (Doctoral dissertation) 1.0

AGH Licence (Doctoral Dissertationes) 1.0 - Fair use of copyrighted works

URI

https://repo.agh.edu.pl/handle/AGH/43976

Collections

Rozprawy doktorskie (dostęp otwarty)

Full item page