Foundation model for electronic health records
Relation
Local access
Defence Date
2026-04-15
Degree Date
Authors
Supervisors:
Reviewers:
Other title
Model bazowy elektronicznej dokumentacji medycznej
Resource type
Call number
Defence details
Physical Description:
Research Project
Description
Abstract
Rozprawa doktorska stawia hipotezę, że tokenizowane osie czasu zdrowia pacjenta (PHT), modelowane za pomocą generatywnych architektur transformatorowych, stanowią uniwersalną reprezentację elektronicznej dokumentacji medycznej (EHR), umożliwiającą budowę skalowalnych, chroniących prywatność i klinicznie wiarygodnych modeli bazowych. Praca postuluje odejście od wąsko wyspecjalizowanych modeli Al w ochronie zdrowia na rzecz ujednoliconych, ogólnego przeznaczenia ram modelowania. Hipotezę potwierdzają trzy główne wkłady. Po pierwsze, Enhanced Transformer for Health Outcome Simulation (ETHOS) wprowadził tokenizowaną reprezentację podłużnych danych klinicznych jako PHT i wykazał, że generatywne modelowanie zero-shot może skutecznie realizować różnorodne zadania kliniczne, m.in. predykcję śmiertelności, rehospitalizacji, długości pobytu, ocenę SOFA oraz klasyfikację DRG, bez dostrajania, ustanawiając jeden model bazowy dla heterogenicznych zadań. Po drugie, Adaptive Risk Estimation System (ARES) rozszerzył ETHOS o symulację wielu możliwych trajektorii pacjenta, umożliwiając adaptacyjne, spersonalizowane i wyjaśnialne szacowanie ryzyka. Po trzecie, Federated Timeline Synthesis (FTS) umożliwił prywatnościowe uczenie wieloośrodkowe poprzez lokalne generowanie syntetycznych osi czasu i ich centralną agregację, zachowując jakość predykcji przy ochronie danych wrażliwych. Prace te wywarły znaczący wpływ: ETHOS został szybko zaadaptowany i rozwinięty m.in. przez Microsoft Research i Epic Systems, potwierdzając skalowalność do setek milionów pacjentów. Całość dowodzi, że generatywne transformatory oparte na PHT mogą integrować predykcję, symulację, wyjaśnialność i wdrożenia federacyjne, tworząc podstawy dla skalowalnej i godnej zaufania klinicznej Al.
This dissertation advances the hypothesis that tokenized patient health timelines (PHTs), modeled with generative transformer architectures, provide a universal representation of electronic health records (EHRs) that enables scalable, privacy-preserving, and clinically faithful foundation models. The work argues for moving beyond task-specific healthcare AI toward unified, general-purpose modeling frameworks. Three contributions validate this hypothesis. First, the Enhanced Transformer for Health Outcome Simulation (ETHOS) introduced tokenized longitudinal health records as PHTs and showed that zero-shot generative modeling can perform diverse clinical tasks, including mortality, readmission, length of stay, SOFA estimation, and DRG classification, without fine-tuning, establishing a single foundation model for heterogeneous outcomes. Second, ETHOS was extended into the Adaptive Risk Estimation System (ARES), which simulates multiple patient futures to produce adaptive, personalized, and explainable risk estimates, demonstrating clinically meaningful inference through trajectory simulation. Third, Federated Timeline Synthesis (FTS) enabled privacy-preserving, multi-institutional training by generating synthetic timelines locally and aggregating them centrally; evaluations showed preserved predictive fidelity while protecting sensitive data. The framework has seen rapid impact, with ETHOS receiving over 30 citations in its first year and extensions by organizations such as Microsoft Research and Epic Systems, validating scalability to hundreds of millions of patients. Overall, this work demonstrates that generative transformers over tokenized patient timelines can unify prediction, simulation, explainability, and federated deployment, laying the foundation for scalable and trustworthy clinical AI.

