Predikce biosyntézy terpenů pomocí strojového učení / Machine-learning prediction of terpene biosynthesis
- Authors
- Publication Date
- Jun 11, 2021
- Source
- Digital Library of the Czech Technical University in Prague
- Keywords
- License
- Unknown
Abstract
Biosyntéza v živých organismech se skládá z komplexních transformací molekul katalyzovaných enzymy. Ačkoli porozumění těmto biochemickým reakcím je zásadní pro moderní medicínu a strojové učení již prokázalo svou účinnost pro rozluštění velmi složitých problémů, predikce biosyntéz dosud nebyla studována. Dokonce i pro dobře definované reakce, jako je biosyntéza terpenů, velmi malé množství dosud charakterizovaných reakcí a komplikovanost jejich složek dělají problém zdánlivě neřešitelným. V této práci se zaměřuji na predikci biosyntézy seskviterpenů a navrhuji řešení nejprve snížením složitosti pomoci modelů strojového učení předtrénovaných na rozsáhlých databázích, a následovně využitím naučených vlastností na řešení primárního úkolu. Výsledky ukazují, že tento přístup umožňuje poměrně dobrou predikci reakcí biosyntézy seskviterpenů s použitím jen 315 trénovacích vzorků, a představuje tedy slibný směr pro další výzkum. / Biosynthesis in living organisms consists of complex molecular transformations catalyzed by enzymes. Even though deep understanding of such biochemical reactions is essential for modern medicine and machine learning has already proven its efficiency in unraveling complex tasks, the prediction of biosynthesis has not been studied yet. Even for highly conserved reactions, such as terpene biosynthesis, the relatively small amount of reactions characterized to date and the complexity of their components make the problem seem infeasible. In the present work, I focus on the prediction of sesquiterpene biosynthesis and propose a solution by first reducing the problem complexity with machine learning models pre-trained on large databases and then transferring the learned features to the primary task. Results show that the introduced approach allows for reasonable prediction of sesquiterpene biosynthetic reactions using only 315 training samples, which makes it remarkably interesting for further study.