Fúze dat ze duálních senzorů RGB a termo kamery / Fusion of data from dual RGB sensors and thermal camera
- Authors
- Publication Date
- Jun 13, 2024
- Source
- Digital Library of the Czech Technical University in Prague
- Keywords
- License
- Unknown
Abstract
V oblasti námořní navigace je při vyhýbání se kolizím tradičně spoléháno na lidský zrak, který je ale omezený především v nepříznivých podmínkách. Tato práce se zabývá integrací multimodální detekce objektů pomocí termální a RGB obrazové kamery pro zlepšení situačního povědomí v těchto podmínkách. Je představen přístup založený na hlubokém učení pro vyhledávání korespondencí a odhad homografie, který umožňuje přesné zarovnání a propagaci anotací skrz modality. Toto zarovnání je následně použito k vytvoření datasetu. Na tomto datasetu je natrénováno a vyhodnoceno několik state-of-the-art architektur a architektur navržených v této práci. Výsledky benchmarků ukázaly, že využití druhé modality zlepšuje výkon napříč různými metrikami. Zvláště architektury založené na transformerech, jako je CMX, dosahují nejvyššího výkonu, avšak za cenu zvýšené složitosti a delších časů inferencí. Jednodušší modely, jako náš navržený WNet-S, vykazují konkurenceschopné výsledky s lepší efektivitou, což naznačuje, že složitost ne vždy koreluje s lepším výkonem. / In the maritime domain, navigation and collision avoidance traditionally rely on human vision, which is limited, especially under adverse environmental conditions. This thesis addresses the integration of multimodal object detection using thermal and RGB images to enhance situational awareness in these environments. A deep learning-based approach is introduced for correspondence search and homography estimation, enabling precise alignment and annotation propagation. This alignment is subsequently used to create a high-quality dataset. Several state-of-the-art architectures and our proposed architectures are trained and evaluated on this dataset, revealing that leveraging a second modality leads to improved performance across various metrics. Notably, transformer-based architectures like CMX show the highest performance but at the cost of increased complexity and inference times. Simpler models, such as our proposed WNet-S, demonstrate competitive results with better efficiency, indicating that complexity does not always correlate with better performance.