Automatic detection of gastric precancerous lesions on endoscopy images

Data
2022-07-26
Título da revista
ISSN da revista
Título do Volume
Editora
Projetos de investigação
Unidades organizacionais
Fascículo
Resumo
O cancro gástrico é um dos cancros mais mortais a nível mundial, visto que as lesões são demasiado complexas e por vezes um pouco difíceis de diferenciar do tecido saudável. Todos os cancros passam por fases de lesões pré-cancerígenas, que podem ser consideradas lesões associadas a um elevado risco de desenvolvimento de cancro a longo prazo. A vigilância regular e a deteção atempada de lesões pré-cancerígenas são essenciais para prevenir o cancro gástrico. Os cancros são geralmente assintomáticos nesta fase inicial, e a forma habitual de os detetar é através da endoscopia superior. A técnica requer a visualização em tempo real de imagens endoscópicas e a sua eficácia, em muitos casos, depende da experiência da clínica. O desenvolvimento de sistemas de diagnóstico assistido por computador (sistemas CAD) baseados em técnicas de inteligência artificial (IA) pode auxiliar os médicos em tempo real para possíveis lesões e ajudar os médicos com menos experiência. À data desta tese, ainda há poucos estudos sobre a aplicação de técnicas de aprendizagem profunda ao diagnóstico endoscópico de lesões pré-cancerígenas apesar de, nos últimos anos, estas técnicas terem sido utilizadas em várias modalidades de imagiologia médica para melhorar a precisão e eficácia do diagnóstico de várias lesões. Cada vez mais há necessidade de criar modelos fiáveis, justos, robustos e de alto desempenho e isto levou à criação de inteligência artificial explicável (XAI). O XAI é uma ferramenta que ajuda a compreender e interpretar o comportamento dos sistemas de IA. Foram produzidos e analisados mapas de ativação para apoiar as previsões dos modelos permitindo que os especialistas entendessem e confiassem nos resultados obtidos. Neste trabalho foram explorados e comparados os principais modelos de Redes Neurais Convolucionais (CNN’s), novos modelos com foco de atenção (modelos transformes), para classificação, de forma a contribuir para melhoria do rastreio automático de Cancro Gástrico Precoce (EGC) em imagens do trato gástrico obtidas por endoscópios. No entanto, a quantidade de dados de imagens endoscopias com EGC, anotadas e disponíveis em bases de dados publicas são bastante reduzidas. Assim sendo, utilizamos o dataset privado fornecido pelo Instituto Português de Oncologia (IPO), designado por Post-Maps. Com base na revisão literária feita para esta dissertação decidimos utilizar modelos de classificação como ResNet50, VGG16, Inception V3 e ViT, de modo a cumprir com o nosso objetivo. Relativamente aos trabalhos publicados pela comunidade científica os nossos modelos obtiveram um desempenho ligeiramente inferior e isto deve-se ao reduzido dataset. Assim sendo, o nosso modelo que obteve melhor desempenho foi ResNet 50 com uma sensibilidade de 0,75 (± 0.05), acurácia de 0,79 (± 0.01) e especificidade de 0,82 (± 0.04). Este modelo obteve uma AUC de 0,83 (± 0,01), onde o desvio padrão foi de 0,01, o que significa que todas as iterações do K-fold CV têm uma concordância mais significativa na classificação das amostras do que os outros modelos. A produção de mapas de ativação proporciona interpretabilidade para analisar e discutir a classificação tornando mais fácil para o médico de entender a decisão do modelo.
Gastric cancer is one of the deadliest cancers worldwide, as the lesions are too complex and sometimes a bit difficult to differentiate from healthy tissue. All cancers go through stages of precancerous lesions, which can be considered lesions associated with a high risk of developing cancer in the long term. Regular surveillance and timely detection of precancerous lesions are essential to prevent gastric cancer. Cancers are usually asymptomatic at this early stage, and the usual way to detect them is through upper endoscopy. The technique requires real-time visualization of endoscopic images, and its effectiveness in many cases depends on the experience of the clinic. The development of computer-aided diagnostic systems (CAD systems) based on artificial intelligence (AI) techniques can assist physicians in real time for possible injuries and help physicians with less experience. At the time of this thesis, there are still few studies on the application of deep learning techniques to endoscopic diagnosis of precancerous lesions although in recent years these techniques have been used in various medical imaging modalities to improve the accuracy and efficiency of diagnosis of various lesions. Increasingly there is a need to create reliable, fair, robust, and high-performance models, which has led to the creation of explainable artificial intelligence (XAI). XAI is a tool that helps understand and interpret AI systems' behavior. Activation maps were produced and analyzed to support model predictions allowing experts to understand and trust the results obtained. In this work, the main Convolutional Neural Networks (CNN's), and new models with the focus of attention (transform models), for classification were explored and compared to contribute to the improvement of automatic screening of Early Gastric Cancer (EGC) in gastric tract images obtained by endoscopes. However, the amount of data from endoscopic images with EGC, annotated and available in public databases is quite small. Therefore, we used the private dataset provided by the Instituto Português de Oncologia (IPO), designated Post-Maps. Based on the literature review conducted for this dissertation, we decided to use classification models such as ResNet50, VGG16, Inception V3, and ViT, to meet our goal. Relatively to the works published by the scientific community our models obtained a slightly inferior performance, and this is due to the reduced dataset. Therefore, our model that performed best was ResNet 50 with a sensitivity of 0.75 (± 0.05), an accuracy of 0.79 (± 0.01), and a specificity of 0.82 (± 0.04). This model obtained an AUC of 0.83 (± 0.01), where the standard deviation was 0.01, which means that all iterations of the K-fold CV have a more significant agreement in classifying the samples than the other models. The production of activation maps provides interpretability to analyze and discuss the classification making it easier for the physician to understand the decision of the model.
Descrição
Dissertação de Mestrado em Engenharia Biomédica
Palavras-chave
Machine learning , Classificação de EGC
Citação