Prediction of cancer cells resistance to therapy

Data
2021-12-09
Título da revista
ISSN da revista
Título do Volume
Editora
Projetos de investigação
Unidades organizacionais
Fascículo
Resumo
O cancro é um grupo complexo de doenças e uma das causas mais significativas de mortalidade em todo o mundo. É caracterizado pela presença de células com um crescimento descontrolado que podem invadir os tecidos próximos. Além disso, a elevada heterogeneidade do cancro, microambiente, plasticidade e complexidade biológica das células cancerígenas fazem com que a resistência aos fármacos seja um problema crescente e de complexa resolução. A avaliação da suscetibilidade laboratorial a fármacos anticancerígenos é uma tarefa cara e demorada. Torna-se por isso necessário desenvolver metodologias orientadas a tratamento de dados que possam prever esses fenótipos de maneira fácil e económica. Nos últimos anos, o desenvolvimento e aparecimento de novas tecnologias na área das ÓMICAs tornou possível a aquisição de uma grande quantidade de dados de células cancerígenas, permitindo assim a sua caracterização genotípica e fenotípica. Embora esses dados de ÓMICAs não representem totalmente o microambiente tumoral, têm auxiliado na produção de modelos pré-clínicos versáteis para estudar a farmacologia de fármacos anticancerígenos. É importante entender que, embora os recursos de dados sobre cancro sejam mais abundantes, a sua natureza é ainda pouco estruturada, muito heterogénea e dispersa, criando problemas técnicos significativos na sua análise. O objetivo principal desta tese foi desenvolver um modelo capaz de prever a suscetibilidade de linhas celulares de cancro a fármacos anticancerígenos disponíveis e aprovados. De forma a cumprir este objetivo procedeu-se à aquisição de informaçãode várias bases de dados disponíveis gratuitamente, incluindo dados de ÓMICAS relacionados com o cancro (expressão e mutações) e fenotípicos (valores CI50). Estes dados foram depois combinados com as correspondentes propriedades estruturais e físico-químicas dos fármacos. Todos os dados coletados foram pré-processados e usados para construir diferentes modelos de classificação com algoritmos de aprendizagem de máquina. O modelo com melhor performance foi depois selecionado e comparado com outros modelos idênticos descritos na literatura. O nosso melhor modelo foi uma DNN usando dados reduzidos por PCA, este obteve uma acurácia de 0,86, área sob a curva ROC de 0,84, precisão de 0,89, sensibilidade de 0,90, medida F1 de 0,89 e especificidade de 0,77, demostrou-se, de forma geral superior aos modelos usados para comparação. Desta forma concluímos que os modelos resultantes deste trabalho poderão no futuro vir a auxiliar na descoberta de novos compostos com atividade anticancerígena.
Cancer is a complex group of diseases and one of the most prominent causes of mortality worldwide. It is characterized by the presence of cells with uncontrolled growth that can invade nearby tissues. In addition, the high heterogeneity, microenvironment, plasticity, and biological complexity of cancer cells make drug resistance an overwhelming and growing problem. Evaluating anticancer drugs susceptibility in the laboratory is an expensive and time-consuming task. Therefore, it becomes necessary to develop data-oriented methodologies that predict these phenotypes in a low-cost and less time-consuming way. In recent years, the development and emergence of new technologies in the field of OMICS have made it possible to acquire large amounts of cancer cells data, thus allowing their genotypic and phenotypic characterization. Although these OMICS data do not fully represent the tumor microenvironment, they have helped produce versatile preclinical models to study the pharmacology of anticancer drugs. It is important to understand that, although cancer data resources are more abundant now than a few years ago, their nature is still poorly structured, very heterogeneous, and dispersed, creating technical problems in their further analysis. The main objective of this thesis was to develop a model capable of predicting the susceptibility of cancer cell lines against available and approved anticancer drugs. We acquired data from several freely available databases to fulfill this objective, including OMICS related to cancer (expression and mutations) and phenotypic (IC50 values). These data were then combined with the physicochemical and structural properties of the drugs. All collected data were pre-processed and used to build different classification models with machine learning algorithms. The model with the best performance was then selected and compared with other identical models in the literature. Our DNN model trained with data reduced by PCA obtained an accuracy metric of 0,86, AUC of 0,84, precision of 0,89, recall of 0,90, F1 of 0,89 and specificity of 0,77, outperformed these other models in almost every metric. Thus, we conclude that the models resulting from this work may in the future come to help in the discovery of new compounds with anticancer activity.
Descrição
Dissertação de Mestrado em Bioinformática e Aplicações às Ciências da Vida
Palavras-chave
Aprendizagem de Máquina , Biofísica
Citação