Framework para descoberta científica suportada por interação híbrida homem-máquina

Data
2022-01-25
Título da revista
ISSN da revista
Título do Volume
Editora
Projetos de investigação
Unidades organizacionais
Fascículo
Resumo
Compreender as interações nas comunidades científicas e as suas colaborações, tornou-se indispensável para a investigação propriamente dita. Assim sendo, a medição da similaridade entre documentos científicos poderá auxiliar os investigadores na identificação de grupos com interesses semelhantes, promovendo a colaboração e o reforço das ligações entre a academia e a indústria. Com este propósito, procura-se avaliar o desempenho de abordagens híbridas na medição de similaridade entre pares de documentos, atrav´es da complementaridade de resultados alcançados por crowd participants e algoritmos de inteligência artificial. Esta dissertação apresenta, assim, uma framework que integra dois componentes sequenciais, contendo dois tipos de processos destinados a perceber de que forma os sistemas que envolvem algoritmos computacionais podem colaborar com seres humanos, na medição de similaridade entre documentos científicos. A primeira componente envolve um conjunto de abordagens de Natural Language Processing (Processamento de Linguagem Natural) ou NLP e de Text Mining, na qual ´e utilizada a medida TFIDF e o modelo de representação Bidirectional Encoder Representation from Transformers (BERT). A segunda componente, consiste numa campanha de crowdsourcing, na qual os participantes (crowd participants) terão de indicar se os documentos cient´ıficos em causa são, ou não, da mesma autoria. A utilização de processos de crowdsourcing nas situações em que algoritmos automáticos não fornecem resultados satisfatórios, faculta uma visão preliminar na deteção de contribuições importantes da cooperação Human-AI. Partindo deste pressuposto, preconiza-se a medição de similaridade entre documentos científicos, visando alcançar um melhor suporte à decisão baseado num worflow híbrido. Assim sendo, acredita-se que os investigadores podem ser melhor informados sobre potenciais colaboradores, recorrendo a mecanismos híbridos de Human-AI baseados no conteúdo das suas publicações científicas.
Understanding the intellectual landscape of scientific communities and their collaborations has become an indispensable part of research per se. In this regard, measuring similarities among scientific documents can help researchers to identify groups with similar interests as a basis for strengthening collaboration and university-industry linkages. To this end, we intend to evaluate the performance of hybrid crowd-computing methods in measuring the similarity between document pairs by comparing the results achieved by crowds and artificial intelligence (AI) algorithms. That said, this dissertation presents a framework constituted by two sequential components that contain two types of experiments to illustrate some issues in calculating how similar an automatic solution is to a given ground truth. The first component involves a set of natural language processing (NLP) processes in which we used the TF-IDF measure and the Bidirectional Encoder Representation from Transformers (BERT) model. For the next component, we created a crowdsourcing campaign consisting of four human intelligence tasks (HITs) in which the participants had to indicate whether or not a set of papers belonged to the same author. The use of crowdsourcing processes in situations where automatic algorithms do not provide satisfactory results provides preliminary insights into detecting major contributions from human-AI cooperation at similarity calculation in order to achieve better decision support and the advantage of a hybrid workflow system in this matter. We believe that in this case decision makers can be better informed about potential collaborators based on content-based insights enhanced by hybrid humanAI mechanisms.
Descrição
Dissertação submetida à UNIVERSIDADE DE TRÁS-OS-MONTES E ALTO DOURO para obtenção do grau de MESTRE em Engenharia Informática
Palavras-chave
Affinity , BERT model
Citação