Data personal information discovery system

Data
2022-07-25
Título da revista
ISSN da revista
Título do Volume
Editora
Projetos de investigação
Unidades organizacionais
Fascículo
Resumo
A proteção de dados tem cada vez mais importância na era digital em que vivemos. As empresas têm agora políticas mais rigorosas dadas pela União Europeia acerca deste tema, o que faz com que a tecnologia evolua no sentido da criação de sistemas automáticos de deteção de dados sensíveis. A quantidade de dados que uma empresa lida diariamente está a aumentar exponencialmente, o que torna esta tarefa de proteção mais difícil. Atualmente existem sistemas automáticos capazes de detetar e classificar dados sensíveis, mas é de referir que existem poucas opções para o mercado português. Esta proposta de estágio surgiu da parceria da Deloitte Portugal com a Universidade de Trás-os-Montes e Alto Douro (UTAD) e teve como principal objetivo o de desenvolver uma ferramenta de software de modo a adaptá-la à deteção e identificação de dados sensíveis portugueses. Inicialmente, é feita uma investigação sobre os temas que envolvem o processamento de texto e de seguida, uma análise ao mercado atual de software, onde uma ferramenta foi escolhida para ser melhorada. Com a ajuda de técnicas de processamento de texto, como modelos de machine learning, foi criada uma nova versão deste software que mostra bons resultados quanto à identificação de dados sensíveis portugueses.
Protecting data is becoming more important due to the digital era we are living in. Companies have now strict policies given by the European Union (EU) regarding this theme, which calls for a technology evolution of automated systems that ensure the discovery of sensitive data. The amount of data that a company has to deal with is increasing exponentially, which difficult the task of protecting the sensitive data they own. Nowadays, there are automatic systems which are able to detect and classify sensitive data, but it is important to mention that there are only a few options for the Portuguese market. This internship proposal was born through a partnership between Deloitte Portugal and UTAD. It had the main objective of upgrading a software tool implementing new machine learning models or hand coded techniques for the detection of Portuguese sensitive data. In this report executed an investigation about several text processing methods and an analysis of the existing software providers in the market with features for data discovery. From all the analyzed software in the marked, we have chosen an open-source tool that already features several PII (Personally Identifiable information) related functionalities and extended it with the implementation of new machine learning models and functions. This lead to the creation of a new version of the software that presents good results focused on the Portuguese sensitive data identification.
Descrição
Internship report of Master Degree in Informatics Engineering
Palavras-chave
Dados sensíveis , Data discovery
Citação