Please use this identifier to cite or link to this item: http://hdl.handle.net/10348/11436
Title: Data personal information discovery system
Authors: Teixeira, Flávio Joel Sampaio
Advisor: Martins, Paulo Nogueira
Duarte, Daniel Belém de Almeida
Keywords: Dados sensíveis
Data discovery
Issue Date: 25-Jul-2022
Abstract: A proteção de dados tem cada vez mais importância na era digital em que vivemos. As empresas têm agora políticas mais rigorosas dadas pela União Europeia acerca deste tema, o que faz com que a tecnologia evolua no sentido da criação de sistemas automáticos de deteção de dados sensíveis. A quantidade de dados que uma empresa lida diariamente está a aumentar exponencialmente, o que torna esta tarefa de proteção mais difícil. Atualmente existem sistemas automáticos capazes de detetar e classificar dados sensíveis, mas é de referir que existem poucas opções para o mercado português. Esta proposta de estágio surgiu da parceria da Deloitte Portugal com a Universidade de Trás-os-Montes e Alto Douro (UTAD) e teve como principal objetivo o de desenvolver uma ferramenta de software de modo a adaptá-la à deteção e identificação de dados sensíveis portugueses. Inicialmente, é feita uma investigação sobre os temas que envolvem o processamento de texto e de seguida, uma análise ao mercado atual de software, onde uma ferramenta foi escolhida para ser melhorada. Com a ajuda de técnicas de processamento de texto, como modelos de machine learning, foi criada uma nova versão deste software que mostra bons resultados quanto à identificação de dados sensíveis portugueses.
Protecting data is becoming more important due to the digital era we are living in. Companies have now strict policies given by the European Union (EU) regarding this theme, which calls for a technology evolution of automated systems that ensure the discovery of sensitive data. The amount of data that a company has to deal with is increasing exponentially, which difficult the task of protecting the sensitive data they own. Nowadays, there are automatic systems which are able to detect and classify sensitive data, but it is important to mention that there are only a few options for the Portuguese market. This internship proposal was born through a partnership between Deloitte Portugal and UTAD. It had the main objective of upgrading a software tool implementing new machine learning models or hand coded techniques for the detection of Portuguese sensitive data. In this report executed an investigation about several text processing methods and an analysis of the existing software providers in the market with features for data discovery. From all the analyzed software in the marked, we have chosen an open-source tool that already features several PII (Personally Identifiable information) related functionalities and extended it with the implementation of new machine learning models and functions. This lead to the creation of a new version of the software that presents good results focused on the Portuguese sensitive data identification.
Description: Internship report of Master Degree in Informatics Engineering
URI: http://hdl.handle.net/10348/11436
Document Type: Master Thesis
Appears in Collections:DENG - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
decteixeira.pdf824,74 kBAdobe PDFThumbnail
View/Open
valteixeira.pdf1,16 MBAdobe PDFThumbnail
View/Open
teseteixeira.pdf1,61 MBAdobe PDFThumbnail
View/Open


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.