Semi-automatic instantiation of data cleaning operations specified at conceptual level

Data
2018-01-26
Título da revista
ISSN da revista
Título do Volume
Editora
Projetos de investigação
Unidades organizacionais
Fascículo
Resumo
A globalização dos mercados, bem como o surgimento de novos “paradigmas”, tais como a “Internet of things” e o “Big Data” associados ao desenvolvimento tecnológico que lhes servem de suporte levou a que as organizações tivessem ao seu dispor um grande volume de dados. Esse aumento de dados, associado à existência de novos modelos de negócio que surgiram com a globalização, levou, em alguns casos, à necessidade de adaptação dos sistemas de informação das organizações, e de integração de dados provenientes de diferentes repositórios de informação. A necessidade de as organizações lidarem com diferentes repositórios, ainda que no mesmo domínio, potencia o aumento de problemas de qualidade de dados, uma vez que os repositórios poderão não ter os mesmos esquemas ou poderão estar representados através de diferentes modelos de dados. Hoje em dia, grande parte das decisões tomadas pelas organizações depende da informação fornecida pelos seus sistemas de informação. Ora a informação produzida é baseada nos dados que as organizações detêm. Assim, quanto maior for a qualidade dos dados existentes, melhor será a informação gerada e melhores poderão ser as decisões das organizações. As abordagens existentes para a resolução dos problemas de qualidade dos dados recorrem à utilização de técnicas de limpeza de dados onde o especialista define em primeiro lugar as operações de deteção de problemas de qualidade de dados e posteriormente as operações de correção associadas. Uma grande parte das abordagens existentes para a limpeza de dados são específicas para um determinado modelo de dados, ou encontram-se associadas a um determinado esquema. Caso as operações de limpeza de dados se encontrem associadas a um modelo de dados ou a um esquema específico, torna-se difícil a sua aplicação em repositórios representados através doutros modelos de dados ou outros esquemas. As abordagens existentes não permitem pois a reutilização das operações de limpeza de dados existentes. Considerando este contexto, foi proposta uma abordagem que visa a reutilização do conhecimento existente (operações de limpeza) procurando reduzir a intervenção do especialista na especificação das operações de limpeza de dados e que permite uma maior interoperabilidade das mesmas. Para tal, as operações de limpeza de dados são especificadas ao nível conceptual. De acordo com a abordagem proposta, as operações de limpeza previamente especificadas poderão ser sugeridas ao perito, em função de cada caso concreto. Para que esta sugestão seja possível, tem de existir informação que seja comum entre a conceptualização de um domínio e o repositório com problemas de qualidade de dados a serem detetados. Esta nova abordagem visa resolver problemas decorrentes de potenciais dissemelhanças entre a conceptualização do domínio e esse repositório, quer ao nível do esquema, quer ao nível do modelo de dados. A utilização de ontologias para a formalização da semântica das operações de limpeza de dados permite que estas deixem de estar associadas a um esquema ou modelo de dados específico. A existência de um conjunto de correspondências entre ontologias (ontology matching) ajuda a resolver a heterogeneidade semântica entre as mesmas. O estabelecimento de correspondências entre ontologias e o aumento da sua expressividade potencial é um processo ainda em estudo por diversos autores. A ontologia criada por Fürber e Hepp (Data Quality Management Ontology) permitiu a criação de um vocabulário para a representação de operações de deteção e correção de problemas de qualidade de dados. Esta ontologia pode ser expandida de modo a incorporar problemas de qualidade de dados não considerados originalmente pelos autores (E-DQM). As ferramentas de limpeza de dados existentes encontram-se associadas ao esquema de um repositório, seja ele uma ontologia ou outro tipo de repositório. Este fator limita a interoperabilidade das operações de limpeza de dados. Após a análise das abordagens atualmente existentes foi desenvolvida uma metodologia com dois objetivos: permitir a reutilização do conhecimento existente sobre operações de limpeza de dados apoiando o perito na especificação de novas operações; e permitir a reutilização das operações de limpeza de dados em novos repositórios, independentemente do seu esquema e do seu modelo de dados, garantindo desta forma a interoperabilidade das operações. A metodologia proposta baseia-se em três camadas: camada de dados concretos (CDL - Concrete Data Layer), camada de dados abstractos (ADL - Abstract Data Layer) e camada de interligação (BL - Bridge Layer). A camada CDL contém um processo semi-automático de limpeza de dados (DCP - Data Cleaning Process), aplicando a um repositório com problemas de qualidade de dados um conjunto de operações de deteção de problemas e de limpeza de dados especificadas de acordo com esse repositório e de acordo com o vocabulário específico da ferramenta de limpeza de dados, baseadas numa ontologia de domínio e num vocabulário específico. A camada ADL contém um processo semi-automático de especificação de operações de limpeza de dados (DCOSP - Data Cleaning Operation Specification Process) de acordo com a conceptualização de um dado domínio/aplicação e de acordo com um vocabulário que define univocamente a estrutura e a semântica das operações de limpeza de dados, independentemente de qualquer repositório específico. A camada BL permite a interligação entre a CDL e a ADL através de dois processos distintos: o DAP - Data Abstraction Process, composto por um processo de estabelecimento de correspondências entre os esquemas da ontologia de domínio e do repositório com problemas de qualidade de dados e por um processo de transformação de dados representados numa conceptualização (repositório de destino) em dados representados noutra conceptualização (ontologia de domínio); e o DCORP – Data Cleaning Operation Rewriting Process, processo semi-automático de reescrita de operações de limpeza de dados definidas a um nível abstrato, para uma aplicação concreta. De acordo com a metodologia proposta, o procedimento de limpeza de dados compreende as seguintes etapas: (i) seleção da ontologia de domínio (existente ou nova), (ii) verificação da necessidade de conversão dessa ontologia para outra conceptualização, (iii) alinhamento entre a ontologia de domínio e o repositório de destino, (iv) definição do Data Cleaning Operation Domain de acordo com o vocabulário, (v) reescrita das operações de limpeza de dados de acordo com a ferramenta de limpeza a utilizar e (vi) execução das operações de limpeza reescritas sobre o repositório de destino. A ferramenta de limpeza de dados escolhida foi o SmartClean, por ser uma ferramenta académica, facilmente disponível, com uma taxonomia associada, porque se aplica a bases de dados relacionais (que ainda são muito comuns hoje em dia) e porque permite aplicar a metodologia proposta a um modelo de dados diferente do modelo de Fürber e Hepp. Para que seja exequível a sugestão de operações de limpeza de dados ao perito, é necessária a existência de uma lista de operações de limpeza de dados para o domínio em causa, previamente especificada por um especialista de domínio, e é necessário que as respetivas estrutura e semântica estejam representadas em E-DQM. O processo de reescrita das operações de limpeza de dados (DCORP) pode ser encarado como uma função, cuja imagem são operações escritas de acordo com a estrutura do repositório de destino e no vocabulário da ferramenta concreta a utilizar, e cujos argumentos são: a ontologia de domínio, o vocabulário de especificação das operações (na camada ADL), o esquema de dados do repositório de destino, a lista de operações de limpeza previamente especificadas pelo especialista de domínio e o vocabulário da ferramenta a utilizar. O processo de reescrita pode ser composto por duas etapas, em conformidade com (i) diferenças entre o vocabulário de especificação das operações e o vocabulário da ferramenta de limpeza e (ii) diferenças entre as estruturas de dados da ontologia de domínio e do repositório de destino. A aplicação da metodologia a um caso real permitiu verificar a exequibilidade das propostas, nomeadamente: a representação de operações a um nível conceptual independente do esquema e do modelo de dados do repositório de destino, a reescrita das operações, a sua sugestão ao perito e a sua execução sobre o repositório de destino. A ferramenta de alinhamento Alignment API mostrou-se algo limitativa na especificação dos alinhamentos, levantando a necessidade de exploração futura de ferramentas mais expressivas, como o E-DOAL, sobretudo na resolução de casos contendo expressões matemáticas, agregações ou transformações. As experiências revelaram igualmente a necessidade de um estudo de alternativas de reescrita das operações de limpeza contendo funções atualmente não suportadas pelas ferramentas de limpeza. Foram apresentadas limitações da metodologia, bem como do processo de reescrita com o intuito de apresentar trabalhos futuros. Trabalhos futuros deverão ainda incluir a experimentação da metodologia proposta em repositórios de diferentes domínios e com modelos de dados diversos.
Organizations deal with an ever increasing amount of data. Globalization and new business models brought about the need for more complex information systems and for the integration of data from different repositories. This in turn has led to an increase of potential data quality problems (DQPs), with consequences at information and management decisions' levels. Current approaches tackling DQPs rely on the specification by an expert of the most appropriate Data Cleaning Operations (DCOs), i.e., for detecting and correcting DQPs. Most of these approaches, and the corresponding data cleaning tools (DCTs) are tied to a specific data model or a specific schema, which makes their DCOs difficult to reuse in different situations. The use of ontologies to represent the semantics of DCOs unties the link to specific schemas or data models. Furber & Hepp built an ontology (Data Quality Management Ontology) and a vocabulary for DCOs. The use of these ontologies along with the establishment of correspondences (ontology matching) between ontologies helps to solve their semantic heterogeneity. These correspondences along with the improvement of their expressivity is a field of ongoing research. Nevertheless, solutions proposed up to this date are still linked to specific data models. For instance, Fürber e Hepp’s vocabulary is specified for RDF/OWL data models. Hence, this is still a factor limiting the interoperability of DCOs. In this dissertation, a new approach has thus been proposed with a twofold objective: (i) the reduction of human intervention and expertise; and, (ii) the increase in the interoperability of DCOs. The former objective is achieved through the reuse of DCO's pre-existing knowledge and the suggestion of DCOs to the expert. The latter through a more abstract specification of DCOs independently of schema or data model. The proposed approach is based upon three layers: (i) a Concrete Data Layer (CDL), containing a semi-automatic data cleaning process in which DCOs are targeted to a specific repository and defined in the vocabulary of the DCT in question; (ii) an Abstract Data Layer (ADL), containing a semi-automatic DCO specification process according to a domain ontology and a more abstract vocabulary; and, (III) a Bridge Layer (BL) interconnecting the two, which relies on alignments between the target repository and the domain ontology and between DCO's vocabularies. The rewriting of DCOs from the ADL to the CDL is a function of the domain ontology, the abstract DCO vocabulary, the data model and schema on the target repository, DCOs previously defined by the expert and the vocabulary of the DCT. The complexity of this function depends upon differences at (i) data model and schema and (ii) vocabulary levels. This approach was applied to a real case, demonstrating the practicability of the proposal. Future works should mainly address the use of more expressive alignment tools, like E-DOAL, and alternate ways to rewrite DCOs containing functions not supported by present DCT.
Descrição
Tese de Doutoramento em Informática
Palavras-chave
Dados , Limpeza , Ontologias , Vocabulário , Esquemas , Processo de rescrita
Citação