Cross-domain resource sharing: resource access recommendation based on semantics, provenance and traceability information

Data
2015-11-09
Título da revista
ISSN da revista
Título do Volume
Editora
Projetos de investigação
Unidades organizacionais
Fascículo
Resumo
A Internet cresceu recentemente para mais de três mil milhões de utilizadores¹. Isto representa ligeiramente mais de quarenta por cento de toda a população mundial. Em algumas redes sociais, mais de duzentas mil fotografias são enviadas a cada minuto². Este volume de criação e geração de conteúdos nas redes sociais torna a tarefa de partilhar recursos mais difícil para os utilizadores. A partilha típica de recursos na Internet é conseguida através da concessão de direitos de acesso dos utilizadores aos recursos, comummente restrito aos recursos alojados num único domínio. As políticas de acesso são, por conseguinte, emitidas para os utilizadores registados no mesmo domínio. A partilha de recursos com utilizadores não registados no mesmo domínio tem-se provado insegura ou difícil de alcançar. Referenciar e aceder a recursos protegidos por políticas de acesso em outros domínios Web (para além de onde eles estão alojados) é praticamente não suportado pelas aplicações Web atuais. Na partilha de recursos em diferentes domínios, tais dificuldades incentivam a clonagem dos recursos, a multiplicação da identidade interna e social do utilizador e o aumento do peso da gestão de políticas de acesso, de acordo com cada domínio. O objetivo deste trabalho é proporcionar uma infraestrutura multi-domínio que fornece processos de gestão e apoio à partilha de recursos, de forma segura. Para atingir este objetivo quatro principais questões de investigação são formuladas: QI1: Como pode um mecanismo distribuído, descentralizado e baseado em padrões realizar as responsabilidades de autenticação e autorização? QI2: O quê e como podem as ações dos utilizadores sobre os recursos serem capturadas? QI3: Como pode um utilizador partilhar um recurso com os restantes, com uma gestão de políticas de acessos baseada em regras, em vez de políticas discricionárias e estaticamente definidas? QI4: Como é que é possível automatizar ou facilitar o processo de gestão de políticas de acesso a recursos do ponto de vista do autor de um recurso e suas relações? Esta tese propõe um modelo de arquitetura distribuído e descentralizado que promove a partilha de recursos multi-domínio, a referenciação de recursos e a gestão de de acesso, adotando os princípios da Web e padrões/recomendações do World Wide Web Consortium (W3C). O modelo de arquitetura é composto por seis entidades interconectadas, capazes de: gerar identidade de utilizadores e suas credenciais de acesso; capturar ações e conteúdo gerados pelos utilizadores; verificar a autenticação de um utilizador; aplicar restrições de acesso sobre os recursos e apoiar os utilizadores na gestão de políticas de acesso. A proposta sugere a adoção do vocabulário Friend Of A Friend (FOAF) para representar os utilizadores, sua identidade interna e social. Em combinação com estes perfis, a adoção conjunta de Secure Socket Layer (SSL) e FOAF, fornece uma autenticação distribuída. A arquitetura incorpora mecanismos conceptuais para capturar as ações do utilizador sobre os recursos, que são representadas e armazenadas como anotações semânticas. Com base nestes anotações, o conceito de rastreio aplicado aos recursos da Internet é introduzido. As políticas de acesso são dissociadas dos recursos e dos seus pontos de aplicação. Os utilizadores mantêm total controlo sobre os seus recursos e é-lhes fornecida uma experiência de partilha de recurso multi-domínio independentemente de como o recurso é tratado pela infraestrutura, evitando a duplicação de recursos em diferentes domínios. A partilha de recursos deve ser alcançada através da definição de regras semânticas capazes de especificar a razão pela qual um recurso está a ser partilhado e com quem, em vez de estaticamente definir quem tem acesso a quê. Com o intuito de apoiar o utilizador na gestão de políticas de acesso, foi adicionado à infraestrutura um serviço de recomendação de políticas de acesso. O mecanismo de recomendação apresenta um motor híbrido que consiste na combinação de diferentes técnicas de filtragem que explora os perfis dos utilizadores, suas redes sociais, conteúdo de recursos e informação (distribuída) de proveniência e rastreio. Um protótipo para demonstrar a viabilidade da infraestrutura foi projetado e implementado para provar que o modelo de arquitetura pode ser implantado em cenários reais. Para ilustrar como a infraestrutura pode beneficiar aplicações legadas, foi também aplicada sobre uma aplicação Web já existente. A avaliação do protótipo foi realizada de duas formas diferentes para atestar a validade da proposta. Em primeiro lugar, um conjunto de testes funcionais foi realizado durante o protótipo para validar os componentes propostos. Em segundo lugar, a recomendação híbrida foi testada utilizando um conjunto de dados que foi interpretado para simular o comportamento humano no sistema. A adoção de um mecanismo híbrido de recomendação de políticas de acesso permitiu o enriquecimento dessas recomendações por utilizar informações adicionais que a arquitetura proporciona. As informações de proveniência e rastreio são utilizadas em conjunto com as redes sociais dos utilizadores e conteúdo dos recursos para automaticamente propor que políticas de acesso devem ser adicionadas a um determinado recurso. Enquanto o atual modelo de desenvolvimento seguido pela comunidade Web está definido para aprisionar os utilizadores (consumidores e editores) em grandes domínios Web, esta nova abordagem quebra o modelo existente, conferindo aos utilizadores um maior grau de controlo sobre os seus recursos. Esta nova abordagem fornece meios e suporte para a publicação de recursos num modo privado, fazendo com que os websites se comportem novamente, como malhas de recursos referenciadas e interligadas de diferentes domínios, que se mantêm em conformidade com as políticas de acesso estabelecidas. ¹http://www.internetlivestats.com/internet-users/ ²http://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/
The Internet has recently grown to over three billion users¹. This represents slightly more than forty per cent of the whole world population. On certain social networks, more than two hundred thousand photographs are uploaded every minute². Such rate of content generation and social network building make the task of sharing resources more difficult for users. Standard resource sharing in the Internet is achieved by granting users the access to resources, but they are commonly restricted to resources hosted on a single domain. Access policies are consequently issued to users registered on the same domain. Sharing resources with users that are not registered on the same domain has proven insecure or difficult to achieve. Referencing and accessing resources protected by access policies in other web domains (apart from where they are hosted) is practically unsupported by existing web applications. In cross-domain sharing, such difficulties encourage: the cloning of the resource to different domains; the multiplication of users’ internal and social identity and increases the burden of managing access policies according to each domain. The goal of this work is to provide a seamless cross-web-domain infrastructure that provides secure, rich and supportive resource managing and sharing processes. To achieve this goal, four main research questions are formulated: RQ1: How can a distributed, decentralised and standard-based mechanism perform authentication and authorisation? RQ2: What and how can user-generated actions upon resources be captured? RQ3: How can a user share a resource with others, based on rules instead of statically defined discretionary access control? RQ4: How is it possible to automate or ease the process of managing access policies to resources from a resource’s owner perspective and his/her relationships? This thesis proposes a distributed and decentralised architectural model by fostering cross-web-domain resource sharing, resource dereferencing and access policy management. It adopts the principles of the Web and of W3C standards/recommendations. The architectural model is comprised of six interconnected entities capable of: providing user identity and credentials; capturing user-generated actions and content; enforcing authentication and authorisation over resources; supporting users’ management of access policies. The proposal suggests the adoption of Friend Of A Friend (FOAF) vocabulary to represent users’ internal and social identity, complemented with Secure Sockets Layer (SSL) to provide distributed authentication. The architecture incorporates conceptual mechanisms to capture user actions over resources, which are further represented and stored as semantic annotations. Based on these annotations, the concept of traceability applied to Internet resources is introduced. Access policies are decoupled from resources and enforcement points. Users maintain full control over their resources and are provided with a cross-domain sharing experience disregarding how it is handled by the infrastructure, and avoiding the duplication of resources in different domains. Resource sharing is to be achieved by the definition of semantic rules capable of specifying the rationale behind the share. In order to support user management of access policies, a recommendation provider capable of recommending access policies to users is included in the architecture. The proposed recommendation engine features a hybrid engine consisting on the combination of different filtering techniques that exploit user profiles, their social networks, resources content, (distributed) provenance and traceability information. A prototype to demonstrate the infrastructure’s feasibility was designed and implemented to prove that the architecture model can be deployed in a real world scenario. Part of the infrastructure was also applied over a legacy web application to illustrate how it could benefit legacy applications. The prototype’s evaluation was performed in two different manners to attest the validity of the proposal. Firstly, a set of functional tests was conducted over the prototype to verify the proposed components. Secondly, the hybrid recommendation was tested using an available data set where information was interpreted to simulate human behaviour in the system. The adoption of a hybrid access-policy-recommendation engine enabled the enrichment of access policy recommendations by using additional information provided by the system. Captured provenance and traceability information are used together with the user’s social networks and resources’ contents as to automatically propose which access policies should be added to a certain resource. While the current web paradigm of web architecture is set to imprison users (consumers and publishers) in big web domains, this novel approach is set to disrupt this state of affairs by empowering users with a higher degree of control over their resources. It provides means and support for publishing resources in a private manner, hereby making websites behave (again) like meshes of dereferenced resources from different web domains, yet complying with the established access policies. ¹http://www.internetlivestats.com/internet-users/ ²http://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/
Descrição
Tese de Doutoramento em Informática
Palavras-chave
Internet , Ontologias , Segurança web , Semântica web
Citação