Methods for quality enhancement of voice communications over erasure channels

Neves, Filipe dos Santos

Methods for quality enhancement of voice communications over erasure channels

Ficheiros

phd_fsneves.pdf (2.28 MB)

Data

2015-09-23

Autores

Neves, Filipe dos Santos

Resumo

Esta tese apresenta um trabalho de investigação levado a cabo pelo autor no contexto da Qualidade de Experiência (Quality of Experience, QoE) em sistemas de comunicação de voz sujeitos a erros. Nela se identificam os problemas de investigação mais relevantes, dos quais decorre a motivação para a investigação apresentada, a começar pelas perturbações que contribuem para a degradação da inteligibilidade experimentada pelos utilizadores. De seguida é apresentada uma revisão das técnicas de melhoria da qualidade de voz em sistemas de comunicação sujeitos a erros de transmissão e perdas de dados, presentes actualmente na literatura. Neste contexto são abordadas as técnicas de dissimulação de perdas de pacotes (Packet Loss Concealment, PLC), de qualidade de serviço (Quality of Service, QoS) e de priorização de pacotes. Como consequência, surge a necessidade de avaliar a eficiência de uma determinada técnica. Neste âmbito, são descritos os métodos mais importantes actualmente utilizados para a avaliação da qualidade de voz telefónica tendo em conta os factores humanos de avaliação, inerentemente subjectiva. São assim apresentados os métodos subjectivos de avaliação da qualidade de voz, estabelecendo-se ao mesmo tempo a terminologia mais relevante. São também apresentados os métodos objectivos adequados a uma implementação computacional capaz de calcular uma pontuação relativa à qualidade de voz tal como seria pontuada por um utilizador médio. Neste contexto são estudados os métodos padrão mais amplamente aceites, a maior parte dos quais disponibilizados pela União Internacional de Telecomunicações (International Telecommunications Union, ITU). É dada especial ênfase ao denominado método PESQ (Perceptual Evaluation of Speech Quality), que usa à entrada um sinal de referência, e ao E-Model, que usa essencialmente os parâmetros que caracterizam o caminho extremo a extremo de uma ligação telefónica, incluindo os respectivos componentes, para determinar uma estimativa da qualidade de transmissão. No trabalho aqui apresentado é investigado um modelo prático de avaliação da qualidade de voz, validado de acordo com a recomendação P.564 do sector de padronizações da ITU (ITU Telecommunications Standardization Sector, ITU-T). Os resultados obtidos mostram que esse modelo cumpre os requisitos especificados para ser incluído na classe 2 de precisão. Como forma de melhorar a qualidade de voz, são também investigados dois algoritmos de interpolação linear que permitem reconstruir amostras perdidas em sinais de voz transmitidos através de canais com apagamentos. Após ser definido o conceito de dimensão na resolução de um problema, bem como os parâmetros chave que condicionam este tipo de problemas, são descritos e usados tanto um algoritmo de dimensão mínima como um algoritmo de dimensão máxima −a versão discreta do algoritmo de Papoulis-Gerchberg, de modo a implementar um método de reconstrução do sinal de voz. Os resultados obtidos permitem concluir que estes algoritmos são adequados para recuperar amostras perdidas devido a apagamentos que exibam uma geometria entrelaçada e assim considerar uma estrutura de amostras entrelaçada na fonte, como estratégia para colocar, a priori, o problema num ponto de bom condicionamento mediante escolha adequada dos parâmetros chave. Esta tese descreve ainda um estudo relativo à classificação de pacotes de voz, de acordo com a importância que cada um tem na qualidade de voz global. O estudo tenciona atribuir diferentes prioridades aos pacotes de modo a fazer perder preferencialmente os de menor importância em redes com a capacidade de implementar canais com diferentes prioridades. É assim proposto, e matematicamente formulado, um algoritmo de classificação de pacotes baseado numa abordagem de programação dinâmica de modo a definir um esquema de priorização para transmissão em redes que implementem prioridades. Os resultados mostram que perante perdas aleatórias de pacotes, os sinais sujeitos a priorização são menos distorcidos e apresentam uma melhor pontuação média de opiniões (Mean Opinion Score, MOS) que os sinais não sujeitos a qualquer priorização. É ainda proposta uma nova técnica que combina este método com o algoritmo de Papoulis-Gerchberg com o objectivo de explorar sinergias na reconstrução de sinal. Os resultados mostram uma diminuição no número de iterações deste algoritmo bem como uma diminuição no erro de reconstrução. No global, esta técnica contribui para melhorar o desempenho da reconstrução de sinal ao usar os algoritmos de dimensão máxima e de dimensão mínima, o que poderá revelar-se útil em aplicações de melhoria de QoE em comunicações de voz.
This thesis presents a research work carried out by the author in the context of the Quality of Experience (QoE) in error-prone voice communication systems. Relevant research problems are identified and so the motivation for the investigation herein presented is established, starting from the disturbances that contribute to the impairment of the intelligibility experienced by users. Then, a review of the most important techniques currently found in the literature to enhance voice quality in communication systems prone to transmission errors and data loss is presented. Packet Loss Concealment (PLC), Quality of Service (QoS) and packet prioritisation are addressed for this purpose. In the context of voice quality enhancement it is necessary to assess how much effective an enhancing technique is. Thus, the most significant methods used for telephony voice quality evaluation are described, considering the human subjective factors. Subjective methods of voice quality evaluation are reviewed and the relevant terminology is established. Then, objective methods, that are suitable for computational implementation to compute a score of the voice quality as it would be scored by an average subject are also reviewed. The most widely accepted and standard ones are studied, most of them released by the International Telecommunication Union (ITU). Special emphasis is given to Perceptual Evaluation of Speech Quality (PESQ), that uses a reference input signal and to E-Model, that essentially uses the characteristic parameters to provide an estimate of the transmission quality, taking into account the entire communication pathway of an end-to-end telephony system. A practical model for voice quality evaluation was investigated and validated according to the ITU Telecommunication Standardisation Sector (ITU-T) Rec. P.564 requirements. The results show that such a model complies with the therein specified class 2 of accuracy. Two linear interpolation algorithms permitting to reconstruct lost samples of voice signals transmitted through erasure channels are investigated and proposed as means to enhance the voice quality. After defining the concept of dimension in the resolution of a problem, as well as the key parameters that condition such kind of problems, the maximum dimension discrete version of the Papoulis-Gerchberg algorithm and a minimum dimension algorithm are described and used to implement a method of voice signal reconstruction. The results permit to conclude that these algorithms are suitable to recover missing samples when erasures exhibit an interleaved geometry and consider the interleaving structure of the samples in the source as a strategy to put, a priori, the problem in a well-conditioning point by judiciously choosing the key parameters. This thesis also describes a research study concerning voice packet classification according to the importance each one has in the overall voice quality. It aims to give them different priorities and preferentially lose those of less importance in networks with the capability of implementing channels with different priorities. A classification algorithm based on a dynamic programming approach is proposed and mathematically formulated to define a packet prioritisation scheme for transmission over priority networks. The results show that, under random packet loss, prioritised signals are less distorted and have better Mean Opinion Score (MOS) than signals sent without any priority. A novel technique combining this method and the Papoulis-Gerchberg algorithm is proposed with the aim of exploring synergies in the reconstruction of voice signals. The results show a decrease in the number of the Papoulis-Gerchberg iterations as well as a decrease in the reconstruction error. Overall, this novel technique contributes to enhance the performance of the signal reconstruction when using the maximum and minimum dimension processes, which can find useful applications in enhancing the QoE in voice communications.

Descrição

Tese de Doutoramento em Informática

Palavras-chave

Informática , Reconstrução de sinal , Qualidade de voz , Melhoria MOS , Priorização de pacotes

URI

http://hdl.handle.net/10348/4967

Coleções

TD - Teses de Doutoramento

Ver registo completo