Classificação Automática de Castas de Uva utilizando Deep Learning (Automatic Grapevine Variety Classification using Deep Learning)

Projetos de investigação
Unidades organizacionais
Fascículo
Resumo
O vinho é um dos produtos mais importantes produzidos em Portugal, sendo a casta da uva um fator decisivo para garantir singularidade, autenticidade e qualidade do produto. Na Região Demarcada do Douro, somente algumas castas são permitidas, implicando na necessidade de um mecanismo de identificação. A ampelografia é uma das formas mais acuradas de identificar castas de uva. Entretanto, os ampelógrafos, profissionais que usam análise visual das característica fenotípicas das vinhas para classificar as castas, estão desaparecendo. Perante esta situação, os métodos baseados em Deep Learning para identificação automática de castas a partir de imagens se tornam uma alternativa para lidar com a escassez de tais profissionais. Nesta dissertação é apresentado um estudo da utilização de modelos de Deep Learning para identificação automática de castas de uva a partir de imagens adquiridas no campo. Dez experimentos foram conduzidos, de maneira que modelos pré-treinados no ImageNet foram retreinados para tal tarefa. Nesses experimentos foram analisados: o impacto de diferentes configurações de fine-tuning; a utilização de segmentação rudimentar como pré-processamento; as modificações trazidas pelo uso da Focal Loss; e o uso das arquiteturas pré-treinadas Xception, ResNet-101, MobileNetV2 e EfficientNet. Para avaliar os resultados, as métricas Escore F1 e Acurácia foram utilizadas, além das ferramentas de Explainable Artifical Intelligence LIME, Grad-CAM, e Grad-CAM++. Como resultado a EfficientNet foi a melhor arquitetura em termos custo computacional e métricas, atingindo Escore F1 e acurácia de 0.94, superando a acurácia do estado-da-arte em 16.7%. Além disso, foi possível constatar que: a escolha das camadas treinadas no fine-tuning afeta diretamente as regiões das imagens que os modelos usam para tomar decisões; o uso da Focal Loss diminui a performance do modelo em termos de métricas, mas leva-o a considerar regiões mais importantes para tomar decisões; segmentar o dataset antes da classificação diminui a performance, entretanto faz com que menos background seja levado em consideração quando o modelo toma decisões; e, nesta aplicação, o LIME gerou explicações mais apropriadas para comparar diferentes arquiteturas, enquanto as do Grad-CAM/Grad-CAM++ forem mais úteis na comparação de diferentes hiperparâmetros no treinamento de uma mesma arquitetura.
Wine is one the most important products from Portugal, being the grapevine variety very important to ensure uniqueness, authenticity and classification. In the Douro Demarcated Region, only certain grapevine varieties are allowed, implying the need for an identification mechanism. Ampeography remains one of the most accurate ways to identify grapevine species. However, the ampelographs, professionals that use visual analysis of the grapvines’ phenotypic characteristics to classify it, are disappearing. In this situation, one possible solution for ampelographs scarcity can be deep learning models. In this study is presented the study of using deep learning models to grapevine species identification from images acquired in-field. Ten experiments were conducted, so that pre-trained models in ImageNet were fine-tuned. In these experiments were analyzed: the impact of different fine-tuning configurations; the use of rough segmentation as a pre-processing tool; changes that happened when the Focal Loss is employed; and the architectures Xception, ResNet-101, MobileNetV2 and EfficientNet. The metrics score F1 and accuracy, and Explainable Artificial Intelligence approaches Grad-CAM, Grad-CAM++ and LIME were applied in order to evaluate the results. As a result, the EfficientNet was the better architecture, in terms of computation cost and metrics, achieving 0.94 of accuracy and F1 Score, outperforming the stateof-the-art’s accuracy by 16.7%. Furthermore, it was found that: the choice of the layers that will be trained in the fine-tuning directly affects the features that the model look to take decisions; the Focal Loss decrease the performance of the model, however it look at fewer background pixels when taking the decision; the use of the segmented dataset decreased the model performance, but it also looked to fewer background pixels to take decisions; and, in this application, LIME was appropriateto compare different architectures, while the Grad-CAM to compare different hyperparameters in the same architecture
Descrição
Dissertação submetida à UNIVERSIDADE DE TRAS-OS-MONTES E ALTO DOURO para obtenção do grau de MESTRE em Engenharia Informática
Palavras-chave
deep learning , identificação de castas
Citação