Predição de Light Fields utilizando técnicas de aprendizado profundo

Machado, ítalo Dombrowski

dc.creator	Machado, ítalo Dombrowski
dc.date.accessioned	2025-04-22T09:46:33Z
dc.date.available	2025-04-22T09:46:33Z
dc.date.issued	2025-02-21
dc.identifier.citation	MACHADO, Ítalo Dombrowski. Predição de Light Fields Utilizando Técnicas de Aprendizado Profundo. Orientador: Bruno Zatt. 2025. 148 f. Tese (Doutorado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2025.	pt_BR
dc.identifier.uri	http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/15744
dc.description.abstract	The increasing use of multiple cameras has led researchers to revisit the theory of Light Fields, which captures spatial and angular information, increasing the amount of stored data and requiring advanced compression techniques. Some approaches compress Light Fields by reorganizing them into pseudo-temporal sequences or using JPEG-Pleno, but the lack of block-level prediction or conversion to 3D may reduce compression efficiency, creating opportunities to explore block-level predictions that better leverage the 4D structure. Furthermore, recent research has achieved promising results by employing machine learning algorithms, such as convolutional neural networks, to perform prediction in both image and video encoders. However, there are numerous training techniques and convolutional neural network architec tures, and their performance varies significantly depending on the task and data type. Thus, this work proposes a method for training convolutional neural networks capable of adapting intra prediction in video encoders to exploit the angular and spatial redundancies present in Light Fields. All evaluation and development steps throughout the workflow were meticulously analyzed, providing a detailed explanation of the objectives of each technique, as well as their failures and successes. The EVC reference software was used to evaluate various architectures, such as autoencoders, Highway networks, and Residual networks, under different kernel configurations and hyperparameters, including data augmentation and learning rate decay methods. Another experiment conducted was the comparison of the SATD metric with MSE and SAD as loss functions during training. Additionally, structured and unstructured pruning techniques were evaluated to improve the efficiency of the trained models. At the end of the experiments, the resulting predictors consisted of approximately 1.3M parameters and, when validated, achieved a BD-Rate of -40.95% for the HM encoder and -46.89% for the VTM encoder. When validated by predicting the encoding of a second dataset, they achieved an efficiency improvement of -30.09% in the VTM encoder. Furthermore, the predictors proved to be competitive with the state of the art in Light Field compression, outperforming related works by approximately -20%.	pt_BR
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Pelotas	pt_BR
dc.rights	OpenAccess	pt_BR
dc.subject	Light fields	pt_BR
dc.subject	Predição	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Codificação	pt_BR
dc.subject	Prediction	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Encoding	pt_BR
dc.title	Predição de Light Fields utilizando técnicas de aprendizado profundo	pt_BR
dc.title.alternative	Prediction of Light Fields using deep learning techniques	pt_BR
dc.type	doctoralThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/4419120851329555	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/8251926321102019	pt_BR
dc.contributor.advisor-co1	Porto, Marcelo Schiavon
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/5741927083446578	pt_BR
dc.contributor.advisor-co2	Palomino, Daniel Munari Vilchez
dc.contributor.advisor-co2Lattes	http://lattes.cnpq.br/3163503973303585	pt_BR
dc.description.resumo	O crescente uso de múltiplas câmeras tem levado pesquisadores a revisitar a teoria de Light Fields, que captura informações espaciais e angulares, aumentando a quantidade de dados armazenados e exigindo técnicas avançadas de compressão. Algumas abordagens comprimem Light Fields reorganizando-os em sequências pseudo-temporais ou utilizando JPEG-Pleno, mas a falta de predição em blocos ou a conversão para 3D pode diminuir a eficiência da compressão, criando oportunidades para explorar predições ao nível de blocos que aproveitem melhor a estrutura 4D. Além disto, pesquisas recentes têm obtido resultados interessantes ao utilizar algo ritmos de aprendizado de máquina como redes neurais convolucionais para realizar predição em codificadores tanto de imagens como de vídeos. Contudo, existem inúmeras técnicas de treinamento e arquiteturas de redes neurais convolucionais, e seus desempenhos variam drasticamente com o tipo de tarefa e dado. Desta maneira, este trabalho propõe um método de treinar redes neurais convolucionais capazes de adaptar a predição intra de codificadores de vídeo para explorarem as redundâncias angulares e espaciais presentes nos Light Fields. Todas as etapas de avaliação e desenvolvimento durante o fluxo de trabalho foram minuciosamente analisadas, com uma explicação detalhada dos objetivos de cada técnica, bem como suas falhas e sucessos. O software de referência do EVC foi utilizado para avaliar diversas arquiteturas como autoencoders, Highway, Residuais, sob diferentes configurações de kernel e hiperparâmetros como data augmentation e métodos de decaimento do learning rate. Outro experimento realizado foi a comparação da métrica de SATD com a MSE e a SAD como funções de perda no treinamento. Ainda, técnicas de poda es truturada e não estruturada foram avaliadas para aperfeiçoar a eficiência dos modelos treinados. Ao final dos experimentos, os preditores resultantes são constituídos por aproximadamente 1,3M de parâmetros e, quando validados, atingiram um BD-Rate de -40,95% para o codificador HM e -46,89% para o codificador VTM. Quando validados realizando a predição da codificação de um segundo dataset, atingiram uma melhora de eficiência no codificador VTM de -30,09%. Ainda, os preditores se mostraram competitivos com o estado-da-arte de compressão de Light Fields e superaram os trabalhos relacionados em torno de -20%.	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Computação	pt_BR
dc.publisher.initials	UFPel	pt_BR
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.rights.license	CC BY-NC-SA	pt_BR
dc.contributor.advisor1	Zatt, Bruno
dc.subject.cnpq1	CIENCIA DA COMPUTACAO	pt_BR

Ficheros en el ítem

Nombre:: Tese_Ítalo Dombrowski Machado.pdf
Tamaño:: 8.457Mb
Formato:: PDF

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

PPGC: Dissertações e Teses [230]
Dissertações e teses.

Mostrar el registro sencillo del ítem