Mostrar el registro sencillo del ítem
Predição de Light Fields utilizando técnicas de aprendizado profundo
dc.creator | Machado, ítalo Dombrowski | |
dc.date.accessioned | 2025-04-22T09:46:33Z | |
dc.date.available | 2025-04-22T09:46:33Z | |
dc.date.issued | 2025-02-21 | |
dc.identifier.citation | MACHADO, Ítalo Dombrowski. Predição de Light Fields Utilizando Técnicas de Aprendizado Profundo. Orientador: Bruno Zatt. 2025. 148 f. Tese (Doutorado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2025. | pt_BR |
dc.identifier.uri | http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/15744 | |
dc.description.abstract | The increasing use of multiple cameras has led researchers to revisit the theory of Light Fields, which captures spatial and angular information, increasing the amount of stored data and requiring advanced compression techniques. Some approaches compress Light Fields by reorganizing them into pseudo-temporal sequences or using JPEG-Pleno, but the lack of block-level prediction or conversion to 3D may reduce compression efficiency, creating opportunities to explore block-level predictions that better leverage the 4D structure. Furthermore, recent research has achieved promising results by employing machine learning algorithms, such as convolutional neural networks, to perform prediction in both image and video encoders. However, there are numerous training techniques and convolutional neural network architec tures, and their performance varies significantly depending on the task and data type. Thus, this work proposes a method for training convolutional neural networks capable of adapting intra prediction in video encoders to exploit the angular and spatial redundancies present in Light Fields. All evaluation and development steps throughout the workflow were meticulously analyzed, providing a detailed explanation of the objectives of each technique, as well as their failures and successes. The EVC reference software was used to evaluate various architectures, such as autoencoders, Highway networks, and Residual networks, under different kernel configurations and hyperparameters, including data augmentation and learning rate decay methods. Another experiment conducted was the comparison of the SATD metric with MSE and SAD as loss functions during training. Additionally, structured and unstructured pruning techniques were evaluated to improve the efficiency of the trained models. At the end of the experiments, the resulting predictors consisted of approximately 1.3M parameters and, when validated, achieved a BD-Rate of -40.95% for the HM encoder and -46.89% for the VTM encoder. When validated by predicting the encoding of a second dataset, they achieved an efficiency improvement of -30.09% in the VTM encoder. Furthermore, the predictors proved to be competitive with the state of the art in Light Field compression, outperforming related works by approximately -20%. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Pelotas | pt_BR |
dc.rights | OpenAccess | pt_BR |
dc.subject | Light fields | pt_BR |
dc.subject | Predição | pt_BR |
dc.subject | Aprendizado de máquina | pt_BR |
dc.subject | Codificação | pt_BR |
dc.subject | Prediction | pt_BR |
dc.subject | Machine learning | pt_BR |
dc.subject | Encoding | pt_BR |
dc.title | Predição de Light Fields utilizando técnicas de aprendizado profundo | pt_BR |
dc.title.alternative | Prediction of Light Fields using deep learning techniques | pt_BR |
dc.type | doctoralThesis | pt_BR |
dc.contributor.authorLattes | http://lattes.cnpq.br/4419120851329555 | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/8251926321102019 | pt_BR |
dc.contributor.advisor-co1 | Porto, Marcelo Schiavon | |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/5741927083446578 | pt_BR |
dc.contributor.advisor-co2 | Palomino, Daniel Munari Vilchez | |
dc.contributor.advisor-co2Lattes | http://lattes.cnpq.br/3163503973303585 | pt_BR |
dc.description.resumo | O crescente uso de múltiplas câmeras tem levado pesquisadores a revisitar a teoria de Light Fields, que captura informações espaciais e angulares, aumentando a quantidade de dados armazenados e exigindo técnicas avançadas de compressão. Algumas abordagens comprimem Light Fields reorganizando-os em sequências pseudo-temporais ou utilizando JPEG-Pleno, mas a falta de predição em blocos ou a conversão para 3D pode diminuir a eficiência da compressão, criando oportunidades para explorar predições ao nível de blocos que aproveitem melhor a estrutura 4D. Além disto, pesquisas recentes têm obtido resultados interessantes ao utilizar algo ritmos de aprendizado de máquina como redes neurais convolucionais para realizar predição em codificadores tanto de imagens como de vídeos. Contudo, existem inúmeras técnicas de treinamento e arquiteturas de redes neurais convolucionais, e seus desempenhos variam drasticamente com o tipo de tarefa e dado. Desta maneira, este trabalho propõe um método de treinar redes neurais convolucionais capazes de adaptar a predição intra de codificadores de vídeo para explorarem as redundâncias angulares e espaciais presentes nos Light Fields. Todas as etapas de avaliação e desenvolvimento durante o fluxo de trabalho foram minuciosamente analisadas, com uma explicação detalhada dos objetivos de cada técnica, bem como suas falhas e sucessos. O software de referência do EVC foi utilizado para avaliar diversas arquiteturas como autoencoders, Highway, Residuais, sob diferentes configurações de kernel e hiperparâmetros como data augmentation e métodos de decaimento do learning rate. Outro experimento realizado foi a comparação da métrica de SATD com a MSE e a SAD como funções de perda no treinamento. Ainda, técnicas de poda es truturada e não estruturada foram avaliadas para aperfeiçoar a eficiência dos modelos treinados. Ao final dos experimentos, os preditores resultantes são constituídos por aproximadamente 1,3M de parâmetros e, quando validados, atingiram um BD-Rate de -40,95% para o codificador HM e -46,89% para o codificador VTM. Quando validados realizando a predição da codificação de um segundo dataset, atingiram uma melhora de eficiência no codificador VTM de -30,09%. Ainda, os preditores se mostraram competitivos com o estado-da-arte de compressão de Light Fields e superaram os trabalhos relacionados em torno de -20%. | pt_BR |
dc.publisher.program | Programa de Pós-Graduação em Computação | pt_BR |
dc.publisher.initials | UFPel | pt_BR |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.rights.license | CC BY-NC-SA | pt_BR |
dc.contributor.advisor1 | Zatt, Bruno | |
dc.subject.cnpq1 | CIENCIA DA COMPUTACAO | pt_BR |
Ficheros en el ítem
Este ítem aparece en la(s) siguiente(s) colección(ones)
-
PPGC: Dissertações e Teses [230]
Dissertações e teses.