dc.creator | Machado, ítalo Dombrowski | |
dc.date.accessioned | 2025-04-22T09:46:33Z | |
dc.date.available | 2025-04-22T09:46:33Z | |
dc.date.issued | 2025-02-21 | |
dc.identifier.citation | MACHADO, Ítalo Dombrowski. Predição de Light Fields Utilizando Técnicas de Aprendizado Profundo. Orientador: Bruno Zatt. 2025. 148 f. Tese (Doutorado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2025. | pt_BR |
dc.identifier.uri | http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/15744 | |
dc.description.abstract | The increasing use of multiple cameras has led researchers to revisit the theory
of Light Fields, which captures spatial and angular information, increasing the amount
of stored data and requiring advanced compression techniques. Some approaches
compress Light Fields by reorganizing them into pseudo-temporal sequences or
using JPEG-Pleno, but the lack of block-level prediction or conversion to 3D may
reduce compression efficiency, creating opportunities to explore block-level predictions
that better leverage the 4D structure. Furthermore, recent research has achieved
promising results by employing machine learning algorithms, such as convolutional
neural networks, to perform prediction in both image and video encoders. However,
there are numerous training techniques and convolutional neural network architec tures, and their performance varies significantly depending on the task and data
type. Thus, this work proposes a method for training convolutional neural networks
capable of adapting intra prediction in video encoders to exploit the angular and
spatial redundancies present in Light Fields. All evaluation and development steps
throughout the workflow were meticulously analyzed, providing a detailed explanation
of the objectives of each technique, as well as their failures and successes. The EVC
reference software was used to evaluate various architectures, such as autoencoders,
Highway networks, and Residual networks, under different kernel configurations and
hyperparameters, including data augmentation and learning rate decay methods.
Another experiment conducted was the comparison of the SATD metric with MSE
and SAD as loss functions during training. Additionally, structured and unstructured
pruning techniques were evaluated to improve the efficiency of the trained models. At
the end of the experiments, the resulting predictors consisted of approximately 1.3M
parameters and, when validated, achieved a BD-Rate of -40.95% for the HM encoder
and -46.89% for the VTM encoder. When validated by predicting the encoding of
a second dataset, they achieved an efficiency improvement of -30.09% in the VTM
encoder. Furthermore, the predictors proved to be competitive with the state of the art
in Light Field compression, outperforming related works by approximately -20%. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Pelotas | pt_BR |
dc.rights | OpenAccess | pt_BR |
dc.subject | Light fields | pt_BR |
dc.subject | Predição | pt_BR |
dc.subject | Aprendizado de máquina | pt_BR |
dc.subject | Codificação | pt_BR |
dc.subject | Prediction | pt_BR |
dc.subject | Machine learning | pt_BR |
dc.subject | Encoding | pt_BR |
dc.title | Predição de Light Fields utilizando técnicas de aprendizado profundo | pt_BR |
dc.title.alternative | Prediction of Light Fields using deep learning techniques | pt_BR |
dc.type | doctoralThesis | pt_BR |
dc.contributor.authorLattes | http://lattes.cnpq.br/4419120851329555 | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/8251926321102019 | pt_BR |
dc.contributor.advisor-co1 | Porto, Marcelo Schiavon | |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/5741927083446578 | pt_BR |
dc.contributor.advisor-co2 | Palomino, Daniel Munari Vilchez | |
dc.contributor.advisor-co2Lattes | http://lattes.cnpq.br/3163503973303585 | pt_BR |
dc.description.resumo | O crescente uso de múltiplas câmeras tem levado pesquisadores a revisitar a
teoria de Light Fields, que captura informações espaciais e angulares, aumentando a
quantidade de dados armazenados e exigindo técnicas avançadas de compressão.
Algumas abordagens comprimem Light Fields reorganizando-os em sequências
pseudo-temporais ou utilizando JPEG-Pleno, mas a falta de predição em blocos ou a
conversão para 3D pode diminuir a eficiência da compressão, criando oportunidades
para explorar predições ao nível de blocos que aproveitem melhor a estrutura 4D.
Além disto, pesquisas recentes têm obtido resultados interessantes ao utilizar algo ritmos de aprendizado de máquina como redes neurais convolucionais para realizar
predição em codificadores tanto de imagens como de vídeos. Contudo, existem
inúmeras técnicas de treinamento e arquiteturas de redes neurais convolucionais, e
seus desempenhos variam drasticamente com o tipo de tarefa e dado. Desta maneira,
este trabalho propõe um método de treinar redes neurais convolucionais capazes de
adaptar a predição intra de codificadores de vídeo para explorarem as redundâncias
angulares e espaciais presentes nos Light Fields. Todas as etapas de avaliação e
desenvolvimento durante o fluxo de trabalho foram minuciosamente analisadas, com
uma explicação detalhada dos objetivos de cada técnica, bem como suas falhas
e sucessos. O software de referência do EVC foi utilizado para avaliar diversas
arquiteturas como autoencoders, Highway, Residuais, sob diferentes configurações
de kernel e hiperparâmetros como data augmentation e métodos de decaimento do
learning rate. Outro experimento realizado foi a comparação da métrica de SATD com
a MSE e a SAD como funções de perda no treinamento. Ainda, técnicas de poda es truturada e não estruturada foram avaliadas para aperfeiçoar a eficiência dos modelos
treinados. Ao final dos experimentos, os preditores resultantes são constituídos por
aproximadamente 1,3M de parâmetros e, quando validados, atingiram um BD-Rate de
-40,95% para o codificador HM e -46,89% para o codificador VTM. Quando validados
realizando a predição da codificação de um segundo dataset, atingiram uma melhora
de eficiência no codificador VTM de -30,09%. Ainda, os preditores se mostraram
competitivos com o estado-da-arte de compressão de Light Fields e superaram os
trabalhos relacionados em torno de -20%. | pt_BR |
dc.publisher.program | Programa de Pós-Graduação em Computação | pt_BR |
dc.publisher.initials | UFPel | pt_BR |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.rights.license | CC BY-NC-SA | pt_BR |
dc.contributor.advisor1 | Zatt, Bruno | |
dc.subject.cnpq1 | CIENCIA DA COMPUTACAO | pt_BR |