Mostrar el registro sencillo del ítem

dc.creatorMachado, ítalo Dombrowski
dc.date.accessioned2025-04-22T09:46:33Z
dc.date.available2025-04-22T09:46:33Z
dc.date.issued2025-02-21
dc.identifier.citationMACHADO, Ítalo Dombrowski. Predição de Light Fields Utilizando Técnicas de Aprendizado Profundo. Orientador: Bruno Zatt. 2025. 148 f. Tese (Doutorado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2025.pt_BR
dc.identifier.urihttp://guaiaca.ufpel.edu.br/xmlui/handle/prefix/15744
dc.description.abstractThe increasing use of multiple cameras has led researchers to revisit the theory of Light Fields, which captures spatial and angular information, increasing the amount of stored data and requiring advanced compression techniques. Some approaches compress Light Fields by reorganizing them into pseudo-temporal sequences or using JPEG-Pleno, but the lack of block-level prediction or conversion to 3D may reduce compression efficiency, creating opportunities to explore block-level predictions that better leverage the 4D structure. Furthermore, recent research has achieved promising results by employing machine learning algorithms, such as convolutional neural networks, to perform prediction in both image and video encoders. However, there are numerous training techniques and convolutional neural network architec tures, and their performance varies significantly depending on the task and data type. Thus, this work proposes a method for training convolutional neural networks capable of adapting intra prediction in video encoders to exploit the angular and spatial redundancies present in Light Fields. All evaluation and development steps throughout the workflow were meticulously analyzed, providing a detailed explanation of the objectives of each technique, as well as their failures and successes. The EVC reference software was used to evaluate various architectures, such as autoencoders, Highway networks, and Residual networks, under different kernel configurations and hyperparameters, including data augmentation and learning rate decay methods. Another experiment conducted was the comparison of the SATD metric with MSE and SAD as loss functions during training. Additionally, structured and unstructured pruning techniques were evaluated to improve the efficiency of the trained models. At the end of the experiments, the resulting predictors consisted of approximately 1.3M parameters and, when validated, achieved a BD-Rate of -40.95% for the HM encoder and -46.89% for the VTM encoder. When validated by predicting the encoding of a second dataset, they achieved an efficiency improvement of -30.09% in the VTM encoder. Furthermore, the predictors proved to be competitive with the state of the art in Light Field compression, outperforming related works by approximately -20%.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Pelotaspt_BR
dc.rightsOpenAccesspt_BR
dc.subjectLight fieldspt_BR
dc.subjectPrediçãopt_BR
dc.subjectAprendizado de máquinapt_BR
dc.subjectCodificaçãopt_BR
dc.subjectPredictionpt_BR
dc.subjectMachine learningpt_BR
dc.subjectEncodingpt_BR
dc.titlePredição de Light Fields utilizando técnicas de aprendizado profundopt_BR
dc.title.alternativePrediction of Light Fields using deep learning techniquespt_BR
dc.typedoctoralThesispt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/4419120851329555pt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/8251926321102019pt_BR
dc.contributor.advisor-co1Porto, Marcelo Schiavon
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/5741927083446578pt_BR
dc.contributor.advisor-co2Palomino, Daniel Munari Vilchez
dc.contributor.advisor-co2Latteshttp://lattes.cnpq.br/3163503973303585pt_BR
dc.description.resumoO crescente uso de múltiplas câmeras tem levado pesquisadores a revisitar a teoria de Light Fields, que captura informações espaciais e angulares, aumentando a quantidade de dados armazenados e exigindo técnicas avançadas de compressão. Algumas abordagens comprimem Light Fields reorganizando-os em sequências pseudo-temporais ou utilizando JPEG-Pleno, mas a falta de predição em blocos ou a conversão para 3D pode diminuir a eficiência da compressão, criando oportunidades para explorar predições ao nível de blocos que aproveitem melhor a estrutura 4D. Além disto, pesquisas recentes têm obtido resultados interessantes ao utilizar algo ritmos de aprendizado de máquina como redes neurais convolucionais para realizar predição em codificadores tanto de imagens como de vídeos. Contudo, existem inúmeras técnicas de treinamento e arquiteturas de redes neurais convolucionais, e seus desempenhos variam drasticamente com o tipo de tarefa e dado. Desta maneira, este trabalho propõe um método de treinar redes neurais convolucionais capazes de adaptar a predição intra de codificadores de vídeo para explorarem as redundâncias angulares e espaciais presentes nos Light Fields. Todas as etapas de avaliação e desenvolvimento durante o fluxo de trabalho foram minuciosamente analisadas, com uma explicação detalhada dos objetivos de cada técnica, bem como suas falhas e sucessos. O software de referência do EVC foi utilizado para avaliar diversas arquiteturas como autoencoders, Highway, Residuais, sob diferentes configurações de kernel e hiperparâmetros como data augmentation e métodos de decaimento do learning rate. Outro experimento realizado foi a comparação da métrica de SATD com a MSE e a SAD como funções de perda no treinamento. Ainda, técnicas de poda es truturada e não estruturada foram avaliadas para aperfeiçoar a eficiência dos modelos treinados. Ao final dos experimentos, os preditores resultantes são constituídos por aproximadamente 1,3M de parâmetros e, quando validados, atingiram um BD-Rate de -40,95% para o codificador HM e -46,89% para o codificador VTM. Quando validados realizando a predição da codificação de um segundo dataset, atingiram uma melhora de eficiência no codificador VTM de -30,09%. Ainda, os preditores se mostraram competitivos com o estado-da-arte de compressão de Light Fields e superaram os trabalhos relacionados em torno de -20%.pt_BR
dc.publisher.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.publisher.initialsUFPelpt_BR
dc.subject.cnpqCIENCIAS EXATAS E DA TERRApt_BR
dc.publisher.countryBrasilpt_BR
dc.rights.licenseCC BY-NC-SApt_BR
dc.contributor.advisor1Zatt, Bruno
dc.subject.cnpq1CIENCIA DA COMPUTACAOpt_BR


Ficheros en el ítem

Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem