Mostrar registro simples

dc.creatorSilveira Júnior, Garibaldi da
dc.date.accessioned2025-12-11T08:38:43Z
dc.date.available2025-12-10
dc.date.available2025-12-11T08:38:43Z
dc.date.issued2025-10-20
dc.identifier.citationSILVEIRA JÚNIOR, Garibaldi da. Desenvolvimento de Arquiteturas de Redes Neurais Profundas para Melhoria de Qualidade em Vídeos Comprimidos. Orientador: Guilherme Corrêa. 2025. 158 f. Tese (Doutorado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2025.pt_BR
dc.identifier.urihttp://guaiaca.ufpel.edu.br/xmlui/handle/prefix/18964
dc.description.abstractVideo consumption currently accounts for the majority of Internet data traffic, driven by emerging technologies such as virtual reality, 360° videos, and increasingly higher resolutions like 4K and 8K. To enable the transmission and storage of such content, video coding standards are employed to significantly reduce data volume. However, this compression process introduces visual artifacts that degrade the perceived qual ity for the end user. Post-processing solutions based on deep learning have proven effective in restoring visual quality. Therefore, the main objective of this thesis was the development of solutions based on deep neural network architectures to enhance the quality of compressed videos, considering different coding standards, compres sion scenarios, and quantization levels. Three main approaches were developed. The first, called multi-codec, was trained with videos compressed using multiple codecs (HEVC, VVC, AV1, and VP9) and demonstrated good generalization, with ∆PSNR gains ranging from 0.091 dB to 0.382 dB. The second approach, multi-domain, treated each codec as a separate domain during training, which increased the specialization potential of the network. This solution achieved superior results, with average ∆PSNR gains between 0.228 dB and 0.764 dB, in addition to bit rate reductions of up to 16.50% (BD-Rate) and consistent improvements in BD-PSNR. The final proposal, 3D-STDF, in corporated three-dimensional convolutions to more effectively and integratively capture spatio-temporal correlations between consecutive frames. This architecture achieved the best results, with a ∆PSNR of up to 0.85 dB (3D-STDF-L model) and a ∆SSIM of 0.016 at QP 37, while maintaining strong performance even under severe quantiza tion (e.g., 0.420 dB at QP 47). The model also achieved a BD-Rate of up to -16.50% and a BD-PSNR of 0.709 dB, outperforming other proposed architectures and demon strating a solid balance between performance and computational cost. These results show that the thesis contributed generalizable and effective solutions for compressed video restoration, balancing enhancement performance, generalization capability, and computational efficiency.pt_BR
dc.description.sponsorshipSem bolsapt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Pelotaspt_BR
dc.rightsOpenAccesspt_BR
dc.subjectRedes neurais profundaspt_BR
dc.subjectCodificação de vídeopt_BR
dc.subjectVisão computacionalpt_BR
dc.subjectMelhoria de qualidade de vídeopt_BR
dc.subjectDeep neural networkspt_BR
dc.subjectVideo codingpt_BR
dc.subjectComputer visionpt_BR
dc.subjectVideo quality enhancementpt_BR
dc.titleDesenvolvimento de arquiteturas de redes neurais profundas para melhoria de qualidade em vídeos comprimidospt_BR
dc.title.alternativeDevelopment of deep neural network architectures for compressed video quality enhancementpt_BR
dc.typedoctoralThesispt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/1054340344097518pt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/1389878856201800pt_BR
dc.contributor.advisor-co1Zatt, Bruno
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/8251926321102019pt_BR
dc.contributor.advisor-co2Palomino, Daniel Munari Vilchez
dc.contributor.advisor-co2Latteshttp://lattes.cnpq.br/3163503973303585pt_BR
dc.description.resumoO consumo de vídeos representa atualmente a maior parte do tráfego de dados na Internet, impulsionado por tecnologias emergentes como realidade virtual, vídeos em 360° e resoluções cada vez mais altas, como 4K e 8K. Para viabilizar a transmissão e o armazenamento desses conteúdos, são utilizados padrões de codificação de ví deo que reduzem significativamente o volume de dados. No entanto, esse processo de compressão introduz artefatos visuais que comprometem a qualidade percebida pelo usuário. Soluções de pós-processamento baseadas em aprendizado profundo têm se mostrado eficazes para restaurar a qualidade visual. Sendo assim, o obje tivo principal desta Tese foi o desenvolvimento de soluções baseadas em arquiteturas de redes neurais profundas para a melhoria da qualidade de vídeos comprimidos, considerando diferentes padrões de codificação, cenários de compressão e níveis de quantização. Três abordagens principais foram desenvolvidas. A primeira, denomi nada multi-codec, foi treinada com vídeos comprimidos por múltiplos codecs (HEVC, VVC, AV1 e VP9) e apresentou boa generalização, com ganhos de ∆PSNR variando entre 0,091 dB e 0,382 dB. A segunda abordagem, Multi-Domínio, tratou cada codec como um domínio distinto durante o treinamento, o que ampliou o potencial de especi alização da rede. Essa solução alcançou resultados superiores, com ganhos médios de ∆PSNR entre 0,228 dB e 0,764 dB, ou ainda reduções de até 16,50% na taxa de bits (BD-Rate). A proposta final, 3D-STDF, incorporou convoluções tridimensionais para capturar de forma mais integrada e eficiente as correlações espaço-temporais entre quadros consecutivos. Essa arquitetura obteve os melhores resultados, com ∆PSNR de até 0,85 dB (modelo 3D-STDF-L) e ∆SSIM de 0,016 em QP 37, man tendo desempenho elevado em quantizações severas (como 0,420 dB em QP 47). O modelo também apresentou BD-Rate de até -16,50%, superando outras arquiteturas propostas e demonstrando equilíbrio entre desempenho e custo computacional. Estes resultados demonstram que a Tese contribuiu com soluções generalizáveis e eficazes para restauração de vídeos comprimidos, equilibrando desempenho, capacidade de generalização e custo computacional.pt_BR
dc.publisher.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.publisher.initialsUFPelpt_BR
dc.subject.cnpqCIENCIAS EXATAS E DA TERRApt_BR
dc.publisher.countryBrasilpt_BR
dc.rights.licenseCC BY-NC-SApt_BR
dc.contributor.advisor1Corrêa, Guilherme Ribeiro
dc.subject.cnpq1CIENCIA DA COMPUTACAOpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples