| dc.creator | Silveira Júnior, Garibaldi da | |
| dc.date.accessioned | 2025-12-11T08:38:43Z | |
| dc.date.available | 2025-12-10 | |
| dc.date.available | 2025-12-11T08:38:43Z | |
| dc.date.issued | 2025-10-20 | |
| dc.identifier.citation | SILVEIRA JÚNIOR, Garibaldi da. Desenvolvimento de Arquiteturas de Redes Neurais Profundas para Melhoria de Qualidade em Vídeos Comprimidos. Orientador: Guilherme Corrêa. 2025. 158 f. Tese (Doutorado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2025. | pt_BR |
| dc.identifier.uri | http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/18964 | |
| dc.description.abstract | Video consumption currently accounts for the majority of Internet data traffic, driven
by emerging technologies such as virtual reality, 360° videos, and increasingly higher
resolutions like 4K and 8K. To enable the transmission and storage of such content,
video coding standards are employed to significantly reduce data volume. However,
this compression process introduces visual artifacts that degrade the perceived qual ity for the end user. Post-processing solutions based on deep learning have proven
effective in restoring visual quality. Therefore, the main objective of this thesis was
the development of solutions based on deep neural network architectures to enhance
the quality of compressed videos, considering different coding standards, compres sion scenarios, and quantization levels. Three main approaches were developed. The
first, called multi-codec, was trained with videos compressed using multiple codecs
(HEVC, VVC, AV1, and VP9) and demonstrated good generalization, with ∆PSNR
gains ranging from 0.091 dB to 0.382 dB. The second approach, multi-domain, treated
each codec as a separate domain during training, which increased the specialization
potential of the network. This solution achieved superior results, with average ∆PSNR
gains between 0.228 dB and 0.764 dB, in addition to bit rate reductions of up to 16.50%
(BD-Rate) and consistent improvements in BD-PSNR. The final proposal, 3D-STDF, in corporated three-dimensional convolutions to more effectively and integratively capture
spatio-temporal correlations between consecutive frames. This architecture achieved
the best results, with a ∆PSNR of up to 0.85 dB (3D-STDF-L model) and a ∆SSIM
of 0.016 at QP 37, while maintaining strong performance even under severe quantiza tion (e.g., 0.420 dB at QP 47). The model also achieved a BD-Rate of up to -16.50%
and a BD-PSNR of 0.709 dB, outperforming other proposed architectures and demon strating a solid balance between performance and computational cost. These results
show that the thesis contributed generalizable and effective solutions for compressed
video restoration, balancing enhancement performance, generalization capability, and
computational efficiency. | pt_BR |
| dc.description.sponsorship | Sem bolsa | pt_BR |
| dc.language | por | pt_BR |
| dc.publisher | Universidade Federal de Pelotas | pt_BR |
| dc.rights | OpenAccess | pt_BR |
| dc.subject | Redes neurais profundas | pt_BR |
| dc.subject | Codificação de vídeo | pt_BR |
| dc.subject | Visão computacional | pt_BR |
| dc.subject | Melhoria de qualidade de vídeo | pt_BR |
| dc.subject | Deep neural networks | pt_BR |
| dc.subject | Video coding | pt_BR |
| dc.subject | Computer vision | pt_BR |
| dc.subject | Video quality enhancement | pt_BR |
| dc.title | Desenvolvimento de arquiteturas de redes neurais profundas para melhoria de qualidade em vídeos comprimidos | pt_BR |
| dc.title.alternative | Development of deep neural network architectures for compressed video quality enhancement | pt_BR |
| dc.type | doctoralThesis | pt_BR |
| dc.contributor.authorLattes | http://lattes.cnpq.br/1054340344097518 | pt_BR |
| dc.contributor.advisorLattes | http://lattes.cnpq.br/1389878856201800 | pt_BR |
| dc.contributor.advisor-co1 | Zatt, Bruno | |
| dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/8251926321102019 | pt_BR |
| dc.contributor.advisor-co2 | Palomino, Daniel Munari Vilchez | |
| dc.contributor.advisor-co2Lattes | http://lattes.cnpq.br/3163503973303585 | pt_BR |
| dc.description.resumo | O consumo de vídeos representa atualmente a maior parte do tráfego de dados na
Internet, impulsionado por tecnologias emergentes como realidade virtual, vídeos em
360° e resoluções cada vez mais altas, como 4K e 8K. Para viabilizar a transmissão
e o armazenamento desses conteúdos, são utilizados padrões de codificação de ví deo que reduzem significativamente o volume de dados. No entanto, esse processo
de compressão introduz artefatos visuais que comprometem a qualidade percebida
pelo usuário. Soluções de pós-processamento baseadas em aprendizado profundo
têm se mostrado eficazes para restaurar a qualidade visual. Sendo assim, o obje tivo principal desta Tese foi o desenvolvimento de soluções baseadas em arquiteturas
de redes neurais profundas para a melhoria da qualidade de vídeos comprimidos,
considerando diferentes padrões de codificação, cenários de compressão e níveis de
quantização. Três abordagens principais foram desenvolvidas. A primeira, denomi nada multi-codec, foi treinada com vídeos comprimidos por múltiplos codecs (HEVC,
VVC, AV1 e VP9) e apresentou boa generalização, com ganhos de ∆PSNR variando
entre 0,091 dB e 0,382 dB. A segunda abordagem, Multi-Domínio, tratou cada codec
como um domínio distinto durante o treinamento, o que ampliou o potencial de especi alização da rede. Essa solução alcançou resultados superiores, com ganhos médios
de ∆PSNR entre 0,228 dB e 0,764 dB, ou ainda reduções de até 16,50% na taxa
de bits (BD-Rate). A proposta final, 3D-STDF, incorporou convoluções tridimensionais
para capturar de forma mais integrada e eficiente as correlações espaço-temporais
entre quadros consecutivos. Essa arquitetura obteve os melhores resultados, com
∆PSNR de até 0,85 dB (modelo 3D-STDF-L) e ∆SSIM de 0,016 em QP 37, man tendo desempenho elevado em quantizações severas (como 0,420 dB em QP 47). O
modelo também apresentou BD-Rate de até -16,50%, superando outras arquiteturas
propostas e demonstrando equilíbrio entre desempenho e custo computacional. Estes
resultados demonstram que a Tese contribuiu com soluções generalizáveis e eficazes
para restauração de vídeos comprimidos, equilibrando desempenho, capacidade de
generalização e custo computacional. | pt_BR |
| dc.publisher.program | Programa de Pós-Graduação em Computação | pt_BR |
| dc.publisher.initials | UFPel | pt_BR |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA | pt_BR |
| dc.publisher.country | Brasil | pt_BR |
| dc.rights.license | CC BY-NC-SA | pt_BR |
| dc.contributor.advisor1 | Corrêa, Guilherme Ribeiro | |
| dc.subject.cnpq1 | CIENCIA DA COMPUTACAO | pt_BR |