| dc.creator | Silveira, Bianca Santos da Cunha da | |
| dc.date.accessioned | 2025-10-10T11:55:20Z | |
| dc.date.available | 2025-10-09 | |
| dc.date.available | 2025-10-10T11:55:20Z | |
| dc.date.issued | 2025-06-26 | |
| dc.identifier.citation | SILVEIRA, Bianca Santos da Cunha da. Redução de Consumo Energético para Transformadas do Padrão Versatile Video Coding com Auxílio de Apren dizado de Máquina Supervisionado. Orientador: Guilherme Ribeiro Corrêa. 2025. 154 f. Tese (Doutorado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2025. | pt_BR |
| dc.identifier.uri | http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/17984 | |
| dc.description.abstract | The Versatile Video Coding standard was released by the Joint Video Experts Team
in 2020, introducing several tools aimed at improving compression efficiency compared
to previous standards. One of the innovations is the Multiple Transform Selection,
which enables the encoder to choose between different types of transforms to bet ter adapt to the local characteristics of the video signal. Multiple Transform Selection
employs the discrete cosine transform type II , discrete cosine transform type VIII, and
discrete sine transform type VII, also allowing distinct combinations of these transforms
in the horizontal and vertical directions. Although this flexibility improves compression
efficiency, it also significantly increases computational complexity, since multiple com binations of transforms and block sizes must be evaluated by the encoder. In light
of these challenges, this thesis proposes the development of dedicated hardware ar chitectures for the Multiple Transform Selection module of the Versatile Video Coding
encoder, focusing on reducing energy consumption and enabling real-time compres sion. The project is structured in three main stages: a detailed analysis of Multiple
Transform Selection usability in the Versatile Video Coding reference software, the in tegration of machine learning-based predictive models into the encoding flow, and the
implementation of optimized hardware architectures based on data extracted from the
encoder. To reduce the complexity of the transform selection process, predictive mod els were developed using machine learning algorithms. These models were trained on
data directly extracted from the Versatile Video Coding reference encoder, and their
purpose is to anticipate which transforms are most likely to be selected in each sit uation. This prediction enables unnecessary transforms to be disabled, reducing the
number of combinations tested and consequently lowering processing time and en ergy consumption. The proposed hardware architecture was designed to support both
the traditional software execution flow and the modified flow that incorporates predic tive models. The thesis presents the methodology for feature extraction and selection,
model training, integration into the VTM encoder, and energy and area results across
different configurations and video resolutions. The results demonstrate that, despite a
slight increase in bitrate, the adoption of predictive models led to significant reductions
in encoding time and energy consumption. The tests demonstrate that, even with a
small loss of 0.89% in coding efficiency, the adoption of predictive models resulted in
significant reductions, averaging up to 7.98%, in processing time when implemented
in the reference software. Additionally, the potential implementation of predictive mod els in hardware is discussed, using simple conditional structures, which allows their
efficient integration into embedded systems with limited computational resources. The
proposed hybrid approach, combining machine learning and optimized hardware archi tecture, represents a promising strategy for enabling energy-efficient Versatile Video
Coding encoders, achieving energy consumption reductions of up to 71.37% for 4K
resolutions. This contribution is relevant for both portable device applications and real time, high-resolution video compression scenarios | pt_BR |
| dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES | pt_BR |
| dc.language | por | pt_BR |
| dc.publisher | Universidade Federal de Pelotas | pt_BR |
| dc.rights | OpenAccess | pt_BR |
| dc.subject | VVC | pt_BR |
| dc.subject | MTS | pt_BR |
| dc.subject | Codificação de vídeo | pt_BR |
| dc.subject | Aprendizado de máquina | pt_BR |
| dc.subject | Video coding | pt_BR |
| dc.subject | Machine learning | pt_BR |
| dc.title | Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionado | pt_BR |
| dc.title.alternative | Energy Consumption Reduction for Transforms in the Versatile Video Coding Standard Using Supervised Machine Learning | pt_BR |
| dc.type | doctoralThesis | pt_BR |
| dc.contributor.authorLattes | http://lattes.cnpq.br/3733532475339634 | pt_BR |
| dc.contributor.advisorLattes | http://lattes.cnpq.br/1389878856201800 | pt_BR |
| dc.contributor.advisor-co1 | Diniz, Cláudio Machado | |
| dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/3726715175711775 | pt_BR |
| dc.contributor.advisor-co2 | Palomino, Daniel Munari Vilchez | |
| dc.contributor.advisor-co2Lattes | http://lattes.cnpq.br/3163503973303585 | pt_BR |
| dc.description.resumo | O padrão de codificação de vídeo Versatile Video Coding foi lançado pelo Joint
Video Experts Team em 2020, incluindo diversas ferramentas para melhorar a
eficiência de compressão em relação a padrões anteriores. Uma das principais
inovações é a Multiple Transform Selection, que permite ao codificador escolher entre
diferentes tipos de transformadas para melhor se adequar às características locais
do sinal de vídeo. A Multiple Transform Selection utiliza a transformada discreta do
cosseno tipo II, a transformada discreta do cosseno tipo VIII e a transformada discreta
do seno tipo VII, possibilitando ainda combinações distintas dessas transformadas
nas direções horizontal e vertical. Embora essa flexibilidade proporcione ganhos
em eficiência de compressão, ela também impõe um aumento significativo no custo
computacional, já que diversas combinações de transformadas e tamanhos de blocos
devem ser avaliadas pelo codificador. Diante desses desafios, esta tese propõe
o desenvolvimento de arquiteturas de hardware dedicadas ao módulo da Multiple
Transform Selection do codificador Versatile Video Coding, com foco na redução
do consumo energético e na viabilidade de compressão em tempo real. O projeto
é estruturado em três etapas principais: uma análise detalhada da usabilidade da
Multiple Transform Selection no software de referência do Versatile Video Coding, a
integração de modelos preditivos baseados em aprendizado de máquina ao fluxo de
codificação, e a implementação de arquiteturas de hardware otimizadas a partir dos
dados extraídos do codificador. Para reduzir a complexidade do processo de seleção
das transformadas, foram desenvolvidos modelos preditivos utilizando algoritmos de
aprendizado de máquina. Esses modelos foram treinados com dados extraídos dire tamente do codificador de referência, e sua função é antecipar quais transformadas
são mais prováveis de serem escolhidas em cada situação. Essa predição permite
desabilitar transformadas desnecessárias, reduzindo o número de combinações
testadas e, consequentemente, o tempo de processamento e o consumo energético.
A arquitetura de hardware proposta foi projetada para suportar tanto o fluxo tradicional
do software quanto o fluxo modificado com os modelos preditivos. A tese apresenta
a metodologia de extração e seleção de features, o treinamento dos modelos, a
integração ao codificador e os resultados de consumo energético e área para diferen tes configurações e resoluções de vídeo. Os testes demonstram que, mesmo com
uma pequena perda de 0,89% na eficiência de codificação, a adoção dos modelos
preditivos resultou em reduções expressivas de até 7,98%, em média, no tempo de
processamento quando implementada no software de referência. Adicionalmente,
foi discutido o potencial de implementação dos modelos preditivos em hardware,
utilizando estruturas condicionais simples, possibilitando sua integração eficiente a
sistemas embarcados com recursos computacionais limitados. Observa-se que a
abordagem híbrida proposta, combinando aprendizado de máquina e arquitetura de
hardware otimizada, representa uma estratégia promissora para a viabilização de
codificadores Versatile Video Coding energeticamente eficientes, atingindo reduções
de até 71,37% em consumo energético para resoluções de 4K. Esta contribuição é
relevante tanto para aplicações em dispositivos portáteis quanto para cenários de
compressão em tempo real em alta resolução. | pt_BR |
| dc.publisher.program | Programa de Pós-Graduação em Computação | pt_BR |
| dc.publisher.initials | UFPel | pt_BR |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA | pt_BR |
| dc.publisher.country | Brasil | pt_BR |
| dc.rights.license | CC BY-NC-SA | pt_BR |
| dc.contributor.advisor1 | Corrêa, Guilherme Ribeiro | |
| dc.subject.cnpq1 | CIENCIA DA COMPUTACAO | pt_BR |