Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionado

Silveira, Bianca Santos da Cunha da

dc.creator	Silveira, Bianca Santos da Cunha da
dc.date.accessioned	2025-10-10T11:55:20Z
dc.date.available	2025-10-09
dc.date.available	2025-10-10T11:55:20Z
dc.date.issued	2025-06-26
dc.identifier.citation	SILVEIRA, Bianca Santos da Cunha da. Redução de Consumo Energético para Transformadas do Padrão Versatile Video Coding com Auxílio de Apren dizado de Máquina Supervisionado. Orientador: Guilherme Ribeiro Corrêa. 2025. 154 f. Tese (Doutorado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2025.	pt_BR
dc.identifier.uri	http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/17984
dc.description.abstract	The Versatile Video Coding standard was released by the Joint Video Experts Team in 2020, introducing several tools aimed at improving compression efficiency compared to previous standards. One of the innovations is the Multiple Transform Selection, which enables the encoder to choose between different types of transforms to bet ter adapt to the local characteristics of the video signal. Multiple Transform Selection employs the discrete cosine transform type II , discrete cosine transform type VIII, and discrete sine transform type VII, also allowing distinct combinations of these transforms in the horizontal and vertical directions. Although this flexibility improves compression efficiency, it also significantly increases computational complexity, since multiple com binations of transforms and block sizes must be evaluated by the encoder. In light of these challenges, this thesis proposes the development of dedicated hardware ar chitectures for the Multiple Transform Selection module of the Versatile Video Coding encoder, focusing on reducing energy consumption and enabling real-time compres sion. The project is structured in three main stages: a detailed analysis of Multiple Transform Selection usability in the Versatile Video Coding reference software, the in tegration of machine learning-based predictive models into the encoding flow, and the implementation of optimized hardware architectures based on data extracted from the encoder. To reduce the complexity of the transform selection process, predictive mod els were developed using machine learning algorithms. These models were trained on data directly extracted from the Versatile Video Coding reference encoder, and their purpose is to anticipate which transforms are most likely to be selected in each sit uation. This prediction enables unnecessary transforms to be disabled, reducing the number of combinations tested and consequently lowering processing time and en ergy consumption. The proposed hardware architecture was designed to support both the traditional software execution flow and the modified flow that incorporates predic tive models. The thesis presents the methodology for feature extraction and selection, model training, integration into the VTM encoder, and energy and area results across different configurations and video resolutions. The results demonstrate that, despite a slight increase in bitrate, the adoption of predictive models led to significant reductions in encoding time and energy consumption. The tests demonstrate that, even with a small loss of 0.89% in coding efficiency, the adoption of predictive models resulted in significant reductions, averaging up to 7.98%, in processing time when implemented in the reference software. Additionally, the potential implementation of predictive mod els in hardware is discussed, using simple conditional structures, which allows their efficient integration into embedded systems with limited computational resources. The proposed hybrid approach, combining machine learning and optimized hardware archi tecture, represents a promising strategy for enabling energy-efficient Versatile Video Coding encoders, achieving energy consumption reductions of up to 71.37% for 4K resolutions. This contribution is relevant for both portable device applications and real time, high-resolution video compression scenarios	pt_BR
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Pelotas	pt_BR
dc.rights	OpenAccess	pt_BR
dc.subject	VVC	pt_BR
dc.subject	MTS	pt_BR
dc.subject	Codificação de vídeo	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Video coding	pt_BR
dc.subject	Machine learning	pt_BR
dc.title	Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionado	pt_BR
dc.title.alternative	Energy Consumption Reduction for Transforms in the Versatile Video Coding Standard Using Supervised Machine Learning	pt_BR
dc.type	doctoralThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/3733532475339634	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/1389878856201800	pt_BR
dc.contributor.advisor-co1	Diniz, Cláudio Machado
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/3726715175711775	pt_BR
dc.contributor.advisor-co2	Palomino, Daniel Munari Vilchez
dc.contributor.advisor-co2Lattes	http://lattes.cnpq.br/3163503973303585	pt_BR
dc.description.resumo	O padrão de codificação de vídeo Versatile Video Coding foi lançado pelo Joint Video Experts Team em 2020, incluindo diversas ferramentas para melhorar a eficiência de compressão em relação a padrões anteriores. Uma das principais inovações é a Multiple Transform Selection, que permite ao codificador escolher entre diferentes tipos de transformadas para melhor se adequar às características locais do sinal de vídeo. A Multiple Transform Selection utiliza a transformada discreta do cosseno tipo II, a transformada discreta do cosseno tipo VIII e a transformada discreta do seno tipo VII, possibilitando ainda combinações distintas dessas transformadas nas direções horizontal e vertical. Embora essa flexibilidade proporcione ganhos em eficiência de compressão, ela também impõe um aumento significativo no custo computacional, já que diversas combinações de transformadas e tamanhos de blocos devem ser avaliadas pelo codificador. Diante desses desafios, esta tese propõe o desenvolvimento de arquiteturas de hardware dedicadas ao módulo da Multiple Transform Selection do codificador Versatile Video Coding, com foco na redução do consumo energético e na viabilidade de compressão em tempo real. O projeto é estruturado em três etapas principais: uma análise detalhada da usabilidade da Multiple Transform Selection no software de referência do Versatile Video Coding, a integração de modelos preditivos baseados em aprendizado de máquina ao fluxo de codificação, e a implementação de arquiteturas de hardware otimizadas a partir dos dados extraídos do codificador. Para reduzir a complexidade do processo de seleção das transformadas, foram desenvolvidos modelos preditivos utilizando algoritmos de aprendizado de máquina. Esses modelos foram treinados com dados extraídos dire tamente do codificador de referência, e sua função é antecipar quais transformadas são mais prováveis de serem escolhidas em cada situação. Essa predição permite desabilitar transformadas desnecessárias, reduzindo o número de combinações testadas e, consequentemente, o tempo de processamento e o consumo energético. A arquitetura de hardware proposta foi projetada para suportar tanto o fluxo tradicional do software quanto o fluxo modificado com os modelos preditivos. A tese apresenta a metodologia de extração e seleção de features, o treinamento dos modelos, a integração ao codificador e os resultados de consumo energético e área para diferen tes configurações e resoluções de vídeo. Os testes demonstram que, mesmo com uma pequena perda de 0,89% na eficiência de codificação, a adoção dos modelos preditivos resultou em reduções expressivas de até 7,98%, em média, no tempo de processamento quando implementada no software de referência. Adicionalmente, foi discutido o potencial de implementação dos modelos preditivos em hardware, utilizando estruturas condicionais simples, possibilitando sua integração eficiente a sistemas embarcados com recursos computacionais limitados. Observa-se que a abordagem híbrida proposta, combinando aprendizado de máquina e arquitetura de hardware otimizada, representa uma estratégia promissora para a viabilização de codificadores Versatile Video Coding energeticamente eficientes, atingindo reduções de até 71,37% em consumo energético para resoluções de 4K. Esta contribuição é relevante tanto para aplicações em dispositivos portáteis quanto para cenários de compressão em tempo real em alta resolução.	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Computação	pt_BR
dc.publisher.initials	UFPel	pt_BR
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.rights.license	CC BY-NC-SA	pt_BR
dc.contributor.advisor1	Corrêa, Guilherme Ribeiro
dc.subject.cnpq1	CIENCIA DA COMPUTACAO	pt_BR

Files in this item

Name:: Tese_Bianca Santos da Cunha da ...
Size:: 6.459Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

PPGC: Dissertações e Teses [233]
Dissertações e teses.

Show simple item record