Show simple item record

dc.creatorSilveira, Bianca Santos da Cunha da
dc.date.accessioned2025-10-10T11:55:20Z
dc.date.available2025-10-09
dc.date.available2025-10-10T11:55:20Z
dc.date.issued2025-06-26
dc.identifier.citationSILVEIRA, Bianca Santos da Cunha da. Redução de Consumo Energético para Transformadas do Padrão Versatile Video Coding com Auxílio de Apren dizado de Máquina Supervisionado. Orientador: Guilherme Ribeiro Corrêa. 2025. 154 f. Tese (Doutorado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2025.pt_BR
dc.identifier.urihttp://guaiaca.ufpel.edu.br/xmlui/handle/prefix/17984
dc.description.abstractThe Versatile Video Coding standard was released by the Joint Video Experts Team in 2020, introducing several tools aimed at improving compression efficiency compared to previous standards. One of the innovations is the Multiple Transform Selection, which enables the encoder to choose between different types of transforms to bet ter adapt to the local characteristics of the video signal. Multiple Transform Selection employs the discrete cosine transform type II , discrete cosine transform type VIII, and discrete sine transform type VII, also allowing distinct combinations of these transforms in the horizontal and vertical directions. Although this flexibility improves compression efficiency, it also significantly increases computational complexity, since multiple com binations of transforms and block sizes must be evaluated by the encoder. In light of these challenges, this thesis proposes the development of dedicated hardware ar chitectures for the Multiple Transform Selection module of the Versatile Video Coding encoder, focusing on reducing energy consumption and enabling real-time compres sion. The project is structured in three main stages: a detailed analysis of Multiple Transform Selection usability in the Versatile Video Coding reference software, the in tegration of machine learning-based predictive models into the encoding flow, and the implementation of optimized hardware architectures based on data extracted from the encoder. To reduce the complexity of the transform selection process, predictive mod els were developed using machine learning algorithms. These models were trained on data directly extracted from the Versatile Video Coding reference encoder, and their purpose is to anticipate which transforms are most likely to be selected in each sit uation. This prediction enables unnecessary transforms to be disabled, reducing the number of combinations tested and consequently lowering processing time and en ergy consumption. The proposed hardware architecture was designed to support both the traditional software execution flow and the modified flow that incorporates predic tive models. The thesis presents the methodology for feature extraction and selection, model training, integration into the VTM encoder, and energy and area results across different configurations and video resolutions. The results demonstrate that, despite a slight increase in bitrate, the adoption of predictive models led to significant reductions in encoding time and energy consumption. The tests demonstrate that, even with a small loss of 0.89% in coding efficiency, the adoption of predictive models resulted in significant reductions, averaging up to 7.98%, in processing time when implemented in the reference software. Additionally, the potential implementation of predictive mod els in hardware is discussed, using simple conditional structures, which allows their efficient integration into embedded systems with limited computational resources. The proposed hybrid approach, combining machine learning and optimized hardware archi tecture, represents a promising strategy for enabling energy-efficient Versatile Video Coding encoders, achieving energy consumption reductions of up to 71.37% for 4K resolutions. This contribution is relevant for both portable device applications and real time, high-resolution video compression scenariospt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Pelotaspt_BR
dc.rightsOpenAccesspt_BR
dc.subjectVVCpt_BR
dc.subjectMTSpt_BR
dc.subjectCodificação de vídeopt_BR
dc.subjectAprendizado de máquinapt_BR
dc.subjectVideo codingpt_BR
dc.subjectMachine learningpt_BR
dc.titleRedução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionadopt_BR
dc.title.alternativeEnergy Consumption Reduction for Transforms in the Versatile Video Coding Standard Using Supervised Machine Learningpt_BR
dc.typedoctoralThesispt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/3733532475339634pt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/1389878856201800pt_BR
dc.contributor.advisor-co1Diniz, Cláudio Machado
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/3726715175711775pt_BR
dc.contributor.advisor-co2Palomino, Daniel Munari Vilchez
dc.contributor.advisor-co2Latteshttp://lattes.cnpq.br/3163503973303585pt_BR
dc.description.resumoO padrão de codificação de vídeo Versatile Video Coding foi lançado pelo Joint Video Experts Team em 2020, incluindo diversas ferramentas para melhorar a eficiência de compressão em relação a padrões anteriores. Uma das principais inovações é a Multiple Transform Selection, que permite ao codificador escolher entre diferentes tipos de transformadas para melhor se adequar às características locais do sinal de vídeo. A Multiple Transform Selection utiliza a transformada discreta do cosseno tipo II, a transformada discreta do cosseno tipo VIII e a transformada discreta do seno tipo VII, possibilitando ainda combinações distintas dessas transformadas nas direções horizontal e vertical. Embora essa flexibilidade proporcione ganhos em eficiência de compressão, ela também impõe um aumento significativo no custo computacional, já que diversas combinações de transformadas e tamanhos de blocos devem ser avaliadas pelo codificador. Diante desses desafios, esta tese propõe o desenvolvimento de arquiteturas de hardware dedicadas ao módulo da Multiple Transform Selection do codificador Versatile Video Coding, com foco na redução do consumo energético e na viabilidade de compressão em tempo real. O projeto é estruturado em três etapas principais: uma análise detalhada da usabilidade da Multiple Transform Selection no software de referência do Versatile Video Coding, a integração de modelos preditivos baseados em aprendizado de máquina ao fluxo de codificação, e a implementação de arquiteturas de hardware otimizadas a partir dos dados extraídos do codificador. Para reduzir a complexidade do processo de seleção das transformadas, foram desenvolvidos modelos preditivos utilizando algoritmos de aprendizado de máquina. Esses modelos foram treinados com dados extraídos dire tamente do codificador de referência, e sua função é antecipar quais transformadas são mais prováveis de serem escolhidas em cada situação. Essa predição permite desabilitar transformadas desnecessárias, reduzindo o número de combinações testadas e, consequentemente, o tempo de processamento e o consumo energético. A arquitetura de hardware proposta foi projetada para suportar tanto o fluxo tradicional do software quanto o fluxo modificado com os modelos preditivos. A tese apresenta a metodologia de extração e seleção de features, o treinamento dos modelos, a integração ao codificador e os resultados de consumo energético e área para diferen tes configurações e resoluções de vídeo. Os testes demonstram que, mesmo com uma pequena perda de 0,89% na eficiência de codificação, a adoção dos modelos preditivos resultou em reduções expressivas de até 7,98%, em média, no tempo de processamento quando implementada no software de referência. Adicionalmente, foi discutido o potencial de implementação dos modelos preditivos em hardware, utilizando estruturas condicionais simples, possibilitando sua integração eficiente a sistemas embarcados com recursos computacionais limitados. Observa-se que a abordagem híbrida proposta, combinando aprendizado de máquina e arquitetura de hardware otimizada, representa uma estratégia promissora para a viabilização de codificadores Versatile Video Coding energeticamente eficientes, atingindo reduções de até 71,37% em consumo energético para resoluções de 4K. Esta contribuição é relevante tanto para aplicações em dispositivos portáteis quanto para cenários de compressão em tempo real em alta resolução.pt_BR
dc.publisher.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.publisher.initialsUFPelpt_BR
dc.subject.cnpqCIENCIAS EXATAS E DA TERRApt_BR
dc.publisher.countryBrasilpt_BR
dc.rights.licenseCC BY-NC-SApt_BR
dc.contributor.advisor1Corrêa, Guilherme Ribeiro
dc.subject.cnpq1CIENCIA DA COMPUTACAOpt_BR


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record