Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionado

Visualizar/ Abrir
Data
2025-06-26Autor
Silveira, Bianca Santos da Cunha da
Metadata
Mostrar registro completoResumo
O padrão de codificação de vídeo Versatile Video Coding foi lançado pelo Joint
Video Experts Team em 2020, incluindo diversas ferramentas para melhorar a
eficiência de compressão em relação a padrões anteriores. Uma das principais
inovações é a Multiple Transform Selection, que permite ao codificador escolher entre
diferentes tipos de transformadas para melhor se adequar às características locais
do sinal de vídeo. A Multiple Transform Selection utiliza a transformada discreta do
cosseno tipo II, a transformada discreta do cosseno tipo VIII e a transformada discreta
do seno tipo VII, possibilitando ainda combinações distintas dessas transformadas
nas direções horizontal e vertical. Embora essa flexibilidade proporcione ganhos
em eficiência de compressão, ela também impõe um aumento significativo no custo
computacional, já que diversas combinações de transformadas e tamanhos de blocos
devem ser avaliadas pelo codificador. Diante desses desafios, esta tese propõe
o desenvolvimento de arquiteturas de hardware dedicadas ao módulo da Multiple
Transform Selection do codificador Versatile Video Coding, com foco na redução
do consumo energético e na viabilidade de compressão em tempo real. O projeto
é estruturado em três etapas principais: uma análise detalhada da usabilidade da
Multiple Transform Selection no software de referência do Versatile Video Coding, a
integração de modelos preditivos baseados em aprendizado de máquina ao fluxo de
codificação, e a implementação de arquiteturas de hardware otimizadas a partir dos
dados extraídos do codificador. Para reduzir a complexidade do processo de seleção
das transformadas, foram desenvolvidos modelos preditivos utilizando algoritmos de
aprendizado de máquina. Esses modelos foram treinados com dados extraídos dire tamente do codificador de referência, e sua função é antecipar quais transformadas
são mais prováveis de serem escolhidas em cada situação. Essa predição permite
desabilitar transformadas desnecessárias, reduzindo o número de combinações
testadas e, consequentemente, o tempo de processamento e o consumo energético.
A arquitetura de hardware proposta foi projetada para suportar tanto o fluxo tradicional
do software quanto o fluxo modificado com os modelos preditivos. A tese apresenta
a metodologia de extração e seleção de features, o treinamento dos modelos, a
integração ao codificador e os resultados de consumo energético e área para diferen tes configurações e resoluções de vídeo. Os testes demonstram que, mesmo com
uma pequena perda de 0,89% na eficiência de codificação, a adoção dos modelos
preditivos resultou em reduções expressivas de até 7,98%, em média, no tempo de
processamento quando implementada no software de referência. Adicionalmente,
foi discutido o potencial de implementação dos modelos preditivos em hardware,
utilizando estruturas condicionais simples, possibilitando sua integração eficiente a
sistemas embarcados com recursos computacionais limitados. Observa-se que a
abordagem híbrida proposta, combinando aprendizado de máquina e arquitetura de
hardware otimizada, representa uma estratégia promissora para a viabilização de
codificadores Versatile Video Coding energeticamente eficientes, atingindo reduções
de até 71,37% em consumo energético para resoluções de 4K. Esta contribuição é
relevante tanto para aplicações em dispositivos portáteis quanto para cenários de
compressão em tempo real em alta resolução.
