Uma nova abordagem baseada em modelos do tipo encoder-decoder para segmentação semântica de lesões de fundo associadas à retinopatia diabética
Resumen
O diabetes é uma doença crônica que compromete a capacidade do corpo de
produzir ou utilizar insulina de forma adequada. Atualmente, estima-se que aproxi madamente 537 milhões de adultos em todo o mundo sejam afetados pela doença, o
que representa 10,5% da população entre 20 e 79 anos, com projeção de atingir 783
milhões até 2045. Nesse contexto global, o Brasil ocupa a quarta posição em preva lência, com cerca de 13,7 milhões de casos. A Retinopatia Diabética (RD) é uma das
principais complicações microvasculares do diabetes e constitui uma das principais
causas de cegueira em adultos em idade produtiva. Como o diagnóstico da RD é
geralmente realizado por meio da análise de imagens do fundo de olho – nas quais
se identificam lesões como Exsudatos Duros, Hemorragias, Exsudatos Algodonosos
e Microaneurismas –, é possível empregar abordagens baseadas em aprendizado
profundo para a segmentação dessas lesões. O objetivo deste trabalho é propor
uma nova abordagem para aprimorar a precisão na segmentação dessas lesões,
contribuindo para um diagnóstico mais eficaz da doença e facilitando o processo de
anotação de imagens em novos conjuntos de dados de RD. A abordagem proposta
tem como base as arquiteturas U-Net++, Attention U-Net e R2U-Net, integradas por
meio de ensembles. Além disso, foram aplicadas etapas de pré-processamento,
aumento de dados e pré-treinamento com o objetivo de melhorar a extração das
características das lesões. Os experimentos utilizaram dois conjuntos de dados
públicos de RD. O conjunto DDR foi empregado para treinar, ajustar e avaliar os
modelos que compõem a abordagem proposta, alcançando mDC de 63,75% e mIoU
de 83,18% na etapa de validação, e mDC de 66,47% e mIoU de 81,15% na etapa
de teste. O conjunto IDRiD foi utilizado para avaliar a capacidade de generalização
da abordagem proposta em diferentes bases de dados de RD, apresentando mIoU
de 84,36% na etapa de validação e 82,84% na etapa de teste. Os resultados
obtidos superaram os apresentados em trabalhos relacionados, evidenciando que a
integração de ensembles de modelos do tipo encoder-decoder, combinada às etapas
de pré-processamento, aumento de dados e pré-treinamento, constitui uma estratégia
eficaz para a segmentação de lesões no fundo de olho.