Aplicação de algoritmos de mineração de dados para classificação molecular de Leptospira spp
Resumen
A leptospirose é uma doença infecciosa de importância mundial, que afeta humanos e animais, causada por espiroquetas patogênicas pertencentes ao gênero Leptospira. Para a área epidemiológica e clínica é fundamental que os laboratórios tenham a capacidade de identificar e classificar com precisão as espécies de Leptospira que causam doença, para que sejam tomadas decisões coerentes com relação à saúde pública. Neste estudo, nós relatamos pela primeira vez a utilização de ferramentas de mineração de dados para fins de classificação de cepas do gênero Leptospira. Vinte e cinco loci referentes a 15 genes foram selecionadas e analisados em 600 genomas rascunho de Leptospira, com o propósito de buscar polimorfismos que pudessem ser utilizados na classificação de cada espécie. Para isso, foram utilizados os algoritmos baseados em mineração de dados C4.5, Naive
Bayes e Support Vector Machine. Todos os algoritmos computacionais de mineração de dados utilizados neste trabalho apresentaram valores de acurácia acima de 93% para classificação de Leptospira a nível de espécie, no entanto, o algoritmo C4.5, além de atingir a melhor acurácia de classificação (95.6%), também apresentou os genes que contribuíram para o resultado final da análise. O mesmo banco de dados genômicos utilizado pelos algoritmos computacionais foi submetido a testes com a metodologia MLST – técnica mais utilizada para classificação molecular de espécies
deste gênero – no entanto, nenhum dos testes apresentou acurácia superior a 80%. Visto o algoritmo de mineração de dados C4.5 atingir uma acurácia superior aos outros algoritmos, pode-se concluir que C4.5 é uma ferramenta de mineração de dados bastante promissora para classificar espécies de Leptospira.
Colecciones
El ítem tiene asociados los siguientes ficheros de licencia: