Esta es una pregunta difícil porque realmente necesita pensar en el conjunto de datos que tiene antes de poder abordar qué modelos puede aplicar. Relacionaré esto con algo que hice al aplicar el aprendizaje automático a la medicina personalizada. Comenzamos con un conjunto de datos que proporcionaba la composición de proteínas de los genomas humanos y una variable binomial que nos indicaba si tenían una respuesta negativa a cierto medicamento. Para convertir esto a su pregunta, imaginaba un conjunto de datos que proporciona el recuento de un conjunto de bacterias y luego una columna binomial que nos dice si la enfermedad está presente o no.
Uno de los grandes problemas con datos de salud como este es que tiende a tener muchas más características (o columnas) en su conjunto de datos que observaciones (filas). Por ejemplo, teníamos 122 filas y más de 13,000 columnas. Debido a esta abrumadora cantidad de características, elegimos un enfoque de aprendizaje profundo y aplicamos una red neuronal al conjunto de datos. Desafortunadamente, en nuestro caso, esto simplemente no fue suficiente para aumentar significativamente el rendimiento en modelos más simples como SVM, Naive Bayes o incluso KNN, pero hay una lección importante que aprender de eso. Comience de forma simple en su enfoque y vea si los conceptos básicos le darán buenos resultados. Una mayor complejidad no siempre le proporcionará un mejor rendimiento, por lo que solo tiene que dedicarle un tiempo a su conjunto de datos y comprender qué es lo que lo mueve. Además, como nota al margen, también debe considerar la regresión logística si no tiene demasiadas características. No lo usamos, ya que el tiempo de ejecución realmente crece con características adicionales, pero con menos funciones puede ser extremadamente poderoso.
No estoy seguro de cuánto más puedo hacer sin detalles sobre su problema, pero en resumen, empiece con lo básico primero y no opte por algo como el aprendizaje profundo solo porque suena genial.