¿Cómo crearía una IA para detectar el cáncer utilizando un conjunto de datos genéticos en Python o R?

Creo que este es un problema de aprendizaje automático y desea construir un modelo y usar los datos genéticos existentes de la historia para hacer predicciones cuando ingresa datos nuevos al modelo.

Si revisa la publicación aquí: ¿Cuáles son los 10 mejores algoritmos de minería de datos o aprendizaje automático? En 2006, la Conferencia IEEE sobre Minería de Datos identificó los 10 algoritmos principales. ¿Siguen siendo válidos? puede encontrar una gran cantidad de algoritmos de aprendizaje automático que podrían funcionar bien en su conjunto de datos, y desea probar algunos de ellos para encontrar el que le brinde la mayor precisión.


En R, hay muchos paquetes diferentes que contienen funciones de construcción de modelo de aprendizaje automático. Los ejemplos son:

  1. (No se requiere paquete) Regresión logística / binomial (función: glm () ), adaptación de modelos lineales generalizados.
  2. (paquete: rpart ) Árbol (Regresión / Clasificación) (función: rpart () ), Modelos basados ​​en árbol.
  3. (paquete: randomForest ) Bosque aleatorio (función: randomForest () ), Página en r-project.org.
  4. (paquete: neuralnet ) Redes neuronales Redes neuronales con R – Un ejemplo simple.
  5. Otros incluyen: SVM (página en r-project.org), KNN (k-Nearest Neighbor Classification), etc.
  6. También es posible que desee probar el algoritmo de reducción de dimensionalidad como PCA (Análisis de componentes principales) para reducir el número de columnas en sus datos, así como para evitar problemas de multicolinealidad en los datos, lo que puede ocasionar inestabilidad en las estimaciones de su modelo.

En Python, el paquete scikit-learn: el aprendizaje automático en Python contiene muchas funciones del modelo de aprendizaje automático que puede usar para adaptarse a su modelo; también existen ejemplos para que pueda usar diferentes métodos.


Mi sugerencia es que usted debe tener una comprensión básica de lo que hace cada modelo y ser capaz de interpretar el modelo y el resultado. Es beneficioso dividir sus datos en el conjunto de entrenamiento y prueba para poder probar la precisión de su modelo para que pueda elegir el mejor modelo.

También puede intentar embolsar y aumentar para combinar algunos de sus modelos y obtener mejores resultados.

Después de haber construido su modelo y las funciones de predicción, es posible que desee construir un diseño interactivo de interfaz / usuario para que las personas sin antecedentes de programación puedan acceder y ejecutar la IA para obtener resultados de predicción.

En R, es posible que desee probar Shiny para construir la interfaz y usar shinyapps.io para publicarla.

Python también tiene su propio paquete de diseño de interfaz (aunque no estoy tan familiarizado con ellos), puedes probar Google: GuiProgramming – Python Wiki.