¿Cómo puede un científico de datos en la transición de alta tecnología a la investigación médica?

Soy un especialista en informática y mi trabajo involucra PNL de datos clínicos. La última vez que estudié biología seriamente fue en la escuela secundaria. Pero no importa. Si desea aplicar la informática y las estadísticas en el dominio clínico, o trabajar en el área llamada informática de la salud, debería comenzar trabajando en algunos proyectos. Te darás cuenta de que no conoces la jerga y el lenguaje médico. Pero confía en mí, no es un gran problema para entender. Es como aprender a programar en un nuevo idioma. No lo obtendrás hasta que lo uses.

La parte difícil del proceso es confirmar si sus hallazgos tienen sentido clínico. Aquí es donde necesitará un experto clínico.

Como ha mencionado algunos algoritmos en la pregunta, aquí hay algunos más puntos de vista: debido a que los datos clínicos son sensibles a la privacidad, es raro. No encontrarás enormes conjuntos de datos para entrenar a tu clasificador. Para obtener datos etiquetados, es posible que tenga que trabajar con expertos clínicos que puedan proporcionarle estas etiquetas. Pero dado que usted es un buen científico de datos, podría pensar en utilizar el aprendizaje activo o el aprendizaje semi-supervisado porque sabe que los datos etiquetados son escasos. Es probable que un experto clínico no sepa lo que significan estas técnicas de aprendizaje.

A menudo, los sistemas basados ​​en reglas funcionan bien en este dominio. Estas reglas se pueden capturar en cierta medida leyendo literatura o usando algoritmos de generación de reglas. Pero el refinamiento de estas reglas o incluso la creación de nuevas requiere experiencia clínica.

Para citar un ejemplo simple: utilizando un análisis de correlación simple, podrá identificar con éxito una variable x que es indicativa de insuficiencia renal en pacientes. Pero el hecho de que sea creatinina y tenga sentido clínico es algo que el clínico deberá confirmar.

Podría desarrollar clasificadores, pero los modelos deben ser explicativos. Por ejemplo: Supongamos que crea un clasificador sofisticado basado en SVM para predecir el cáncer. Y tiene F-score en los 90. No lo utilizará un médico a menos que pueda responder “¿Por qué está prediciendo lo que está prediciendo? ¿Cuáles son las variables que está mirando la computadora?” Puede encontrar que usar un árbol de decisión es mucho más visual y convincente para ellos.

En resumen, podrá usar muchas de sus habilidades como científico de datos pero con nuevos desafíos en el dominio.