¿Cuál es la peor pesadilla de un científico de datos?

La peor pesadilla, tomada literalmente, es un lenguaje bastante fuerte.

¿Cosas que encuentro realmente frustrantes?

  • Pasar días tratando de dar sentido a un conjunto de datos solo para descubrir que los datos están totalmente corruptos o mal etiquetados o de lo contrario un lío completamente inútil debido a problemas de flujo ascendente fuera de mi control.
  • Se le pide que analice los datos de una prueba / experimento mal diseñado o mal implementado después de que todos los datos ya hayan sido recolectados.
  • Puntuación Net Promoter.
  • Cuando los datos son basura
  • Cuando los datos no se recopilaron en absoluto.
  • Cuando te olvidas de cómo hacer que ggplot haga un pequeño ajuste estético a tu visualización de datos y luego desperdicias 40 minutos buscándolo en Google, nadie más, aparte de ti, mira esa figura de todos modos.

Pero mi peor pesadilla ?

Se parece a esto:

Descubrí algo importante e inesperado en nuestros datos. Lo compruebo dos veces. Lo compruebo tres veces. Lo comparto con mis compañeros de equipo y me dan algunos comentarios interesantes y puntos de seguimiento. Todos los seguimientos check out. Lo compartimos más ampliamente: es importante y la gente me escucha, por lo que comienza a afectar la estrategia. Las decisiones comerciales y de productos comienzan a cambiar según mi análisis. Los recursos están invertidos. Los costos de oportunidad se pierden. Entonces me doy cuenta de que cometí un error, y todo está mal.

Ese es el escenario que me mantiene despierto por la noche.

La ciencia de datos es un campo cuantitativo, pero al final de la mayoría de los días el impacto de su trabajo se basa en si sus colegas confían en usted .

Las personas a las que influye tu trabajo no pueden revisar todo tu código, no pueden entender todos tus modelos y no pueden volver a verificar todas tus estadísticas. Solo tienen que confiar en ti. Mi pesadilla es defraudarlos. Todos cometemos errores, así que me esfuerzo por atrapar el mío.

Que se le pida que torture los datos hasta que confiese.

Esto puede suceder de diferentes maneras, sin embargo, en la mayoría de las situaciones ocurre una o más de las siguientes situaciones:

  • El cliente no quiere aceptar la respuesta. Nadie quiere escuchar que sus acciones son ineficaces. La situación a menudo se ve agravada por la dependencia histórica de hacer lo que no funciona y la falta de otras palancas efectivas para que el cliente pueda redistribuir su presupuesto. Admitir que lo que ha hecho durante 20 años no es efectivo (y probablemente nunca lo ha sido) no lo coloca en una posición políticamente ventajosa. Si su cliente decide ser un inconformista y detener las acciones ineficaces, es probable que los culpen de todas las desgracias y, finalmente, que queden fuera del trabajo. Realmente no puedes culpar a tu cliente por no calentar tu visión, ¿verdad?
  • La persona analítica no participa en la fase de diseño del estudio. Esto generalmente sucede cuando le dan las especificaciones para el análisis sin ningún contexto, como qué tipo de pregunta necesita ser respondida. El principal inconveniente de este enfoque es que muchas veces el diseño es tan pobre que no solo no puede responder ninguna pregunta, sino que también puede generar más confusión. Además, a menudo los datos elegidos para el estudio son “totalmente incorrectos”: datos difíciles de obtener, poco confiables y de baja calidad que se especifican a un nivel de granularidad completamente inapropiado, como las ventas diarias de SKU por tienda. Este es el caso cuando mira la solicitud y comienza a entender que lo que sea que intenten comprender puede determinarse con mucho mayor rigor analítico en un cuarto del tiempo que requieren las especificaciones actuales, si solo pidieran una información analítica antes de diseñar este .
  • Cualquier cosa que tenga que ver con los datos de las llamadas telefónicas. Siempre una pesadilla.

Por lo tanto, el peor de los escenarios ocurre cuando ha creado una configuración analítica simple y elegante, que produjo una buena idea, pero el resultado no es políticamente conveniente para su cliente, por lo que sus maravillosos resultados son ignorados, cuestionados y finalmente enterrados bajo una pila de bullcrap mientras te piden que vayas a una expedición de pesca para demostrar que lo que sea que no funcione está funcionando al producir recortes sin sentido y engañosos que involucran datos de llamadas. Y esa es una verdadera pesadilla.

Compartiré una experiencia personal. Espero que disfrutes esta divertida pesadilla. 😀

Me enamoré del amor por R en algún momento del Principio de 2015, comencé a hacer algo de codificación, haciendo Proyectos Piloto (‘Proyectos Piloto’, es una palabra hecha / usada por mí para indicar que simplemente repliqué el trabajo de otra persona y aprendí más de eso).

Antes que nada, déjenme decir que me quedo en un hostal en NIT Trichy. Y utilizo el Wi-Fi del albergue para todas mis descargas y otras actividades en línea.

Una vez estaba tratando de leer un conjunto de datos, utilicé Hmisc para hacer la función de describe() .

Intenté instalar el paquete usando esto – install.packages("Hmisc") .

Obtuve un error bastante extraño, diciendo un extraño error de servidor: servidor no encontrado.

Seguí Google y después de repetidos intentos, no pude resolver el problema.

Parece que el Wi-Fi de la universidad lo estaba bloqueando.

Luego, encontré la instalación manual usando el archivo releace.zip del sitio web de CRAN.

Fue otro día sin electricidad en el albergue (¡Sí! A veces enfrentamos la crisis de la energía eléctrica, pero … ¡no importa! NIT Trichy sigue siendo increíble).

Entonces, traté de instalar el paquete, mientras que la computadora portátil no estaba conectada a la red WiFi.

¡Y ALAS! No solo RStudio ni siquiera respondió a los clics, ni siquiera descartó la opción de seleccionar el archivo zip para la instalación.

¡No tenía idea de lo que estaba pasando!

Desinstalé e instalé R y R Studio siete veces y seguía siendo el mismo.

Durante el Octavo intento, el poder había llegado y mi computadora portátil estaba conectada a Internet, y la instalación funcionó .

Estaba confundido, ¿QUÉ RESOLVIÉ EL PROBLEMA?

¡Solo por el bien, lo desconecté de Internet y probé el proceso otra vez! ¡El mismo problema enfrentado!

Parece que, incluso si RStudio no está utilizando la conexión a Internet per se, todavía necesita internet como una dependencia para la instalación del paquete (ya sea manualmente o directamente desde el sitio web).

Aprendí una lección y pasé por una pesadilla de 3 horas ese día.

Espero que hayas disfrutado la lectura.

Aquí hay otra respuesta mía que te puede gustar: la respuesta de Pragyaditya Das a ¿Cómo puedo convertirme en un científico de datos?

Saludos. 🙂

La peor pesadilla no es realmente acerca de los datos: me gusta abordar todo tipo de problemas de datos, incluidas las situaciones en las que no tenemos suficientes datos.

En cambio, se trata de cómo la gente usa los resultados de forma inapropiada; tal vez exageran incorrectamente el resultado para atacar a sus oponentes (política de la oficina); o tal vez no entienden / aprecian el proceso científico, pero solo quieren usar la ciencia de datos para empaquetar su idea.

Mi peor pesadilla es una no técnica. Es tener personas que dicen que les encantan los datos, pero de hecho no tienen ni idea de cómo usarlo diciendo que los datos son incorrectos porque “ellos saben”.