¿Qué tan preciso es Google Flu Trends?

( Actualización 4 de febrero)

Resumen: en este punto, parece probable que Google Flu Trends haya exagerado considerablemente la actividad de la gripe este año en los Estados Unidos. Pero no podremos llegar a una conclusión más firme hasta …
Léelo en la web.

Creamos Google Flu Trends como una fuente de datos complementaria a los sistemas de vigilancia administrados por el CDC. Existen muchas maneras de medir la actividad de la influenza, pero las dos formas principales son sindrómicas (observar los síntomas de los pacientes que acuden al médico) y virológicos (observar las pruebas de laboratorio de los pacientes). Cada uno tiene fortalezas y debilidades y, por lo tanto, para controlar la actividad de la influenza en los Estados Unidos, el CDC ejecuta un sistema sindrómico (llamado ILInet, abreviatura de la red de enfermedades similares a la influenza) y un sistema virológico (parte de un sistema más grande llamado NREVSS).

Similar a ILINet, Flu Trends produce estimaciones de enfermedad similar a la influenza. A diferencia de ILInet, las estimaciones se producen a partir de un modelo que utiliza la actividad de ciertos términos de búsqueda en Google Websearch. La selección de estos términos de búsqueda y el resto del proceso de construcción del modelo está documentada en detalle en nuestro artículo de Nature [1], sin embargo, hay algunos puntos de alto nivel a tener en cuenta:

1. Se consideraron más de 50 millones de términos de búsqueda de candidatos. Aquellos que se correlacionaron mejor con los datos de ILInet fueron seleccionados. Los que son más susceptibles a los picos inducidos por las noticias, por diseño, no se seleccionan usando nuestro enfoque.

2. La actividad de ILI puede tener una variación regional significativa, por lo que los datos regionales de ILInet se usaron como el objetivo. Además, la posibilidad de que un término de búsqueda aleatorio se correlacione con los datos de ILInet en las diez regiones es considerablemente menor que la posibilidad de que un término de búsqueda aleatorio se pueda correlacionar con los datos para una sola ubicación.

3. La actividad de ILI también varía significativamente de una temporada a otra, tanto en su tiempo como en su gravedad, por lo que utilizamos datos de ILInet desde 2003 hasta los datos más recientes disponibles en ese momento.

4. Este método automatizado no requiere conocimiento previo de la influenza. Se ha utilizado para otras enfermedades con Dengue Trends [2] y otros fenómenos del mundo real [3] con Google Correlate.

Cuando lanzamos Google Flu Trends en 2008, indicamos [4] que:

“Tenemos la intención de actualizar nuestro modelo cada año con los últimos datos de ILI del proveedor centinela, obteniendo una mejor adaptación y ajuste a medida que el comportamiento de búsqueda de atención médica en línea evoluciona con el tiempo”.

En el otoño de 2009, hicimos justamente eso y volvimos a entrenar un modelo usando datos de ILI de CDC desde 2003 hasta el verano de 2009 como el objetivo. El proceso automatizado para construir el modelo fue el mismo que antes, solo se actualizaron las series temporales objetivo. El modelo resultante captó cambios en el comportamiento de búsqueda debido a la influenza H1N1 que circulaba durante el verano de 2009. Como resultado, este modelo actualizado produjo estimaciones durante el verano de 2009 que estaban más en línea con las estimaciones del CDC que el modelo anterior. Los detalles de esta actualización del modelo se pueden encontrar en nuestro documento PLOS ONE [5].

Desde la actualización del modelo 2009, no se ha necesitado una actualización del modelo Flu Trends porque el modelo ha tenido un buen desempeño tanto a nivel nacional como regional en los Estados Unidos.

Con respecto a la actual temporada de gripe, aún es demasiado pronto para saber cómo está funcionando el modelo. Por lo general, los CDC emiten una estimación inicial de ILI con un retraso de 1-2 semanas. Esta estimación inicial se actualiza posteriormente durante varias semanas después de la publicación de la estimación inicial. Este proceso se ilustra en el siguiente video, que se publica en nuestra página “Cómo funciona”.

http://www.google.org/flutrends/

Observe cómo el naranja CDC ILI timeseries se mueve durante varias semanas después de que se haya procesado inicialmente. Las estimaciones de Flu Trends están bloqueadas después de que finalice la semana actual, por lo tanto, no se observa un efecto similar para la serie temporal Flu Trends.

Históricamente, CDC ha tenido un descargo de responsabilidad que decía:

“Todos los datos son preliminares y pueden cambiar a medida que se reciben más informes”.
http://web.archive.org/web/20121

Los CDC cambiaron recientemente este descargo de responsabilidad para leer:

“Como resultado de las vacaciones de fin de año y la elevada actividad de la influenza, es posible que algunos sitios experimenten demoras en los informes más largos de lo normal y es probable que los datos de semanas anteriores cambien a medida que se reciban informes adicionales”.
http://www.cdc.gov/flu/weekly/

Dicho esto, hay redes de vigilancia sindrómicas locales que tienen menos retraso. Por ejemplo, a partir del 15 de enero, el Departamento de Salud e Higiene Mental de la Ciudad de Nueva York tiene datos diarios de las visitas al Departamento de Emergencia de ILI hasta el 14 de enero. Como este sistema es electrónico [6], es menos probable que estos conteos cambien después de que se publiquen. El NYC DOHMH series temporales diarias de visitas de ILI muestra un aumento de 4-5 veces sobre el número de visitas de ILI a finales de septiembre [7]. La estimación de Google Flu Trends para la ciudad de Nueva York muestra actualmente un aumento similar en la actividad durante este período de tiempo [8].

Por supuesto, esta red sindrómica ED para la ciudad de Nueva York no es lo mismo que ILInet para la ciudad de Nueva York, la ciudad de Nueva York no es representativa de los Estados Unidos en general y la temporada de gripe está lejos de haber terminado. Tendremos que esperar a que el CDC emita más estimaciones finales antes de que podamos sacar conclusiones sobre el rendimiento del modelo Flu Trends en los Estados Unidos para este año.

1: http: //static.googleusercontent ….
2: http://www.plosntds.org/article/
3: http://www.economist.com/news/21
4: http://www.nature.com/nature/jou
5: http://www.plosone.org/article/i
6: http://www.nyc.gov/html/doh/flu/
7: http://www.nyc.gov/html/doh/flu/
8: http://www.google.org/flutrends/

Esto podría ser 100% exacto. Necesitamos involucrar más big data y métodos más precisos. Google nunca anuncia más de 10 consultas. Pero de acuerdo con google, no incluyen noticias o información de famosos mientras compilan datos.

90 millones de adultos estadounidenses realizan búsquedas para su problema de salud. Este es un país donde todos tienen acceso a internet a través de cualquier fuente. Pero esta situación no es verdad para los 50 países, especialmente los países en desarrollo. Muchos países asiáticos y de Medio Oriente no tienen servicios de Internet 3G o 4G disponibles en muchas áreas. En 2007-2008, cuando Google comenzó los servicios de tendencias de fuga, solo hay 750,000,000 de usuarios con acceso a Internet y una gran parte de ellos. Cuando GFT reclama los datos históricos de los 50 países, no pude entender cómo esto es posible. Básicamente pertenezco al país en desarrollo y la instalación de internet 3G se inició hace 5 años.

GFT está a 2 semanas de CDC. Esta es una gran ventaja al tomar decisiones oportunas. No hay participación humana en la compilación de consultas y resultados.

Pero nuevamente hay un punto débil más que es una brecha de seguridad. Google mantiene la dirección IP en la base de datos para asegurarse de que la consulta esté autenticada. Según google, se centran en miles y millones de consultas en lugar de una consulta. Pero mi pregunta es la misma dirección IP que google tiene dentro de la base de datos.

Esta es una buena tendencia de Google si se produce para Pakistán para luchar contra la fiebre del dengue. La predicción podría hacerse antes del tiempo y se pueden salvar muchas vidas.