Usar modelos de predicción a partir de la red social puede ser muy útil para el análisis de datos, pero algunos expertos alertan de que la información contiene sesgos

ELENA SANZ / NOTICIA MATERIA

Millones de personas de todo el planeta pensando en voz alta en la Red. Así podría describirse Twitter desde el punto de vista de los epidemiólogos, etólogos, economistas y sociólogos, que han encontrado en esta plataforma de microblogging una auténtica mina de oro para sus investigaciones.

La epidemia de gripe de este año, por ejemplo, se podría monitorizar mejor con ayuda de la popular red social. Hace poco, informáticos de la Universidad Johns Hopkins (EE UU) desarrollaron un método que no solo proporciona datos reales sobre la gripe sino que también filtra el parloteo online sobre esta enfermedad desligado de casos reales de infección. “Cuando lees tuits, puedes encontrar a gente hablando de su temor a contraer la gripe o mencionando a una figura publica que ha enfermado”, explica Mark Drezde, responsable de la investigación. Esos mensajes no ayudan a medir quién ha contraído la gripe, de ahí la importancia de usar adecuadamente las tecnologías de análisis del lenguaje “separarlos de los que sí identifican a personas enfermas y, por lo tanto, ayudan a cuantificar de manera fiable la magnitud de la epidemia”

Drezde sabe bien de lo que habla. En 2011 se convirtió en uno de los pioneros en el uso de Twitter como herramienta para recabar información sobre salud pública. Y desde entonces a la red social no han dejado de salirle aplicaciones en este sentido. Algunas de las enfermedades mentales más comunes (estrés postraumático, trastorno bipolar, depresión y trastorno afectivo estacional) podrían entenderse mejor recopilando datos en esta red social.

En el Hospital Infantil de Boston se han puesto manos a la obra para crear un “fenotipo digital” del insomnio y otros trastornos del sueño basándose en datos extraídos de los tuits. Twitter también permite estudiar a gran escala la incidencia de los ataques de migraña y el impacto que causan en la vida de los pacientes, como demostraban hace poco investigadores de la Universidad de Michigan. Y desde la Universidad de Arizona han demostrado que con el microblogging se puede predecir cuántos asmáticos acudirán a urgencias en un día y permitir, así, que los hospitales tengan preparados los recursos humanos y materiales para tratar a estos pacientes. “En las redes sociales, la gente comparte constantemente información sobre cuánto ejercicio realiza o qué come”, recalcaba Sudha Ram, experta en sistemas de información y coautora del estudio. “Usar modelos de predicción a partir de Twitter puede ser muy útil para abordar enfermedades crónicas”, vaticina.

Con el ‘microblogging’ se puede predecir cuántos asmáticos acudirán a urgencias en un día

Seguirle la pista al virus del sida también resultaría más sencillo analizando la información a tiempo real que aporta Twitter. Bastaría con usar el algoritmo que han creado en la Universidad de California (EE UU) a partir de 550 millones de tuits. Según sus desarrolladores, la red social permite predecir las conductas sexuales de riesgo y los comportamientos de consumo de drogas ligados a la propagación del VIH, situar el origen de los mensajes y plasmarlo en un mapa, e incluso relacionar esta información con la distribución conocida de casos de sida en el mundo. “Podemos usar el ‘big data’ procedente de redes sociales para prevenir y detectar esta enfermedad de transmisión sexual“, concluía Sean Young, coautor del trabajo, que con “big data” se refiere a la gestión y análisis de enormes volúmenes de datos que no podrían ser reunidos ni tratados de forma convencional.

La posibilidad de localizar geográficamente la información que se publica en Twitter es una de las tres grandes ventajas que encuentra el psicólogo Johannes Eichstaedt en el uso de esta red social en investigación sanitaria. Las otras dos son “que los tuits son públicos por defecto, y por lo tanto acceder a ellos no entraña problemas éticos, y que su uso ha calado hondo en todos los continentes”, según resume este investigador de la Universidad de Pensilvania (EE UU). En su último trabajo, publicado en Psychological Science, demostraba que los mensajes de 140 caracteres de la plataforma de microblogging permiten identificar con más acierto los factores de riesgo de enfermedad coronaria que cualquier método tradicional. “La Asociación Americana del Corazón ha instado a los científicos a focalizar la atención en los factores de riesgo primordiales, es decir, en situaciones de estrés o de exceso de hostilidad que preceden a adquirir hábitos como fumar, beber demasiado alcohol o ingerir un exceso de grasas que suben el colesterol malo”, explica el investigador. Y Twitter, defiende, es “una herramienta excelente para medir el componente psicológico del riesgo primordial”.

Que el microblogging ofrece una gigantesca base de datos mundial de información constantemente renovada es algo indiscutible a estas alturas. Twitter cuenta con más de 270 millones de usuarios en todo el mundo que, juntos, publican en torno a 500 millones de mensajes diarios. Pero, ¿se pueden considerar como representativos los datos que ofrece de esta red social? No es una pregunta con respuesta simple. La población mundial supera los 7.000 millones de habitantes, y en Twitter participa algo menos del 4%. Eso significa que miles de millones de personas permanecen en la periferia de la nube. “El big data puede reestructurar las sociedades de modo que las únicas personas que importen son las que contribuyen al flujo de datos”, reflexionaba el experto en leyes Jonas Lerman en la prestigiosa revista Standford Law Review.

La red social permite predecir las conductas sexuales de riesgo y los comportamientos de consumo de drogas ligados a la propagación del VIH

Mark Drezde discrepa y defiende que las ventajas que ofrece Twitter para reunir información son enormes, en particular en lo que se refiere a datos sobre el comportamiento y las poblaciones “que antes estaban al alcance de unos pocos y ahora se encuentran disponibles para cualquier investigador”. “Ningún conjunto de datos es perfecto, ninguno lo abarca todo y a todo el mundo; simplemente hay que tener en cuenta las deficiencias y los sesgos de la serie de datos con la que trabajamos en cada momento”, reflexiona.

La población mundial supera los 7.000 millones de habitantes, y en Twitter participa algo menos del 4%

Johannes Eichstaedt va aún más lejos y defiende que, “si bien es cierto que hay dramáticas desigualdades en el mundo (sobre todo entre el norte y el sur)”, el coste de estar representados en el big data – acceder a un teléfono móvil con datos – es menor que “lo que se requiere para estar incluido en los conjuntos de datos clásicos, es decir, un gobierno que funcione adecuadamente, oficinas de estadística, sensores, etcétera.”, argumenta Eichstaedt,. “Incluso podemos considerar que hay una esperanza en Twitter, que quizás este tipo de tecnologías le den voz a los ciudadanos del hemisferio sur con independencia de las infraestructuras de sus países de origen”, añade. Con la ventaja añadida para los científicos de que, en esta plataforma, un investigador “es capaz de abordar cualquier cuestión que se pueda plantear analizando datos lingüísticos, que es mucho más de lo que permitía una encuesta clásica”.