SUPLEMENTO

Big data, pandemia y apps

Javier Occhiuzzi

CORONAVIRUS
Fotomontaje: Mar Ned - Enfoque Rojo.

Big data, pandemia y apps

Javier Occhiuzzi

A partir del debate que se abrió por la App CuidAR –que abordamos en otro artículo del presente número de Ideas de Izquierda– y su relación directa con el big data para el control de la pandemia, decidimos reseñar el libro del profesor de estadística argentino Walter Sosa Escudero, Big Data, publicado por Ed. Siglo XXI en el 2019. Un trabajo donde desarrolla algunas de las características y contradicciones de esta nueva tecnología.

Para una primera aproximación vamos a valernos de la definición que Escudero usa: “big data se refiere a la copiosa cantidad de datos producidos espontáneamente por la interacción con dispositivos interconectados” [1].

Pero esto no se queda ahí; es verdad que hay un fenómeno informático-político-social nuevo que consiste en muchas personas con dispositivos electrónicos generando una copiosa cantidad de datos que además interactúan con otros dispositivos, pero recién en las últimas décadas aparecen computadoras con procesadores y capacidad de memoria tal que pueden procesar y analizar toda esa información. El big data es la suma de la estadística y el aprendizaje automático.

Por aprendizaje automático entendemos la Inteligencia Artificial en forma de “algoritmo” (secuencia de pasos lógicos que permiten solucionar un problema), un programa que busca patrones en el mar de datos móviles utilizando como criterio de búsqueda “modelos estadísticos”. Escudero describe dos: 1. Modelo de Regresión y 2. Modelo de Promedio. El modelo de regresión explica cómo el algoritmo de Netflix puede identificar mis gustos fílmicos usando el promedio, no general, sino del grupo más específico del que se tiene información, o sea: yo. El modelo de promedio es el mismo que usa el predictivo del celular para saber qué voy a contestar (basándose en el promedio de respuestas de las últimas conversaciones). Ambos modelos estadísticos le dicen al algoritmo cómo y qué debe buscar.

Así, argumenta el autor, “big data le permite a la estadística liberarse de su mero rol de estimar los modelos que otra disciplina le propone, y pasa a asumir la tarea de construirlos, evaluarlos y rediseñarlos, a través de la conjunción de algoritmos y datos masivos” [2]. Según Escudero, el principal uso del combo big data/algoritmos es: como herramienta de reconocimiento de patrones, en el límite de la tecnología y lo social. Por lo tanto podemos decir que en el mundo del big data, algoritmo sin datos es hueco, datos sin algoritmos que lo clasifiquen y agrupen es ciego.

La primera vez que el big data dio una muestra acabada de su potencial y capacidad sanitaria fue allá por el 2009. El mundo estaba conmocionado por la aparición de una pandemia de gripe A. Por suerte, la situación no era tan grave como para declarar una cuarentena obligatoria, pero el miedo al contagio y a la expansión del virus encendió varias alarmas. Las epidemias precisan ser controladas, y para eso es clave el monitoreo en tiempo y espacio real.

En 2009, los EE. UU., para llevar a cabo el monitoreo, crearon un sistema de reportes estadísticos coordinados por el Centro para el Control y la Prevención de las Enfermedades (CDC). Las unidades hospitalarias (clínicas, salas, hospitales, etc.) recababan información de las consultas por síntomas de gripe A, sus tratamientos y algunas características demográficas de los pacientes (género, edad, etc.). Estos reportes eran agregados a nivel de ciudad, condado, estado y región, y finalmente condensados en un informe a nivel nacional. Todo este proceso tomaba unos diez días. Ese mismo año Google presenta el “Google Flu Trends” un modelo de búsqueda (algoritmo) para predecir la intensidad de la gripe A sobre la base de la intensidad de búsquedas. Los técnicos de Google cruzaron 2.340 datos de porcentaje de visitas de hospitales con la proporción de búsquedas relacionadas con la gripe A en cada período y región. Resumiendo: a Google “le toma solo un día hacer lo que al sistema público de una de las naciones más ricas del planeta le toma diez, y con una capacidad predictiva mucho más microscópica“ [3].

“De ser big data rock and roll, Google Flu Trends sería Elvis: el abanderado insignia de la revolución de datos y algoritmos, entendidos como procedimientos y reglas sistemáticas para hallar la solución a un problema” [4], concluye el autor.

Esto es llamativo y merece atención. Las 3 V del big data (volumen, velocidad y variedad) dieron sus frutos a la hora de dar una respuesta de control y monitoreo de una pandemia. El big data se manifestó de forma acabada por primera vez como un salto del control social en la forma de vigilancia epidemiológica.

¿Es el big data una tecnología infalible? La realidad es que no. El propio Escudero lo pone entre pinzas analizando sus propias contradicciones internas:

Los talibanes de los datos creen que big data reemplazará a todo tipo de conocimiento y solo ven su parte exitosa. Los escépticos, por el contrario, creen que es una moda pasajera y únicamente relatan su costado negativo. A nosotros nos toca contar toda la historia, de éxitos y fracasos, de aciertos y aprendizajes, de revoluciones y fiascos, de muertes y resurrecciones. E inferir la que todavía no hemos visto“ [5].

Lo cierto es que el profesor Escudero encara las contradicciones y defectos del big data desde dos ángulos. El primero es el Ético-Moral y el segundo el técnico-estadístico-filosófico. Vamos a comenzar por el segundo. No vamos a desarrollar en profundidad cada concepto que menciona Escudero en su libro, pero los vamos a comentar.

El problema de la “Maldición dimensional” (cap. V) afirma que la cantidad de datos necesarios para estimar confiablemente un modelo crece mucho más rápido que su complejidad. Según Escudero, “es como si para hacer dos tortas necesitase no el doble sino el cuádruple de harina que para hacer una sola”. La “maldición de la dimensionalidad” consiste que la misma cantidad de datos se vuelve muchísimo menos informativa a medida que aumentan las dimensiones del modelo. Para desarrollarlo mejor cito el mismo ejemplo del libro.

Supongan que 100 personas se distribuyen al azar y uniformemente a lo largo de una cuadra. Párense en la mitad de la cuadra y cuenten cuántas personas quedan paradas a no más de 20 metros del lugar donde están, a la derecha y a la izquierda. La cifra exacta no la sabemos (por lo del azar), pero no es muy difícil conjeturar que, si realmente se distribuyeron de manera uniforme en la cuadra, debería dar más o menos 40 (el 40 % de las 100 personas, 20 a la izquierda y 20 a la derecha). Bien. Ahora piensen que esas 100 personas son distribuidas uniformemente y al azar, pero en una manzana. Ubíquense en el centro de la manzana y calculen cuántas personas entran en un cuadrado de 40 metros de lado, con ustedes parados en el medio. Si hacen la cuenta correctamente, da cerca de 16 %, es decir, muchísimo menos que 40 %. Y si ahora las distribuimos en un cubo de 100 metros de lado, el resultado es 6,4 %. ¿Qué pasó? Cuando pasamos de la cuadra a la manzana, la “dimensión” del problema se duplicó (de una a dos dimensiones), pero la cantidad de información (es decir, la cantidad de personas cerca de ustedes) se redujo en más que la mitad, y cuando pasamos al cubo (tres dimensiones), cae al 6,4 %. O sea que cuando pasamos de una a tres dimensiones, la cantidad de datos cercanos se desplomó de unos 40 a 6 y pico. Este ejemplo muy simplificado ilustra que, para la misma cantidad de datos, a medida que aumentan las dimensiones la cantidad de información (datos cercanos a un punto) cae estrepitosamente, y eso complica cualquier proceso de estimación“ [6].

El aluvión de datos de big data promete mucho “espacio” para que los modelos crezcan en pos de su capacidad predictiva, sostiene Escudero, pero la maldición de la dimensionalidad requiere de cierta cautela.

Para la “Falacia de datos” (cap. VI), resumidamente, el autor plantea que el tema no son los datos en sí mismo, sino el criterio de análisis y selección de muestras y universos. En el libro se analizó el caso de la app del 2012 que emitió la ciudad de Boston para tener un control de los baches en las calles de la ciudad, Street Bump. La app permitía a los ciudadanos que informen de los baches que veían con el fin de arreglarlos en el menor tiempo posible. El resultado fue que la app informó que los barrios más afectados por el deterioro de las calles eran los barrios más ricos, y fue allí donde la municipalidad de Boston concentró sus recursos. ¿Qué pasó? Un caso de manual de “sesgo muestral”. Los usuarios de la aplicación en cuestión eran una muestra de la población más pudiente de la ciudad; no es que no haya baches en los barrios pobres, sino que la gente que vive ahí no usa, usa menos o directamente no accede a un celular.

La conclusión es que los usuarios de una app no son suficiente muestra real de una población si lo que se busca es obtener información útil. “Sin los cuidados necesarios, big data es una enorme muestra de pedazos del laberinto borgeano” [7]. No le quita poder al big data, sino que lo relativiza.

Por último está el ángulo Ético-Moral (cap. VII), donde se plantea el problema de rigth data vs. big data. En ese sentido el profesor Escudero plantea que el desafío de esta tecnología es no violar los limites ético morales de cada sociedad, ejemplo las datos personales de Facebook:

La estadística y la ciencia tienen un presente y un futuro asegurado, interactuando con los datos masivos y los algoritmos y no compitiendo con ellos, funcionando como guardianas de la replicabilidad, la transparencia y la ética, tal como lo han venido haciendo desde hace cientos de años, evitando que aparezcan episodios vergonzantes como el de Facebook y Cambridge Analytica“ [8].

Desde este punto de vista, le tengo que objetar a Escudero que el problema es económico y no moral o ético. Ya que el flujo de capital no respeta ninguna Constitución o costumbre, y no porque los datos se encuentren en un terreno no legislado, sino porque en el capitalismo la ganancia está sobre la vida y la dignidad de los individuos. El caso de Facebook es el más claro ya que la colaboración de esta red social con la empresa Cambridge Analytica influyó políticamente a nivel global con el armado de estrategias de campaña para los candidatos que podían pagar por sus servicios; los mejores ejemplos de esto son Donald Trump y Jair Bolsonaro.

El problema no es el big data sino el capitalismo, que le dio un uso y una aplicación específica en torno a sus necesidades objetivas del momento. Siguiendo la misma línea metafórica literaria del profesor Escudero, podemos decir que si el “Google Flu Trends” fue el Elvis Presley de un big data que es el Rock and Roll, hay que decir que Elvis no fue el primero en hacer rock, sino el más famoso en una sociedad racista y banca, que no quería ver negros cantando en la TV, pero no podían negarle a su juventud esa música porque daba ganancias.

Que el big data haya pegado un salto en el monitoreo de la gripe A en el 2009 cruzando información sobre la población, los usuarios y sus dispositivos electrónicos, fue un retroceso en la materia de libertades individuales que se avaló bajo un estado de alarma de pandemia, pero ese avance en el control social nunca más retrocedió, sino que aumentó en sus formas y tipos.

La tecnología y su ideología

La tecnología no es neutral, tiene una ideología que se imprime en la forma y en contenido de sus productos finales. El uranio enriquecido produce la radiación que luego se traduce como energía nuclear. La misma puede ser utilizada para rayos-x, tratamientos oncológicos y hasta energía de uso industrial o doméstico. Pero su aplicación bélica puede producir creaciones monstruosas como la bomba atómica o bombas sucias. Hoy por hoy, todo el desarrollo tecnológico en torno a la producción está dirigido a ahorrarle gasto en fuerza de trabajo a los capitalistas, aumentar el tiempo de trabajo excedente y mejorar su rentabilidad; está en todo su desarrollo impregnado de esta ideología. El big data y sus aplicaciones también tienen impregnada la lógica del capital. El cyber patrullaje y la inteligencia digital no son posibles si no es gracias al big data, que permite rastrillar y filtrar las cataratas de información que circulan en las redes, ¿pero con qué fin? ¿Identificar a las personas que estuvieron en contacto con un potencial infectado de covid-19 o buscar a los que protestan y se quejan de la política del gobierno de turno?

Hoy en día, gracias a la pandemia, se reforzaron los mecanismos de control por parte del Estado. En este caos no todos pierden, las grandes fortunas y las empresas siguen aumentando sus ganancias mientras la calidad de vida de la clase trabajadora baja a toda velocidad.

La discusión que queremos abrir aquí es la siguiente: ¿cuál es la lógica ideológica que moldea la tecnología? Y ¿en manos de quién está? Ya que bajo otra lógica de producción, los avances tecnológicos podrían potenciar el espíritu creativo, liberador y disfrutable. Mientras que bajo la lógica capitalista esos avances sirven para la dominación, la estafa y el control. La tecnología en sí no es amenazante, pero sí debemos desconfiar de aquella tecnología cuyos usos estén marcados por los intereses del capital.

NOTAS AL PIE

[1Sosa Walter Escudero, Big Data, Bs. As., Ed. Siglo XXI, 2019, p. 23.

[2Ibídem, p. 28.

[3Ibídem, p. 19.

[4Ídem.

[5Ibídem, p. 20.

[6Ibídem, p. 94.

[7Ibídem, p. 125.

[8Ibídem, p. 136.
CATEGORÍAS

[Covid-19]   /   [Pandemia]   /   [Coronavirus]   /   [Big Data]   /   [Ciencia y Tecnología]   /   [Sociedad]

Javier Occhiuzzi

Nacido en Bs. As. en 1983. Es Licenciado en Filosofía y miembro del Partido de los Trabajadores Socialistas desde el 2009. Es profesor del ISFDyT N56 y de distintas escuelas secundarias de La Matanza. Delegado de la Agrupación Marrón del SUTEBA.
COMENTARIOS