Muestreo: cantidad + aleatoriedad (y Steve Jobs)

A la hora de hacer un estudio donde esté implicada la estadística debemos procurar que exista aleatoriedad (por ejemplo, los sujetos seleccionados obeceden a estratos sociales, raciales o sexuales indistintos) y cantidad (un estudio con diez personas es muy pobre).

Sin embargo, a pesar de lo que nos dicta la intuición, en una muestra tiene más peso la aleatoriedad una vez se ha conseguido una cantidad no excesivamente sorprendente. Por ejemplo, ante una respuesta binaria (sí o no), una muestra aleatoria de 1.100 individuos u observaciones ya representa a toda la población, sin necesidad de ampliar la cantidad.

Tal y como explican Viktor Mayer-Schonberger y Kenneth Cukier en su libro Big Data:

En 19 de cada 20 casos, presenta un margen de error inferior al 3 por 100, tanto si el tamaño de la población total es de cien mil como si es de cien millones. La razón resulta algo complicada de explicar en términos matemáticos, pero en resumen lo que ocurre es que, superado cierto punto, al principio, conforme las cifras van haciéndose mayores, la cantidad marginal de información nueva que se consigue de cada observación es cada vez menor. El hecho de que la aleatoriedad se impusiera al tamaño de la muestra supuso una revelación sorprendente. Allanó el camino para un nuevo enfoque de la recolección de información. Los datos que usan muestra aleatorias podían recopilarse a bajo coste y, sin embargo, extrapolarse para el conjunto con gran exactitud.

Ello no solo implica a los estudios científicos, sino a toda clase de datos. Por ejemplo, en el ámbito del control de calidad de los productos ya no es necesario examinar uno a uno todos los productos, ni siquiera hay que examinar un alto porcentaje: basta con unas pruebas sobre una muestra lo suficientemente aleatoria de un grupo de productos.

Naturalmente, no todo es tan sencillo. Superada la cantidad, hay que fijarse en la aleatoriedad. Y obtener una buena aleatoriedad es un tema mucho más peliagudo de lo que parece. Por ejemplo, si llevamos a cabo una encuesta electoral por teléfono no estamos siendo verdaderamente aleatorios: la muestra está sesgada en contra de la gente que solo usa teléfonos móviles, tal y como ocurrió en los pronósticos electorales erróneos en la elección presidencial de 2008 entre Barack Obama y John McCain llevadas a cabo por Gallup, Pew y ABC/Washington Post.

La cosa se complica que pretendemos parcelar los resultados, crear subcategorías del tipo "hombres de buena posición económica del norte del país". El atajo de la aleatoriedad, pues, ha sido importante para las ciencias sociales en general, pero requiere un esfuerzo cuidadoso y ofrece resultados solo a nivel macro: a nivel micro, todo se viene abajo.

No obstante, estamos viviendo una época en la empezaría a preponderar la cantidad por encima de la aleatoriedad, sencillamente porque todos generamos más datos que nunca, y el acceso a dichos datos ya no resulta ni escaso ni problemático. Sensores, GPS de teléfonos móviles, clicks en páginas web, Twitter... toda es abundancia de datos nos puede ofrecer una cantidad tal que sencillamente estamos analizándolo TODO. Cuando tenemos toda la cantidad que estamos analizando, el problema de la aleatoriedad desaparece. Bien lo supo Steve Jobs.

El ADN de Jobs

Cuando Steve Jobs luchaba contra su cáncer no secuenció su ADN como lo hacía el resto de las personas. El análisis de secuenciar el genoma de un individuo a través de servicios como 23andMe en realidad no se lleva a cabo en todo el ADN. En realidad, la compañía solo secuencia una pequeña porción del código genético: lo que ya sabe que son marcadores de determinadas debilidades genéticas.

Pero hemos visto que la cantidad puede ser más eficaz que la aleatoriedad. Si en este análisis no se apuesta por la cantidad es porque resulta tremendamente caro. El dinero, no obstante, no era un problema para Jobs:

Se convirtió en una de las primeras personas del mundo en secuenciar todo su ADN, al igual que el de su tumor. Y pagó por ello una suma de seis dígitos: muchos cientos de veces la tarifa de 23andMe. A cambio, no recibió una muestra, un mero juego de marcadores, sino un archivo de datos con sus códigos genéticos completos. Al prescribir la medicación para un enfermo de cáncer cualquiera, los médicos tiene que confiar en que el ADN del paciente sea lo bastante similar al de quienes hayan participado en las pruebas del fármaco para que este dé resultado. Sin embargo, el equipo médico de Steve Jobs podía elegir unas terapias en función de su específica constitución genética. (...) Si bien, por desgracia, su predicción no se cumplió, el método (disponer de todos los datos, no solo de unos cuantos) le prolongó la vida varios años.

En un mundo de escasez de datos, todos teníamos que conformarnos con pequeñas muestras, y gastar la energía en perseguir una aleatoriedad con no pocas limitaciones. En el mundo actual, y sobre todo en el que se nos avecina, la abundancia de datos nos permitirá que todos seamos como Steve Jobs en toda clase de asuntos.

El ADN de Jobs

RECIBE "Xatakaletter", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios