¿Cómo podemos saber si una estadística es fiable?
!- Categoría: Otras
Antes de nada quiero dejar claro que no quiero ni pretendo entrar a debatir el aspecto matemático de la estadística. Primero porque no estoy demasiado versado, y segundo porque lo poco que sé me resulta bastante aceptable.
Lo que me “intriga” sobre las estadísticas, es la veracidad de la información recolectada, la presentación de la muestra significativa y la final interpretación que nos dan.
Veamos, siempre que me pongo a debatir, acaba saliendo por algún lado una estadística. Alguien me presenta un dato X que va en contra de lo que digo, y entonces yo no puedo presentarle un dato -X para contrarrestarlo. ¿Cómo puedo saber si esa estadística es fiable? lo digo porque la única manera que se me ocurre para demostrarlo, sería revisando la información y elaborando otra estadística para contrastarla, lo cual es una paradoja que no me lleva a ningún lado (si intento desacreditar las estadísticas, no puedo utilizar una estadística para hacerlo, puesto que sería como utilizar la palabra definida en la definición).
Es decir, ¿cómo se puede saber si el resultado de una estadística es realmente una muestra de una opinión (o hecho)?
Además de todo eso, últimamente salen miles y miles de estadísticas basadas en encuestas por todas partes, muchas de ellas (por no decir todas) en una plataforma digital. ¿Cómo se supone que puedo confiar en la veracidad de una estadística realizada desde el anonimato por usuarios de internet, y cuyos datos son inaccesibles? es que me resulta tan fácil de imaginar mil maneras para falsificar los resultados en mi favor, que ya ni si quiera debería considerarlas como algo importante.
Por último, aunque la estadística sea elaborada con encuestas formales, opino que dependiendo del tipo de preguntas, respuestas y personas a las que le hagamos la encuesta, se puede anticipar un resultado favorable o desfavorable para nuestras intenciones.
En fin, yo que sé, que siempre tengo la misma discusión en todas partes y ya no sé por dónde buscar un razonamiento válido a la hora de desacreditar una estadística que parece salir de ningún lado. Por cierto, ¿alguien sabe si hay una estadística que hable sobre la fiabilidad de la propia estadística? (nuevamente sería una paradoja, pero bueno…)
Ordenar por: Más útiles | Recientes | Cronológico
3 Respuestas
-
!
brillante
Karma: 43 (1 voto)
Pues en principio el problema de las estadisticas que se presentan en la mayoria de medios de comunicacion es que son sesgadas o incluso manipuladas, porque se presentan precisamente para dar validez a la tesis que se esta exponiendo.
Las unicas estadisticas que podria considerar fiables son las referidas unicamente al ambito cientifico. Aun con todo, en muchos estudios (sobretodo lo sociologicos) la muestra es siempre extremadamente pequeña como para sacar una conclusion clara. Normalmente se trabaja con grupos de menos de 100 personas, pero incluso con grupos de 300 personas no creo que se pueda sacar ninguna informacion valida.
En una estadistica seria (sin ser yo muy experto en el tema la verdad) como minimo te tendria que dar la media, la moda y la varianza. Sin alguno de estos datos se queda bastante coja cualquier información que te puedan dar y las conclusiones que se extraigan de ellas pueden ser facilmente manipuladas.
Respecto a las encuestas pues me remito al primer parrafo. Como dices, normalmente las encuestas de opinion dan informacion sesgada porque la propia pregunta suele inducir a alguna respuesta, a menos que la encuesta este bien confeccionada. Incluso en muchas ocasiones las preguntas se formulan con este objetivo.
Sin embargo en encuestas como las de intencion de voto, las muestras se escogen cuidadosamente de forma que el grupo escogido sea representativo del resto de la poblacion. Ademas que las muestras son muy grandes (lo suficiente). De hecho en España por ejemplo hay ciudades que se considera que tienen una poblacion representativa del conjunto del país y suelen ser objetivo preferido de las encuestas, como por ejemplo Zaragoza.
-
!
Coincido en que, dependiendo de las “pretensiones” de la estadística, una muestra de menos de 300 personas es tan poco significativa que casi no debería ni considerarse.
Lo que no acabo de ver, es lo último que comentas. Es decir, ¿cómo puedo saber que el grupo de personas de Zaragoza a las que hago la encuesta, realmente tienen una opinión representativa del resto?
Entiendo que si los sondeos coinciden con los resultados electorales, después de haber elegido Zaragoza, puedas encontrar una relación digna de estudio, pero en realidad sólo sabes que el sondeo es acertado después de que ocurran las elecciones, que en el fondo son como una gran estadística muy controlada. Es decir, en cualquier otro caso, no tienes medios, más allá de otra estadística, para determinar si la muestra es representativa o no.
Quiero decir, la idea estaría en que habría que hacer 500 estadísticas de 1000 personas distintas y contrastar así los resultados, para averiguar si realmente coinciden o no en alguno o muchos puntos, para saber con un poco de certeza si realmente la muestra es representativa. Esto, por su puesto, entraña una gran cantidad de trabajo casi imposible de realizar.
En fin, no sé si me explico.
-
!
brillante
Karma: 40 (1 voto)
En realidad es sencillo. Basta con ver si la estadística viene con un intervalo de error. Si no lo lleva… lagarto, lagarto.
P.ej., si quiero saber qué piensa “España” sobre el cualquier cosa, y se lo pregunto a 1000 personas seleccionadas cuidadosamente al azar, el intervalo de error será x. Si se lo pregunto a 100.000, el intervalo de error será más pequeño, y si se lo pregunto a 10, enorme.
Por supuesto, JAMÁS verás el intervalo de error en una los medios de comunicación de masas. Eso hace que uno no se pueda fiar incluso de las estadísticas no sesgadas, que son la mayoría en esos medios.
PD:
En ciencias sociales es muy difícil hacer estadísticas sin sesgo. Imagínate que llamas por la mañana a hogares españoles al azar para hacer tu pregunta. Simplemente por hacer eso, ya tienes un sesgo: la gente que está en casa podrá responder, y la que no (porque está trabajando, seguramente) no. Tu población dejará de ser representativa, conteniendo una sobrerrepresentación de jubilados, parados y amas de casa. Si lo haces parando a gente por la calle, aún peor (por la hora, por la zona, por quien va a pie y quien va en coche…) -
!
Por lo que he estado mirando, el intervalo de error es un poco lo mismo que usa el sistema de detección y corrección de errores de un CD/DVD, para determinar el intervalo en el que es más probable que se encuentre el error y, así, poder corregirlo.
Es decir, entiendo que contra mayor es el intervalo, mayor es el posible error y menos relevante es la encuesta y sus resultados y viceversa.
¿Estoy en lo correcto o lo entiendo mal?
Luego lo otro que comentas, es totalmente cierto. Hace unos meses, debatiendo el tema fumadores vs cáncer, uno me presentó una estadística que decía que el 90 y largo % de los fumadores no desarrollaba ningún cáncer.
Lo primero que hice fue dudar enormemente de esa estadística y me pasé un buen rato indagando en la página que la ofrecía. Después de rebuscar por todas partes, encontré en un recóndito lugar del site que la encuesta “había sido realizada a un grupo de personas de entre 18 y 25 años”.
Ni si quiera me dijeron cuántas, pero el factor “edad” es tan determinante con el resultado, que rompe por completo la objetividad de la estadística y su posterior uso. Claro que salen que el 90% de los fumadores de menos de 25 años no tienen cáncer, pero es que alterar ese factor hace que una cosa muy mala, pase a ser muy buena o viceversa.
En fin, la desconfianza en el sistema radica en que, en temas más complejos o que yo no domino, me la pueden meter, hablando mal, “doblada” por todas partes, ignorando o resaltando factores muy determinantes que adulteran por completo el resultado.
Ante la duda, no confío. De todos modos gracias por ese nuevo dato, lo tendré muy en cuenta de cara a las nuevas estadísticas.
-
!
El intervalo de error es una medida de la incertidumbre del resultado. Pongamos que quiero saber cual es el peso medio de un español. Encuesto a 1000 personas y me sale un peso medio p. La pregunta es ¿cuán cercano está este peso medio p (de mi encuesta) con el peso medio P real de toda la población? Si encuesto a mucha gente, p será muy parecido a P, si encuesto a poca, podrá haber más diferencia. Al ser el peso una variable continua (infinitos decimales) p nunca será exactamente igual a P, pero se puede calcular la probabilidad (con una fórmula) de que P se encuentre en un intervalo centrado en p. Normalmente se ajusta el intervalo en [p-x, p+x] de manera que esa x genere un intervalo cuya probabilidad de contener P sea de un 90% o 95% (estos porcentajes son una convención). Cuantos más encuestados, más pequeño será este intervalo de error.
Por ejemplo, podría salir que el peso medio p es 65 kg con un intervalo de error de 64-66 (+-1kg). Traducido, significa que la probabilidad de que el peso medio real P se encuentre entre 64 y 66 kg es del 90%.
-
!
Karma: 15 (0 votos)
Me pareció interesante (y no está alejado de este tema) el chiste que ví en una página que suelo visitar.
Puro off-topic, siento si molesta.
http://www.lapulgasnob.com/2010/03/encuesta.html
Un saludo.