Vamos hacer un ejercicio de endogamia, o quizás de autoanálisis: ¿podríamos calcular cuánta información posee este artículo que ahora mismo estáis leyendo? No hablamos de lo valiosa que pueda ser esta información, ni tampoco de los cambios que podría producir en vuestra mente. Sencillamente de la información que contiene en bruto, independientemente de su valor informativo.
Ello se puede conseguir contando cuántos símbolos hacen falta para transmitir este artículo. Cuando hablamos de símbolos nos referimos a letras, palabras o números.
Imaginemos que este artículo está formado por 1.000 palabras. (Hasta aquí llevamos 95, incluyendo el título).
En la lengua inglesa, las palabras contienen en promedio 4,5 caracteres alfabéticos. Incluyendo los espacios que separan las palabras entre sí, la longitud media de una palabra es de 5,5 caracteres.
Es decir, que si este artículo estuviera escrito en inglés, siguiendo las indicaciones de Graham Tattersall, este artículo de 1.000 palabras es también un mensaje de 5.500 caracteres.
Lo habitual es transformar los caracteres en secuencias de símbolos binarios. Los símbolos binarios se usan de forma general en los sistemas informáticos y sólo está formado por ceros y unos. Por ejemplo, imaginemos la letra A. En binario, se escribiría con una serie de 8 símbolos: 01000001, según el código ASCII (Código Estadounidense Estándar para el Intercambio de Información). Un espacio entre palabras se representaría con la serie 00100000.
Cada uno de esos 1 y 0 cuenta como un bit.
Como hemos dicho, si cada palabra contiene de media 5,5 caracteres, este artículo de 1.000 palabras se calcularía así:
1.000 × 5,5 × 8 = 44.000 bits.
En cada byte hay 8 bits, de forma que este artículo, almacenado en un ordenador, ocuparía 44.000 / 8 = 5,5 kilobytes de espacio en disco.
Es un poco confusa esa práctica consistente en emplear el término “bit” para dos cosas, ya que se usa tanto para describir el símbolo binario como a manera de unidad de información. Se hace así porque ambas cosas están muy relacionadas entre sí. De hecho, a menudo los símbolos binarios son portadores de 1 bit de información. Digo que ocurre a menudo, pero no siempre es así.
En la próxima entrega de este artículo veremos algunas sorprendentes equivalencias de información entre diversos medios.
Vía | Cómo los números pueden cambiar tu vida de Graham Tattersall
Comentarios
No dices que el artículo tiene 5500 caracteres? Deberias multiplicar 5500x8, no?
El resultado lo has puesto bien, simplemente te has colado al escribir el producto, imagino.
-- editado por última vez a las 17:02
Tienes razón, Tempra. Ya está corregido. Gracias.
0010 0001
0100 0010
0100 1001
0100 0101
0100 1110
0010 0001
-- editado por última vez a las 18:06
"!BIEN!" Te falta el '\0' final xDDD
¡Gracias!
interesante
00101011 00110001 00100000
+1
¿Y ese 0x20 final?
48 6F 6C 61 20 4D 75 6E 64 6F 0D 0A 4E 41 4B 45 20 52 55 4C 45 53 21 00
interesante
Dejo esto por si hay algún curioso como yo... http://redir.dasumo.com/hex/
JAJAJA, y entonces me surgieron dudas como: ¿Para qué sirven los demás sistemas?, ¿cómo se usan? ¿cómo se codifican? y/o ¿Cómo se determinaron esas codificaciones? -si así se dice-
JAJAJA, modestia aparte.
interesante
Las computadoras logicamente trabajan en binario que es una diferencia de estado. Toda la informacion en una computadora son 0 y 1. Esta seria base 2 con dos simbolos se representan los valores,nosotros usamos base 10 o decimal,usamos 10 simbolos que son los digitos mas por cuestiones historicas. Imagina un informatico teniendo que trabajar con puros 0 y 1 se usa mucho espacio por lo que mejor agrupamos. En octal tiene 8 simbolos de 0 a 7 El 8 seria en octal 10 y en binario 1000,este sistema se uso en los inicios de la informatica cuando la cantidad de memoria disponible era minima para abreviar y no usar tantos 0 y 1. El hexadecimal es la base 16 y sus simbolos son 0 al 9 y de A a F. FF seria 255 en binario es 11111111 y en octal 377, es mucho mas facil usar hexadecimal. Pero ¿por que no usan los programadores decimal? Las computadoras trabajan en 0 y 1 por lo que es mas natural usar bases que sean potencias de 2 . Aunque matematicamente hablando hay un numero infinito de bases numericas solo que nos limitamos a la base 10. La codificacion es un algoritmo muy sencillo. Si tenemos 10 y queremos a binario dividimos 10 entre 2 son 5 y residuo o resto 0. tenemos el 5 dividimos entre 2 son 2 y residuo 1 tenemos 2 y dividimos entre 2 y son 1 y 0 tenemos 1 dividimos 1 entre 2 tenemos 0 y 1. Si es 0 nos detenemos Tomamos los numero de abajo hacia arriba y tenemos 1010. Este algoritmo se puede aplicar a cualquier base numerica si quieres hexadecimal seria dividir por 16 en vez de dos y usar el simbolo coorespondiente solo que los valores se toman de principio a fin y no al revez. ejemp. 28 28 entre 16 1 y 12. 1 entre 16 0 y 1 El doce se convierte en C y tendriamos 1C. Si queremos lo contrario de binario a decimal. empezando por la primera posicion de izquierda a derecha multiplicamos por 1 la siguiente por 2 la siguiente por 4 y asi sucesivamente y sumamos . 1(2^3)+0(2^2)+1(2^1)+0(2^0)=10. En hexadecimal 1C 1(16^1)+C(16^0)=28.
jaja, si. Y gracias ^^
Buen pedazo de bloque de texto, pero muy completo. Nada que añadir +1 ^^
Bueno si, el hexadecimal se usa porque un byte son 8 bits, y por tanto hay 2^8=256 posibilidades distintas de números, que resulta que coincide (no es casualidad xD) con el valor hexadecimal 0xFF, de forma que es el sistema más simple de representar un byte.
interesante
Pues es cierto que en ASCII simplemente coges cada caracter (char) y lo multiplicas por su tamaño en la memoria (suele ser 8 bits en los ordenadores actuales) y ya está, pero hay algo que no has tenido en cuenta: el artículo está en html y por tanto hay caracteres de más que tu navegador transforma y no se ven directamente, como el blockquote, los párrafos.
Y además tienes que tener en cuenta los saltos de línea que en windows son dos caracteres y por tanto 16 bits extra. Y no solo eso, en html los saltos de línea no tienen nada que ver con las nuevas líneas reales. Para hacer un salto de línea tienes que usar un tag especial (< br / >) que consta de 6 caracteres (48 bits) o los tags de párrafo que son 3 caracteres para iniciar y 4 para cerrar el párrafo (< p > y < / p >).
He cogido solo el trozo de código fuente de la página y en total son: 5024 bytes (contando con los comentarios del html), que equivalen a 40192 bits, que no se va tanto de su aproximación (10%).
Respecto a lo de almacenarlo en el ordenador... Aunque lo guardases como texto plano, el sistema operativo necesita guardar un espacio para definir el nombre de archivo y sus propiedades y una lista de direcciones físicas donde se encuentran los distintos trozos que componen el archivo (de ahí lo de desfragmentar el disco duro). Si se trata de linux con ext2 y similares necesita usar inodes y demás, en windows desconozco el funcionamiento del NTFS.
interesante
Hombre, yo creo que estaba tratando de calcular los bits necesarios para escribir ese mensaje, imagínalo escrito con el bloc de notas y punto, sin imágenes ni html ni nada. Tampoco va a poner la información que necesita el sistema operativo para ser capaz de ponértelo en pantalla...
Y además está el tema de la fragmentación en sectores o clústeres, que siempre entrará en juego a menos que el archivo esté comprimido o forme parte de un .tar.
Lo que dices es cierto, pero en el segundo párrafo dice "cuántos símbolos hacen falta para transmitir este artículo".
Lo cual me lleva a decir que aún serían más bits ya que para "transmitir" el artículo se necesitan mandar muchos más bits, y no solo por el html, si no por el protocolo http, y no solo eso, el dns para conectarse y muchas otras cosas. Y no creo que sea algo tan fácil de calcular si nos ponemos serios.
Lo del disco duro y el Sistema Operativo lo he comentado por lo que dice al final del texto: "5,5 kilobytes de espacio en disco."
Salgo como mejor comentario a la izquierda ^^ ya soy feliz jaja, ahora solo me falta karma para llegar al nirvana y ser feliz de por vida xD.
No tengo muy claro lo de los clústeres de memoria, ¿no es lo mismo que he dicho de "donde se encuentran los distintos trozos que componen el archivo (de ahí lo de desfragmentar el disco duro)"?
Lo que me refiero es que por cuestiones de facilidad y de poder cambiar el tamaño de un archivo indefinidamente, el archivo se puede separar en bloques en la memoria, y luego en la tabla de ficheros interna que tiene el Sistema Operativo se enlazan y se cargan en la RAM como si se tratase de un archivo todo unido, aunque físicamente están separados.
"En cada byte hay 8 bits, de forma que este artículo, almacenado en un ordenador, ocuparía 44.000 / 8 = 5,5 kilobytes de espacio en disco." Esto esta mal. me explico. 44.000/8=5.5 bytes, no kilobytes, que serian 1024 bytes.
interesante
rafa tampoco son 5,5bytes, són 5.500 bytes es decir 5,37 kilobytes segun la relación 1kb-1024b, pero también se puede usar la relación 1kb-1000b que dejaria el resultado dado por Sergio como correcto.
Solo para hacer la prueba e copiado y pegado el articulo en un editor de Texto, lo he dejado como texto plano (y sin dobles espacios ni imágenes obviamente.) Y lo he guardado usando el titulo del articulo como el nombre del archivo en formato .txt. Y el peso es 4KB. Bastante cercano a los 5,5 KB pronosticados, no esta mal considerando que se calcularon en base al idioma ingles.
Por otro lado veo que has hecho esta operación.
,"1.000 × 5,5 × 8 = 44.000 bits" , y luego esto lo has divido entre 8, para obtener los 5.5KB, que curiosamente 3 párrafos antes de sacar los 5.5KB ¡ya habías sacado 5,500 caracteres que coincidieron con los 5,500 bytes! No se en que parte del articulo me perdí o si realmente no hacía falta más calculo que multiplicar por 5.5 el número de palabras.
(Notar que los "estándares" de hoy en día han dejado la palabra Kilobyte para referir a 1000 bytes y lo de 1024 se lo han dejado a los "Kibibytes")
Los comentarios cuentan??...
4e 6f
Ok... Porque sino tendría cada vez mas y mas información... XD
Hola a todos, Corríjanme si me equivoco, pero en estricto podemos utilizar otra longitud de palabra, dado que sólo trabajaremos con texto, una más corta, digamos que de 5 bits bastaría para el alfabeto, pero seamos generosos con 6 para algunos "caracteres especiales", así reduciríamos considerablemente el número de bits necesarios. De hecho en un inicio el byte no fue el estándar.
Saludos, cALi
Hay un punto.. no todos los datos son información, el termino información, si no me equivoco, se aplica cuando los datos recibidos modifican la "configuración" del receptor. El punto es que "conjunto de datos" no es sinónimo de información. O sea, un dato seria por ejemplo "ahora son las 3 de la tarde", pero eso solo sería información si el receptor no conoce la hora...
Oops..."No hablamos de lo valiosa que pueda ser esta información, ni tampoco de los cambios que podría producir en vuestra mente. Sencillamente de la información que contiene en bruto, independientemente de su valor informativo."
Perdon.. jajaja... no me acordaba de eso...
Escribir un comentario
Para hacer un comentario es necesario que te identifiques: ENTRA o conéctate con FacebookConnect