15 noviembre, 2016 Social Media

20 años archivando páginas web

El Internet Archive es la organización sin ánimo de lucro que acaba de cumplir veinte años. Dos décadas en las que su fundador (Brewster Kahle) y el resto de sus trabajadores se han esforzado en intentar preservar todo el trabajo publicado de la humanidad y crear una enorme colección a la que se puede acceder a través de archive.org y que se enorgullece de haber archivado más de 273.000 millones de páginas web.

Parece una empresa imposible pero desde su sede, situada en San Francisco -USA-, Kahle asegura que no lo es. “Un libro ocupa alrededor de un megabyte. Y la mayor biblioteca del mundo es la Biblioteca del Congreso con 26 ó 28 millones de libros. Eso son 28 terabytes. ¡ Y 28 terabytes no es tanto!

A pesar de este optimismo, la tarea no es fácil. Las colecciones del Congreso incluyen en realidad más de 38 millones de libros y otros materiales impresos (según datos de la biblioteca) pero en todo caso el trabajo de este archivo va mucho más allá. Intentan recopilar todos los libros, así es, pero también los programas de televisión, los archivos de audio, la música, las revistas, los programas de software…

Lo que quizás sea más llamativo, y también más complicado, son las páginas web: los documentos con los que empezaron su andadura y que resultan más complejos de localizar.

Pero seamos realistas. No todas las páginas web del mundo están archivadas. La página con la que colaboraste en la escuela puede estar disponible, o puede que no, porque “La Web” es demasiado grande y demasiado dinámica como para poder almacenar todas sus representaciones. Al menos por el momento. Piensa, por ejemplo, en una página web como YouTube.com. En 2015, la compañía aseguraba que sus usuarios estaban subiendo 300 horas de vídeo por minuto. Sería muy difícil guardar cada uno de estos archivos.

El Internet Archive prioriza la información de diferentes maneras. En palabras de Alexis Rossi, directora de Medios y Acceso: “No capturamos todo. Solo aquello que por alguna razón nos da que pensar que es importante. Priorizamos conceptos que creemos son populares y escenarios que poseen buena información”.

El Archivo de Internet captura la web utilizando crawlers, es decir, programas informáticos que rastrean “La Web” de manera sistemática para encontrar e indexar la información y luego esta información se prioriza según diferentes criterios. En algunos casos, este rastreo comienza con las páginas más populares según empresas como Quantcast o Alexa Internet (cofundada, por cierto, por el propio Kahle). Otros son más específicos, como los que siguen los enlaces citados en Wikipedia.

Todo ello se puede encontrar en la llamada Wayback Machine, aunque su navegación (por el momento) no es tan sencilla como buscar términos en Google. En el caso de las páginas web, el usuario puede introducir la dirección y navegar por un calendario que señala cuándo se capturó la página. Con otros materiales, la búsqueda se lleva a cabo a través de metadatos: como el nombre del autor o el título de un libro.

“No queremos dañar el modelo de negocio de nadie.Queremos cumplir con nuestro papel como biblioteca pero siendo respetuosos con los creadores de contenidos. Creemos que existe el riesgo de que perdamos un mundo abierto, de que la apertura de Internet y de la World Wide Web se vuelva mucho más controlada, orientada a las aplicaciones y monitoreada de manera corporativa y/o gubernamental”, termina explicando Alexis Rossi.

Tagged: , , , ,

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *


 

Pin It on Pinterest

Share This

Suscríbete a nuestra newsletter semanal

Si quieres estar al día sobre las noticias y tendencias que se mueven en el Mundo de la Publicidad, el Marketing y la Comunicación, este es el lugar perfecto.

Esta infomación nunca será compartida con terceros