La Biblioteca Nacional preserva la internet española
La conservación del patrimonio de un país es una de las tareas más importantes y también más necesarias que pueden llevarse a cabo. Con la llegada de internet, esta tarea se vuelve mucho más árdua. Diariamente, en España se producen miles de documentos en la red. La Biblioteca Nacional puso hace casi un año un proyecto de preservación digital de contenidos, aunque solo aquellos que estén bajo dominios de primer nivel .es. Para ello, la BNE ha contado con la colaboración de la Internet Archive, una organización norteamericana que lleva desde 1996 recopilando toda la información que se produce en internet.
El software utilizado para trastrear todas las webs .es es Heritrix, un robot open source creado por la propia Internet Archive. Actualmente, la Biblioteca Nacional «rastrea» la web cada tres meses. Todo el material almacenado quedará guardado en los servidores de la iniciativa y las empresas y los particulares podrán ejercer su derecho a solicitar la eliminación de la información de su propiedad que crean oportuna. Ya puede consultarse este archivo o parte de él en el Wayback Machine del proyecto «madre».
Me gusta que existan iniciativas como esta, porque supone reconocer que los contenidos generados «de primera mano» en un entorno como es el de internet son (o al menos pueden ser) tan valiosos. Pero me pregunto si toda esa información merece la pena ser guardado. Evidentemente la respuesta es no. Lo que me lleva a una nueva cuestión: ¿Quién seleccionaría los contenidos válidos y nos que no lo son? A esto ya no tengo respuesta. Desconozco si la BNE piensa hacer una criba de todos los datos que está almacenando. En cualquier caso, bienvenida sea la iniciativa.