rmbit - La bitácora personal de Ricardo Martín

5 de julio de 2007

El internet que no se ve

Hace unos meses, varias bitácoras recogían el «descubrimiento» o más bien «redescubrimiento» de un dominio hasta el momento desconocido. .root es un dominio de primer nivel (igual que .info o .com) que tiene dos dominios de segundo nivel conocidos (vrsn-end-of-zone-marker-dummy-record.root y orsn-end-of-zone-marker-dummy-record.root). El primero de ellos puede traducirse libremente como como «marcador de fin de zona – registro vacío». vrsn se supone que es la abreviatura de VeriSign, a quien se le atribuye la gestión de este extraño dominio. Cuando pedimos información sobre los nombres de dominio con nslookup en Windows, en vez de aparecernos los nombres de los servidores DNS y sus direcciones IP aparece text = "plenus". Plenus significa lleno o completo en latín. En el segundo caso, se sabe que orsn es el acrónimo de Open Root Server Network, es decir, los 13 servidores raíz de dominios que son «la madre del cordero» en cuanto a dominios de internet se refiere.

Esta curiosidad me ha hecho reflexionar sobre todas las interioridades que un entorno tan aparentemente conocido como internet están ocultas. Muchas veces me he preguntado cuanta parte de internet es «visible» para los «mortales» y cuanta no lo es. Buscando información sobre el tema, los expertos dicen que la internet a la que podemos acceder a través de los buscadores más usuales es como mínimo la mitad de todos los recursos con que cuenta la red de redes, aunque algunos apuntan que se trata tan sólo de 1/50 parte del total. Lo que parece cierto es que es difícil de cuantificar.

En la mayoría de estos casos, esta «invisibilidad» no es intencionada. Muchos de los documentos que se alojan en los servidores de internet no son indexables. Pienso por ejemplo en las bases de datos y en todos los documentos que se alimentan de esa información. Es una masa de datos muy valiosa, sobre todo para investigadores, que permanece inaccesible si no se conoce el «punto de entrada» a esos datos. Por este motivo existen varios directorios de bases de datos como el de la UNED, donde podemos encontrar información sobre todas las disciplinas del conocimiento.

La «internet oculta» o «internet profunda» tiene también un reverso menos claro. Cualquiera que diseñe y cuelgue un sitio web está expuesto a que los robots o «arañas» (programas que recorren internet indexando («tomando nota» de la información) estas páginas para luego compilarlas y servir como material para los buscadores como Google. Existe una forma para que la «araña» pase de largo de nuestro sitio y, por tanto, siga siendo desconocido e inaccesible desde los buscadores. robots.txt es un pequeño archivo de texto que se coloca en el directorio raíz de nuestra web y que contiene instrucciones especiales para dirigir las «arañas» hacia las zonas de la web que nos interese indexar. Para que pase de largo, basta con incluir un par de líneas de texto en este archivo:

User-agent: * Disallow: /

Traducido a lenguaje comprensible sería algo así como «para todos los robots (*), desactivar todo (/ o directorio raíz)». Todos podemos imaginar que esta zona ignota de internet podemos encontrar todo aquello que en la internet visible no está permitido. O quizás todo esto sea una leyenda. Lo cierto es que las fuerzas de seguridad tienen muy en cuenta todos estos parámetros. Delitos como la pornografía infantil a menudo tienen estas zonas de sombra de internet como un espacio impune para la comisión de sus actividades.