Cuando oímos hablar de esa zona de internet opaca conocida como Web Profunda, inevitablemente pensamos en los aspectos negativos que imaginamos supone el intercambio de información de cualquier procedencia y naturaleza sin la transparencia que esperamos. En realidad, esa
Deep Web también se refiere a todo el contenido que no es indexado por los buscadores habituales de todos conocidos.
Se calcula que en torno al 95% de todo el contenido de internet es material diferente a texto, que es lo fácilmente indexable. Miles de tipos diferentes de datos no textuales como video, audio o imágenes sin la información necesaria para que sean localizados por Google. En otras ocasiones, los requisitos de registro previo del usuario para acceder a la información, impiden esa búsqueda. Se trata de un principio básico de la privacidad pues, por ejemplo, el contenido de los mensajes de Gmail o los documentos en Dropbox, aunque sean visibles para cualquier usuario registrado no son accesibles por los motores de búsqueda pública. Aunque, y por eso funciona la publicidad contextual, sí es visible para los robots. Existen por tanto infinidad de
contenidos opacos que reúnen estas características: Exigen al usuario completar datos de acceso. Involucran contenido dinámico tipo AJAX o JavaScript. Contienen imágenes u otra información no indexable.
Para Cristiano Mattman, Director Científico de Datos de la NASA, esto no permite definirlos como Deep Web, sino que han de estar alojados en servidores web que utilizan el protocolo de red anónima denominada Tor. Este protocolo fue creado con buenas intenciones, por el Departamento de Defensa de EEUU para proteger información sensible y fue publicado como Dominio Público en 2004. El problema llegó cuando organizaciones y particulares con intenciones menos nobles comenzaron a utilizar sus posibilidades para el tráfico de drogas, armas o personas. En 2014 el Gobierno de EEEUU puso en marcha el
programa Memex con el fin de ayudar a la policía a identificar operaciones delictivas on line, dentro de la
Deep Web, mediante minería de datos. El empleo de esta herramienta para supervisar la web profunda de forma continuada podría ayudar a identificar situaciones en la trata de personas y armas poco después de que las fotos se publiquen en línea. Eso podría evitar que se produzca un crimen y salvar vidas. [youtube]https://youtu.be/9QsjkJcUznA[/youtube] Paradójicamente, la investigación en tecnologías que rompan los límites de los motores de búsqueda, beneficiará al desarrollo de los buscadores del futuro que todos emplearemos. Las tecnologías desarrolladas en el programa proporcionarían los mecanismos para mejorar la detección de contenido, extracción de información, recuperación de información, la colaboración del usuario y otras funciones clave de búsqueda. Concretamente, a partir de
Memex, se espera llegar a: El desarrollo de la próxima generación de tecnologías de búsqueda para revolucionar el descubrimiento, organización y presentación de los contenidos específicos de dominio La creación de un nuevo paradigma de búsqueda de dominio específico para descubrir contenido relevante y organizarlo de manera que sean más inmediatamente útil para tareas específicas. La ampliación de las capacidades de búsqueda actuales a la profundidad de contenido web y no tradicional. Interfaces mejoradas para militares, funcionarios y empresas comerciales para encontrar y organizar la información a disposición del público en Internet.
Por ejemplo, las búsquedas en internet siguen siendo en gran medida un proceso manual que no salva sesiones, requiere una palabra casi exacta con la entrada de una en una sola vez, y no organiza ni en los resultados agregados más allá de una lista de enlaces. Los nuevos buscadores basados en
Memex prometen solucionarlo. Adicionalmente, la creación de nuevos sistemas de búsqueda de información compleja en internet, o en el
Big Data de
intranets, facilitaría la labor de científicos de todas las especialidades, que podrían rastrear, indexar y correlacionar millones de archivos gráficos o gráficos sin datos suficientes para ser localizados. Sin contar con que todo el código escrito para Memex,
como TOR, es Open Source y decenas de equipos independientes ya trabajan para exprimir sus posibilidades. [youtube]https://www.youtube.com/watch?v=vObvEGtPHKo[/youtube]