Sigueme

Síguenos en Twitter Siguenos en Facebook Siguenos en Pinterest

domingo, 21 de junio de 2015

La que no vemos a simple vista.

Si queremos buscar bien en la web tenemos que tener en cuenta que los buscadores convencionales solo tienen acceso a una parte del total de la información que hay en la red. Necesitamos conocer y saber que hay otras fuentes específicas para encontrar información.

Los buscadores tradicionales sólo ofrecen acceso a una pequeña parte de lo que existe online, es lo que se llama la Web superficial o visible.  El resto es la Web profundo o invisible. 


Según Sherman y Price existen cuatro tipos de contenidos invisibles en la Web:

 a) Web opaca (the opaque Web)
Esta compuesta por archivos que si poridan estar incluidos en los indices de buscadores tradicionales pero no lo están por alguno de los siguientes motivos:

  •  Extensión de la indización 
  • Frecuencia de la indización 
  • Número máximo de resultados visibles
  • URL desconectadas

b)  Web privada (the private Web)
Son páginas que se ahan excluido deliberadamente por alguno de los siguientes motivos:


  • Las páginas están protegidas por contraseñas. 
  • Contienen un archivo “robots.txt” para evitar ser indizadas.
  • Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página. 

c)  Web propietaria (the proprietary Web)
Son páginas es la que es necesario registrarse para tener acceso a ellas.

d)  Web realmente invisible (the truly invisible Web).
 La Web realmente invisible se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. 

Veamos algunos de los recursos de búsqueda en la Web Profunda:
  • The WWW Virtual Library se considera el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee, el creador de la web. 
  • Infoplease es una Web de consulta con más de 57.000 artículos de la prestigiosa enciclopedia Columbia. 
  • DeepWebTech ofrece cinco motores de búsqueda para temas específicos. Los motores de búsqueda abarcan la ciencia, medicina y negocios. El uso de estos motores de búsqueda específicos del tema, puede consultar las bases de datos subyacentes en la Web profunda. 
  • TechXtra centra su información, en ingeniería, matemáticas e informática.


Si queréis más información sobre herramientas  y recursos de búsqueda en la Web profunda o "Deep Web" os invito a leer la siguiente entrada:





No hay comentarios:

Publicar un comentario en la entrada