LISA WISHARD

 

 

PRECISIÓN ENTRE LOS MOTORES DE BÚSQUEDA DE INTERNET:

UN CASO DE ESTUDIO SOBRE GEOLOGÍA

 

 

Resumen

 

Para evaluar la precisión de 37 motores de búsqueda de Internet se utilizaron tres búsquedas  representativas relacionadas con la geología. En este artículo s con la geología. En este artículo se analiza la estructura de los tres tipos principales de motores de búsqueda de Internet, así como las estrategias para mejorar los resultados. Las búsquedas revelaron que Go2, InfoMine y Argus Clearinghouse tenían la mayor precisión como motores de búsqueda por catálogo. Excite, Infoseek y Northern Light obtuvieron la mayor precisión como motores de búsqueda por palabra clave. No se destacó ningún multibuscador. Se le sugiere a los usuarios utilizar varias herramientas cuando hacen búsquedas específicas por tema en los motores de búsqueda de Internet.

Introducción

En Internet se puede encontrar abundante información sobre geología en muchas instituciones y organismos estatales, nacionales, regionales e internacionales, así como en numerosas fuentes personales y comerciales. Muchos de los organismos, como United States Geological Survey y World Meteorological Organization, tienen en sus propios sitios Web herramientas de búsqueda que localizan información dentro del sitio. Pero si uno no sabe con quién está asociado un investigador o un grupo de investigación o que una institución está estudiando un fenómeno determinado, usar la herramienta de búsqueda específica de un sitio no es el mejor camino. En estos casos, se necesitan los buscadores generales de la Web. Este artículo presenta los resultados de las búsquedas sobre geología realizadas en 37 motores de búsqueda. Contiene información sobre el tamaño de la base de datos del motor de búsqueda, la disponibilidad de información sobre geología y una evaluación de la precisión de los buscadores en base a tres búsquedas representativas.

La primera parte del artículo ofrece un panorama general sobre la estructura de un motor de búsqueda. La segunda parte presenta la metodología con la que se evaluaron los motores de búsqueda. La tercera explora los resultados de algunas de las búsquedas modelo, incluye una tabla que recopila la información evaluada y analiza las estrategias que pueden ser útiles para encontrar información sobre geología a través de los buscadores de Internet.

 

I.                  Estructura de los motores de búsqueda

 

Los motores de búsqueda son como un índice: llevan a los usuarios hasta los registros relacionados con los términos de búsqueda. Pero los buscos de búsqueda. Pero los buscadores Web no apuntan hacia los términos de un texto o de una base de datos controlada, sino hacia los recursos disponibles en Internet. En virtud de la complejidad del espacio Web, comparar motores de búsqueda es un gran desafío.

Los buscadores se dividen en tres categorías principales. La primera comprende los motores de búsqueda por directorio o catálogo, organizados por tema o tipo de material; por ejemplo, Yahoo!, un catálogo temático con búsqueda por palabra clave; Argus Clearinghouse, un conjunto de buscadores por tema; DejaNews, un motor de búsqueda dedicado a información sobre Usenet; y Magellan, un catálogo temático de sitios Web revisados. En la segunda categoría están los motores de búsqueda por palabra clave o "crawlers". Son índices del material de Internet recopilado por programas robot o "spider". Los programas navegan con regularidad a través de campos de datos, links y texto de  páginas Web en busca de información nueva y actualizada. Algunos de estos programas son HotBot, que usa un programa que indexa páginas Web palabra por palabra, e Infoseek, que selecciona la información a través de campos de datos y links. La tercera cde campos de datos y links. La tercera categoría son los multibuscadores, o metacrawlers, que hacen la búsqueda en las bases de datos de muchos  buscadores al mismo tiempo y exponen los resultados combinados. Estos son, por ejemplo, MetaCrawler, que usa palabras clave para buscar en 6 índices simultáneamente, y Ask Jeeves, que utiliza el lenguaje natural y un sistema experto para navegar por 5 buscadores por palabra clave al mismo tiempo. 

Dentro de las tres categorías principales de motores de búsqueda hay tecnologías "cross-over". Por ejemplo, la mayoría de los buscadores por directorio o catálogo tiene índices por palabra clave además de árboles temáticos, como Yahoo!, Galaxy e Internet Sleuth. Además, muchos motores de búsqueda por palabra clave o "crawlers" proveen canales jerárquicos por tema que llevan al material de sus bases de datos, como Excite, Lycos e Infoseek.

Para obtener resultados más pertinentes y precisos, los usuarios deberían conocer varios criterios importantes. Los links "ayuda", "cómo hacer la búsqueda" y "acerca de", en la página principal de los motores de búsqueda, deberían ayudar a encontrar las respuestas a estas preguntas:

1. ¿Cómo está construida la base de datos? Algunos motores de búsqueda cuentan con  diseñadores de páginas Web que registran sus sitios; otros rastrean partes de la Web para recopilar y actualizar la información. Asimismo, el buscador puede explorar sólo los campos de datos y los hipervínculos o examinar en detalle el contenido de la página.

2. ¿Cuál es el tamaño de la base de datos? El tamaño de la base de datos afectará la exhaustividad y la pertinencia de una búsqueda. Algunos motores de búsqueda, como Yahoo! o la mayoría de los sitios de catalogación, indexan la página principal y otras páginas. Hay motores que indexan todas las páginas.

3. ¿Está actualizada la base de datos? ¿Con qué frecuencia se actualiza? Los programadores diseñaron buscadores que funcionan automáticamente en base a un cronograma regular. El tiempo de retraso entre que se recopila información nueva y se la ingresa al motor de búsqueda puede ser significativo, en especial si el tema de la búsqueda es muy actual.

4. ¿ Qué parámetros de búsqueda soporta el motor? Algunos ofrecen capacidades de búsqueda sofisticadas, lógica booleana, búsqueda por frase y proximidad. Una de las principales desventajas del uso de buscadores Web es la imposibilidad de hacer búsquedas por campos, como autor o título. Muchos motores de búsqueda tampoco permiten combinar grupos de resultados.

5. ¿Cómo se clasifican y se exponen los resultados de la búsqueda? Algunos motores, como Excite, utilizan la búsqueda por concepto, recuperando resultados no sólo para los términos especificados, sino también para los conceptos relacionados. Otros, como HotBot, devuelven los resultados en base a la cantidad de veces que aparece el término de búsqueda en una página. También hay buscadores que enumeran sólo los hipervínculos de los resultados clasificados. Otros presentan resúmenes o comentarios, el tamaño de la página, links relacionados, fecha de indexación, críticas o información sobre el autor.

Aunque parece que está en desarrollo un lenguaje común de órdenes, todavía existen muchas variaciones. Para tener más control sobre la búsqueda y los resultados, los búsqueda y los resultados, los usuarios deberían sacar ventaja de las capacidades de búsqueda "avanzada" o "personalizada". Tres sitios Web que ofrecen excelentes comparaciones de los principales buscadores son Web Matrix, construido por Matt Slot (http://www.ambrosiasw.com/~fprefect/matrix/), Search Engine Watch (http://searchenginewatch.com/) y C|Net's Search Engines: Where to Find Anything on the Net de Andrew J. Leonard (http://www.cnet.com/Content/Reviews/Compare/Search/index.html). [Nota: Link eliminado el 5/8/98 por ald.] Estos sitios incluyen tablas que comparan las capacidades, el tamaño y la popularidad de los principales motores de búsqueda. Para obtener listas completas de buscadores, visiten el sitio Web del Instituto de Tecnología Académica de la Universidad de Carolina del Norte (http://www.iat.unc.edu/guides/irg-08.html) [Nota: Imposible conectarse, 24/7/00] y la lista de motores de búsqueda de Yahoo!  (http://dir.yahoo.com/computers_and_internet/internet/world_wide_web/searching_the_web/). [Nota: URL actualizada el 24/7/00 por Alta Vista, Excite e Infoseek siempre son los servicios con las calificaciones medias más altas estimadas". (1997, http://www.winona.msus.edu/library/ webind2/wi2pt3.htm#RESULTS, pág. 2 de 7). [Nota: Link actualizado el 5/8/98 por ald.] En base a estos otros estudios publicados y a los resultados de este estudio relacionado con la geología, se aconseja a los usuarios que cuando traten de localizar CUALQUIER clase de información en la World Wide Web utilicen varias herramientas, según el tipo de búsqueda que quieran hacer y el tipo de información que se necesita.

Como afirmaron Leighton y Srivastava, "la verdadera precisión, la proporción entre los  elementos pertinentes recuperados y el número total de elementos recuperados, es muy difícil de calcular, porque implicaría examinar todos los links devueltos por un servicio, que pueden alcanzar los miles o millones". (1997, http://www.winona.msus.edu/library/webind2/wi2pt2.htm#EVALCRIT, pág. 3 de 8). [Nota: Link actualizado el 5/8/98 por ald.] Reconociendo las limitaciones de este estudio, se espera que los resultados puedan servir como guía cuando se utilizan los motores de búsqueda de Internet para localizar información sobre geología en la World Wide Web. 

Tabla 1. Motores de búsqueda revisados

 

 

Nombre y URL

Tamaño

Precisión

Notas

Motores de búsqueda por directorio o catálogo

 

 

 

All in One

http://www.albany.net/allinone/

pequeñoIGN=LEFT VALIGN=TOP>pequeño

 

 

regular*

Interfase común a muchos motores de búsqueda más pequeños, que el usuario debe consultar de a uno por vez. No hay mucho sobre ciencia.

*La precisión varía según la herramienta.

 

 

Argus Clearinghouse

http://www.clearinghouse.net/

pequeño

alta*

Sitios revisados. Los links sobre ciencia están bajo el  encabezado "Medio Ambiente" y el encabezado "Matemáticas y Ciencias" que contiene la subcategoría "Geología". *Sólo si el tema está incluido en Clearinghouse.

C|Net's Search.com

http://www.search.com/

grande

regular

Búsqueda provista por Infoseek. Los usuarios pueden elegir entre 11 motores de búsqueda cuando consultan "toda la Web". La subcategoría "Ciencia" está dentro de la categoría principal "Aprendizaje". El uso de "links relacionados" puede mejorar la precisión.

EINet Galaxy

http://www.einet.net/galaxy.html

pequeño

regular

La subcategoría "Geociencia" está dentro de la categoría principal "Ciencia". Las búsquedas por frase y por concepto no recuperaron registros.

Go2 (antes World Wide Web Worm)

http://www.goto.com/

pequeño

alta

Hay 500 categorías enumeradas en orden aleatorio. Indica la última fecha en que se hizo una búsqueda y descripciones. Los usuarios pueden "calificar" los sitios localizados.

G.O.D. (Global Online Directory)

http://www.god.co.uk/

 

 

 

Magellan

http://www.mckinley.com/magellan/

pequeño

regular

Las categorías temáticas acceden a sitios revisados. También se pueden hacer búsquedas por palabra clave en "toda la Web". La categoría "Ciencia" contiene una subcategoría llamada "Planeta Tierra", con links relacionados con la geología.

Power Search 

http://www.power-search.com/">

http://www.power-search.com/

[Nota: Link eliminado el 5/8/98 por ald.]

grande**

regular*

Links distribuidos a más de 100 motores de búsqueda general y especializada. La opción "Búsqueda Personalizada" inserta la estrategia de búsqueda en el cuadro de búsqueda para cada herramienta, pero hay que hacer las búsquedas en forma separada para cada herramienta.

.

*La precisión varía según la herramienta.

**Incluye una gran variedad de herramientas, pero el sitio en sí sólo se vincula con 100 herramientas de búsqueda.

SciCentral

http://www.sciquest.com/cgi-bin/ncommerce3/

ExecMacro/sci_index.d2w/report

[Nota: Link actualizado el 24/7/00 por ald.]

pequeño

baja

Relativamente nuevo. Mantenido por profesionales de las áreas abarcadas. La categoría "La Geología y el Espacio" tiene 9 subcategorías.

WWW Virtual Library

http://www.vlib.org/

[Nota: Link actualizado el 24/7/00 por ald.]

pequeño

regular

 

madrid". Los resultados se agrupan según la herramienta que devuelve el link. No elimina los resultados duplicados.

Highway 61

http://www.highway61.com/

grande

regular*

Rastrea en 6 motores de búsqueda de Internet. Se pueden leer citas de figuras importantes mientras se esperan los resultados. 

*Las búsquedas por frase o por concepto lograron una precisión más alta.

Inference Find

http://www.inference.com/infind/

grande

regular

Busca en 6 motores de búsqueda de Internet. Agrupa los resultados por dominio y elimina los registros net. Agrupa los resultados por dominio y elimina los registros duplicados.

Mamma

http://www.mamma.com/

grande

regular*

Consulta 6 buscadores de Internet, 5 buscadores  financieros y 5 buscadores de foros de discusión. Agrupa los resultados según el motor de búsqueda que recupera el link.

*Las búsquedas por frase o por concepto tuvieron una precisión más alta que las búsquedas por palabra clave.

MetaCrawler

http://www.metacrawler.com/

grande

regular*

Consulta 6 motores de búsqueda de Internet. El link "Metaspy" permite ver qué están buscando otros usuarios y cómo lo hacen.

*La búsqueda por frase o por concepto tuvo mayor precisión.

MetaFind

http://search.metafind.com/

 

Lisa Wishard

Earth and Mineral Sciences Library

105 Deike Bldg.

The Pennsylvania State University

University Park, PA 16802

lar14@psu.edu

 

Facilitado por la Biblioteca Nacional de la República Argentina