Lisa Wishard

 

 

Precisión entre los motores de búsqueda de Internet:
Un caso de estudio sobre geología

Lisa Wishard
Earth and Mineral Sciences Library
105 Deike Bldg.
The Pennsylvania State University
University Park, PA 16802
lar14@psu.edu


Educación" y "Ciencia y Naturaleza".
Resumen

Para evaluar la precisión de 37 motores de búsqueda de Internet se utilizaron tres búsquedas  representativas relacionadas con la geología. En este artículo s con la geología. En este artículo se analiza la estructura de los tres tipos principales de motores de busqueda de Internet, así como las estrategias para mejorar los resultados. Las búsquedas revelaron que Go2, InfoMine y Argus Clearinghouse tenían la mayor precisión como motores de búsqueda por catálogo. Excite, Infoseek y Northern Light obtuvieron la mayor precisión como motores de búsqueda por palabra clave. No se destacó ningún multibuscador. Se le sugiere a los usuarios utilizar varias herramientas cuando hacen búsquedas específicas por tema en los motores de búsqueda de Internet.

Introducción

En Internet se puede encontrar abundante información sobre geología en muchas instituciones y organismos estatales, nacionales, regionales e internacionales, así como en numerosas fuentes personales y comerciales. Muchos de los organismos, como United States Geological Survey y World Meteorological Organization, tienen en sus propios sitios Web herramientas de búsqueda que localizan información dentro del sitio. Pero si uno no sabe con quién está asociado un investigador o un grupo de investigación o que una institución está estudiando un fenómeno determinadoiando un fenómeno determinado, usar la herramienta de búsqueda específica de un sitio no es el mejor camino. En estos casos, se necesitan los buscadores generales de la Web. Este artículo presenta los resultados de las búsquedas sobre geología realizadas en 37 motores de búsqueda. Contiene información sobre el tamaño de la base de datos del motor de búsqueda, la disponibilidad de información sobre geología y una evaluación de la precisión de los buscadores en base a tres búsquedas representativas.

La primera parte del artículo ofrece un panorama general sobre la estructura de un motor de búsqueda. La segunda parte presenta la metodología con la que se evaluaron los motores de búsqueda. La tercera explora los resultados de algunas de las búsquedas modelo, incluye una tabla que recopila la información evaluada y analiza las estrategias que pueden ser útiles para encontrar información sobre geología a través de los buscadores de Internet.

I. Estructura de los motores de búsqueda

Los motores de búsqueda son como un índice: llevan a los usuarios hasta los registros relacionados con los términos de búsqueda. Pero los buscos de búsqueda. Pero los buscadores Web no apuntan hacia los términos de un texto o de una base de datos controlada, sino hacia los recursos disponibles en Internet. En virtud de la complejidad del espacio Web, comparar motores de búsqueda es un gran desafío.

Los buscadores se dividen en tres categorías principales. La primera comprende los motores de búsqueda por directorio o catálogo, organizados por tema o tipo de material; por ejemplo, Yahoo!, un catálogo temático con búsqueda por palabra clave; Argus Clearinghouse, un conjunto de buscadores por tema; DejaNews, un motor de búsqueda dedicado a información sobre Usenet; y Magellan, un catálogo temático de sitios Web revisados. En la segunda categoría están los motores de búsqueda por palabra clave o "crawlers". Son índices del material de Internet recopilado por programas robot o "spider". Los programas navegan con regularidad a través de campos de datos, links y texto de  páginas Web en busca de información nueva y actualizada. Algunos de estos programas son HotBot, que usa un programa que indexa páginas Web palabra por palabra, e Infoseek, que selecciona la información a través de campos de datos y links. La tercera cde campos de datos y links. La tercera categoría son los multibuscadores, o metacrawlers, que hacen la búsqueda en las bases de datos de muchos  buscadores al mismo tiempo y exponen los resultados combinados. Estos son, por ejemplo, MetaCrawler, que usa palabras clave para buscar en 6 índices simultáneamente, y Ask Jeeves, que utiliza el lenguaje natural y un sistema experto para navegar por 5 buscadores por palabra clave al mismo tiempo. 

Dentro de las tres categorías principales de motores de búsqueda hay tecnologías "cross-over". Por ejemplo, la mayoría de los buscadores por directorio o catálogo tiene índices por palabra clave además de árboles temáticos, como Yahoo!, Galaxy e Internet Sleuth. Además, muchos motores de búsqueda por palabra clave o "crawlers" proveen canales jerárquicos por tema que llevan al material de sus bases de datos, como Excite, Lycos e Infoseek.

Para obtener resultados más pertinentes y precisos, los usuarios deberían conocer varios criterios importantes. Los links "ayuda", "cómo hacer la búsqueda" y "acerca de", en la página principal de los motores de búsqueda, deberían ayudar a encontrar las respuestas a estas preg a encontrar las respuestas a estas preguntas:

1. ¿Cómo está construida la base de datos? Algunos motores de búsqueda cuentan con  diseñadores de páginas Web que registran sus sitios; otros rastrean partes de la Web para recopilar y actualizar la información. Asimismo, el buscador puede explorar sólo los campos de datos y los hipervínculos o examinar en detalle el contenido de la página.

2. ¿Cuál es el tamaño de la base de datos? El tamaño de la base de datos afectará la exhaustividad y la pertinencia de una búsqueda. Algunos motores de búsqueda, como Yahoo! o la mayoría de los sitios de catalogación, indexan la página principal y otras páginas. Hay motores que indexan todas las páginas.

3. ¿Está actualizada la base de datos? ¿Con qué frecuencia se actualiza? Los programadores diseñaron buscadores que funcionan automáticamente en base a un cronograma regular. El tiempo de retraso entre que se recopila información nueva y se la ingresa al motor de búsqueda puede ser significativo, en especial si el tema de la búsqueda es muy actual.

4. ¿Qué parámetros de b&est;Qué parámetros de búsqueda soporta el motor? Algunos ofrecen capacidades de búsqueda sofisticadas, lógica booleana, búsqueda por frase y proximidad. Una de las principales desventajas del uso de buscadores Web es la imposibilidad de hacer búsquedas por campos, como autor o título. Muchos motores de búsqueda tampoco permiten combinar grupos de resultados.

5. ¿Cómo se clasifican y se exponen los resultados de la búsqueda? Algunos motores, como Excite, utilizan la búsqueda por concepto, recuperando resultados no sólo para los términos especificados, sino también para los conceptos relacionados. Otros, como HotBot, devuelven los resultados en base a la cantidad de veces que aparece el término de búsqueda en una página. También hay buscadores que enumeran sólo los hipervínculos de los resultados clasificados. Otros presentan resúmenes o comentarios, el tamaño de la página, links relacionados, fecha de indexación, críticas o información sobre el autor.

Aunque parece que está en desarrollo un lenguaje común de órdenes, todavía existen muchas variaciones. Para tener más control sobre la búsqueda y los resultados, los búsqueda y los resultados, los usuarios deberían sacar ventaja de las capacidades de búsqueda "avanzada" o "personalizada". Tres sitios Web que ofrecen excelentes comparaciones de los principales buscadores son Web Matrix, construido por Matt Slot (http://www.ambrosiasw.com/~fprefect/matrix/), Search Engine Watch (http://searchenginewatch.com/) y C|Net's Search Engines: Where to Find Anything on the Net de Andrew J. Leonard (http://www.cnet.com/Content/Reviews/Compare/Search/index.html). [Nota: Link eliminado el 5/8/98 por ald.] Estos sitios incluyen tablas que comparan las capacidades, el tamaño y la popularidad de los principales motores de búsqueda. Para obtener listas completas de buscadores, visiten el sitio Web del Instituto de Tecnología Académica de la Universidad de Carolina del Norte (http://www.iat.unc.edu/guides/irg-08.html) [Nota: Imposible conectarse, 24/7/00] y la lista de motores de búsqueda de Yahoo!  (http://dir.yahoo.com/computers_and_internet/internet/world_wide_web/searching_the_web/). [Nota: URL actualizada el 24/7/00 por ald.] 

II. Metodología

La Tabla 1 incluye una lista de los motores de búsqueda revisados. Contiene el nombre, la URL, el tamaño de la base de datos de cada motor y notas. También incluye una evaluación de la precisión del buscador según las 3 búsquedas modelo utilizadas en este artículo, que fueron: 1) ENSO (El Niño/Oscilación Sur), 2) zona sísmica de New Madrid y 3) producción de cobre en Brasil. El suite de búsqueda es pequeño en comparación con otros estudios sobre la precisión de los motores de búsqueda (Leighton & Srivastava, 1997; Tomaiuolo & Packer, 1996; Chu & Rosenthal, 1996; Ding & Marchionini, 1996), pero se centra específicamente en temas relacionados con la geología. El fin de las búsquedas modelo era analizar los resultados de los motores de búsqueda por palabra clave, frase o concepto. Para las búsquedas simples se usó la modalidad por defecto de las herramientas evaluadas. Esto se hizo para utilizar las estrategias de búsqueda de la herramienta en lugar de las estrategias del usuario. gar de las estrategias del usuario. Los motores de búsqueda elegidos para este estudio se tomaron de la lista de buscadores de varios sitios, tales como Search Engine Watch (http://searchenginewatch.com/), del artículo "Beyond Surfing: Tools and Techniques for Searching the Web" escrito por Webster & Paul en 1996 (http://magi.com/~mmelick/it96jan.htm) y de la lista de Herramientas de Búsqueda de Internet de los sitios Web de la Biblioteca de la Universidad del Noroeste  (http://www.library.nwu.edu/resources/internet/search/) y del Instituto de Tecnología  Académica de la Universidad de Carolina del Norte (http://www.iat.unc.edu/guides/irg-08.html).

La utilidad de los motores de búsqueda se midió de acuerdo con la precisión obtenida. Esta se calculó en base a la proporción de registros pertinentes dentro de los primeros 10-15 registros recuperados. La precisión se clasificó en alta, regular y baja. Fue alta para los motores de búsqueda que recuperaban links pertinentes y activos vinculados con información relacionada con las preguntas modelo dentro de los primeros 10-15 regisro de los primeros 10-15 registros, regular para los que recuperaban links marginales (como información sobre cobre en otros países) y baja para los que devolvían un número abrumador de links inactivos y no relacionados (por ejemplo, ENSO como nombre de empresa en vez de fenómeno metereológico o links que contenían información sobre Madrid, España) en los primeros 10-15 registros. La precisión que figura en las tablas es una interpretación de los resultados y no una medida estadística real de la proporción. Este estudio no es una evaluación estadística de la precisión de los resultados de los buscadores, sino una interpretación de las herramientas y de su utilidad en la geología.

Los resultados se consideraban pertinentes si la información que brindaban era única, ofrecía datos exactos y se podía utilizar como respuesta a una consulta. Se revisó la precisión, jerarquía, el grado de exhaustividad, la exactitud y exclusividad de los links recuperados (Rettig, 1996; Tate & Alexander, 1996). Por ejemplo, las páginas con datos verificables, directamente relacionados con la consulta, recibían calificaciones altas. Las que contenían información m contenían información marginal, no verificable y duplicada o que exigía al usuario hacer otra búsqueda recibían calificaciones regulares. Los buscadores que recuperaban links inactivos o no relacionados con la consulta recibían calificaciones bajas. Mientras que otros estudios tuvieron en cuenta la preferencia del usuario en el momento de determinar la pertinencia de los links devueltos (Leighton and Srivastava, 1996), este es un estudio interpretativo en un área temática determinada, así que no se hizo ningún esfuerzo por compensar las posibles tendencias del usuario al evaluar los resultados.

El tamaño de los motores de búsqueda también se clasificó en tres categorías. Los buscadores grandes contienen más de 25 millones de URL o páginas Web, los de tamaño mediano contienen entre un millón y 25 millones y los pequeños contienen menos de un millón. Algunas cifras son aproximadas.

III. Resultados

Cómo localizar temas generales: Resultados de buscadores por directorios o catálogos

Cuando se buscan temas generales, como meteorología o paleontología, los mejores lugares para comenzar son los mejores lugares para comenzar son los motores de búsqueda por directorio o catálogo, que ordenan los links por tema, como Yahoo!, Galaxy o Internet Sleuth. Cada una de estas herramientas provee árboles temáticos con diversas secciones. Por ejemplo, en la página inicial de Galaxy el usuario puede elegir entre más de 11 categorías principales y más de 148 subcategorías. En varios lugares se pueden encontrar links sobre geología y medio ambiente, como en la subcategoría "Medio Ambiente" dentro de las categorías principales "Comunidad" y "Derecho", "Geografía" dentro de la categoría "Ciencias Sociales" y "Espeleología" dentro de la categoría "Tiempo Libre y Recreación". El mayor número de links sobre geología se encuentra en "Geociencia" dentro de la categoría "Ciencia". La página sobre geociencias incluye 5 categorías para geología, entre las cuales están "Geoquímica", "Geología", "Geología Marina", "Geofísica" y "Meteorología y Climatología". Siguiendo el link "Meteorología y Climatología", el usuario encuentra links agrupados en las siguientes categorías: Organizaciones Académicas, Artículos (texto completo), Cartografía, Colecciones, Directorios, Organizacio Colecciones, Directorios, Organizaciones Gubernamentales y Organizaciones. En cualquier momento, a través de los diferentes niveles del buscador Galaxy, es posible hacer búsquedas por palabra clave en la base de datos o acceder a otras categorías relacionadas.

Navegar por los motores de búsqueda por directorio o catálogo puede ser frustrante, ya que son pocos los que utilizan un vocabulario controlado. Tanto Librarian's Index como WWW Virtual Catalog clasifican los datos mediante las clasificaciones por materias de la Biblioteca del Congreso (Library of Congress) de los EE.UU. (pero no por el número de clasificación de la LC). Los diseñadores de Yahoo! están orgullosos de su esquema intuitivo de clasificación por materias y Look Smart anuncia un "índice con más de 16.000 temas". Pero los buscadores por catálogo limitan su uso a las investigaciones serias, ya que no proveen ni utilizan tesauros de temas o nombres. Esto sucede, en particular, con las categorías relacionadas con las ciencias que son difíciles de encontrar cuando se navega o se hace una búsqueda por palabra clave. La geología y otras categorías relacionadas con las ciencias a menudo están escondidas bajo encabezados como "educación", "referencia" o "aprendcación", "referencia" o "aprendizaje". Si después de navegar por una o más capas no pueden encontrar un encabezado que les sirva, consulten la base de datos con palabras clave. Los dos árboles temáticos más detallados, relacionados con la geología, están en Yahoo! y en WWW Virtual Library.

Utilizar las herramientas de búsqueda de los buscadores por catálogo puede dar como resultado una precisión mayor que navegar simplemente por categorías temáticas. Además, estas herramientas de búsqueda ofrecen mayor flexibilidad para rastrear el contenido de la base de datos. Esto es muy práctico en ausencia de vocabularios controlados o tesauros de materias para las bases de datos de catálogos. El motor de búsqueda Go2 resultó la herramienta de búsqueda más eficaz. (Las herramientas de Argus Clearinghouse e InfoMine también obtuvieron resultados altamente precisos en las búsquedas modelo. Pese a esto, cuando un usuario utiliza estas herramientas es necesario que sea consciente de que las bases de datos son pequeñas y que la precisión depende de si el tema de la consulta está incluido en la base de datos. Por ejemplo, la búsqueda sobre el "ENSO" devolvió resultados más prvolvió resultados más precisos en los motores de búsqueda Argus e InfoMine que las búsquedas sobre "zona sísmica de New Madrid" y "producción de cobre en Brasil".)

Cómo localizar información específica: Resultados de buscadores por palabra clave o "crawlers" (programas de rastreo)

Cuando se busca información muy específica es mejor utilizar motores de búsqueda por palabra clave o multibuscadores. Con estas herramientas, los usuarios pueden mejorar la precisión incluyendo todos los términos de búsqueda posibles. Los buscadores por palabra clave o crawlers con la precisión más alta y los links activos más pertinentes fueron Excite e Infoseek.

La búsqueda por defecto en Infoseek sobre "producción de cobre en Brasil" tuvo una precisión baja, mientras que la búsqueda sobre "zona sísmica de New Madrid" tuvo una precisión regular. (La precisión aumentó con las búsquedas que distinguen las mayúsculas y minúsculas; por ejemplo, "zona sísmica de New Madrid" tuvo resultados más precisos que "zona sísmica de new madrid".) La búsqueda más precisa fue por palabra clave sos precisa fue por palabra clave sobre el "ENSO". El uso de las opciones para refinar el rastreo mejoró mucho los resultados en todos los casos. Por ejemplo, el comando "pipe" (que busca registros relacionados dentro de un conjunto más grande de registros) "cobre | Brasil" devolvió material más pertinente que la búsqueda estándar. Siguiendo los links sobre "temas relacionados" no se localizaron muchos más links pertinentes.

Excite obtuvo mejores resultados con las búsquedas por frase y por concepto que con las búsquedas por palabra clave. La consulta sobre "producción de cobre en Brasil" halló la página de la Copper Development Association titulada "Cobre: Mercado y Datos Estadísticos", comunicados de prensa e informes anuales de empresas con minas de cobre en Brasil. Excite devolvió varios links duplicados en todas las consultas modelo, por ejemplo en la búsqueda sobre el "ENSO" apareció la página NOAA-CIRES ENSO tanto en la dirección http://www.cdc.noaa.gov/enso/index.html como en http://www.cdc.noaa.gov/enso/

Los resultados de Excite e Infoseek para la consulta sobre "producción de cobre en Brasilproducción de cobre en Brasil" fueron similares; principalmente, comunicados de prensa, informes anuales e informes técnicos de empresas mineras y de producción. Los resultados erróneos más coherentes fueron sobre el cobre como suplemento mineral. ("Nueces de Brasil" resultó ser una buena fuente para el cobre.) En la consulta sobre el "ENSO", los resultados erróneos más comunes fueron sobre empresas llamadas ENSO, mientras que para "zona sísmica de New Madrid" fueron links a sitios sobre fallas y zonas sísmicas no relacionadas.

Northern Light es otro eficaz motor de búsqueda por palabra clave. Clasifica los resultados en carpetas por dominio y tema. Algunas de las carpetas creadas con la búsqueda modelo sobre la producción brasileña de cobre fueron "Sitios comerciales", "Industria minera", "Industria de los metales", "Carbón" y "Toxicología", entre otras. Las carpetas para la búsqueda sobre el "ENSO" fueron "Páginas personales", "Climatología" y "www.coaps.fsu.edu", entre otras. Northern Light también consultó varias bases de datos en línea sobre "Colecciones Especiales" que encontraron artículos de revistas. Estos artículos se pueden adquirir abonando los gastos de envío, que pueden ser entre U$S2 y U$Sute;o, que pueden ser entre U$S2 y U$S6 según la cantidad de páginas y la fuente del artículo. Este híbrido de Internet y bases de datos de literatura es una tendencia a tener en cuenta en la Web.

Si bien la precisión de Planet Search fue regular, este buscador tuvo las mejores exposiciones para los resultados de las búsquedas. Los resultados incluyen un gráfico de barras que describe la pertinencia para cada término de la consulta. Los gráficos de barras no sólo muestran la pertinencia de cada término para cada registro localizado, sino también los resultados globales para toda la búsqueda. Cada registro también contiene una opción "Búsqueda Similar", la fecha de los registros y la cantidad de palabras en el registro. Además Planet Search permite al usuario crear directorios personalizados para los resultados y sitios favoritos (bookmarks). Tuvo muchos resultados duplicados, como incluir sitios mirror (espejo) para el Indice Alfabético de Fallas de California del Sur en los resultados de la búsqueda sobre la "zona sísmica de New Madrid" y 3 links a la homepage del boletín del ENSO en los resultados sobre el "ENSO".

Lycos tuvo una precisión superior a regular en las búsquedas por fraegular en las búsquedas por frase y por concepto, pero los resultados para las consultas por palabra clave fueron bajos. WebCrawler y Magellan (un motor de búsqueda por directorio/catálogo) tuvieron resultados idénticos para las 3 búsquedas. Además, los resultados de WebCrawler y Magellan fueron los más imprecisos de casi todos los motores utilizados, sin considerar el tipo. Por ejemplo, el primer sitio enumerado en la consulta "zona sísmica de New Madrid" fue un mapa de Madrid, España, mientras que el quinto link fue "ESPN SportsZone: Soccer". La precisión de HotBot fue regular con la búsqueda por defecto "todas las palabras", pero aumentó ligeramente cuando se usó el modo "frase exacta" con las consultas por frase y por concepto. What-U-Seek tuvo una precisión baja para las búsquedas por frase y por concepto, pero tuvo resultados altamente precisos en la búsqueda por palabra clave sobre el "ENSO". Los resultados de Alta Vista fueron regulares en las búsquedas por defecto, pero la precisión aumentó levemente con el uso de la opción "refinar". Con Alta Vista los resultados para todas las búsquedas incluyeron enlaces duplicados.

Cómo abarcar mucho terreno rápidamente: Uso de mo terreno rápidamente: Uso de metabuscadores

A medida que la Web crece, los multibuscadores están pasando a ser más populares y convenientes. Sin embargo, se observan varios links imprecisos al utilizar estos motores. Lo que hay que destacar es que los motores de búsqueda de varios motores dependen de la extensión y la exactitud de las bases de datos que consultan, que no pueden controlar. Además, envían las consultas a muchas bases de datos, cada una de las cuales se construyó y se consulta de distintas maneras. En general, estas herramientas contienen una rectificación, escondida en algún lugar de la sección "Acerca de", indicando que no garantizan los resultados de las estrategias de búsqueda complejas que usan operadores booleanos, por proximidad y otros. Pese a algunos de estos temas, los multibuscadores comenzaron a surgir como recursos definitivos para hacer búsquedas en la Web.

La mayoría de los multibuscadores tuvieron resultados regulares, como se puede observar en la Tabla 1. En las consultas modelo no se destacó ninguno. Algunos tuvieron mejores resultados en las búsquedas por palabra clave, mientras que otros devolvieron resultados más útiles en las consultas por frase o por concepto. Por ejemplo, Mamma, Profusion y Metacrawler obtuvieron mejores respuestas en la consulta por frase sobre la "zona sísmica de New Madrid" y por concepto sobre la "producción de cobre en Brasil". Inference Find y Ask Jeeves tuvieron resultados más precisos para la búsqueda por palabra clave sobre el "ENSO". 

La interfase para muchos de los multibuscadores permiten al usuario refinar o dirigir la búsqueda hacia el nivel superior. Por ejemplo, Metacrawler y Savvy Search permiten al usuario buscar "todos" o "cualquiera" de sus términos de búsqueda y también "como una frase". ProFusion ofrece un modo por defecto, un modo booleano o un modo frase, mientras que Mamma posibilita buscar sus términos "como una frase" o limitar la búsqueda a "títulos de documentos" solamente.

MetaFind e Inference Find son algunos de los pocos motores que agrupan los resultados de las búsquedas por palabra clave. Otros motores, como Ask Jeeves y Savvy Search, clasifican los resultados de acuerdo con la herramienta que devolvió el link. Lo más común es que se muestren los resultados por índice de pertinencia, calculado según los sitios donde aparecen los télos sitios donde aparecen los términos de la búsqueda y la frecuencia de aparición.

Internet Sleuth, un motor de búsqueda por directorio o catálogo, también se puede utilizar como multibuscador. La homepage de Internet Sleuth ofrece acceso a 21 categorías por tema, que se pueden expandir fácilmente en subcategorías. La categoría sobre ciencia tiene nueve subcategorías, entre las cuales hay una para "Geología". Esta subcategoría provee motores de búsqueda para más de 11 recursos diferentes sobre geología, como Volcano World y SPE Technical Papers Index. Si bien "Geología" en Internet Sleuth no devuelve una lista exhaustiva, los links ofrecen acceso a algunos recursos en texto completo de alta calidad. Este acceso a buscadores por tema es exclusivo. Además de los motores de búsqueda por tema, la homepage de Internet Sleuth también ofrece la oportunidad de consultar toda la Web, en forma simultánea, a través de hasta 6 de los buscadores más importantes (Alta Vista, Excite, Infoseek, Lycos, WebCrawler y Yahoo!). Los usuarios pueden acceder a motores de búsqueda de Usenet, software, comercio y finanzas y noticias.

Ask Jeeves, que utiliza consultas en lengu, que utiliza consultas en lenguaje natural, tuvo una precisión superior a regular en la consulta por palabra clave sobre el "ENSO", pero inferior a regular en las consultas por frase o por concepto. Las búsquedas se hacen a través de un sistema experto que no sólo sugiere otras estrategias como alternativa a la búsqueda original, sino que también envía la consulta a Excite, HotBot, WebCrawler, Alta Vista e Infoseek. La búsqueda modelo sobre el "ENSO" recuperó 6 búsquedas adicionales en la Figura 1. Las respuestas a las estrategias de búsqueda alternativas estuvieron bastante relacionadas con la búsqueda original y le dieron al usuario la oportunidad de centrar la búsqueda en un aspecto en particular del término de búsqueda. Ask Jeeves también devolvió 10 recursos de cada uno de los 5 motores de búsqueda consultados. Los resultados obtenidos en los buscadores consultados fueron coherentes con los resultados de los motores de búsqueda individuales (véase Tabla 1).

Figura 1. El sistema experto de Ask Jeeves sugirió búsquedas alternativas
¿Cuáles son las últimas noticias sobre El Niño?

¿/font>
¿Qué es El Niño?
¿Dónde puedo encontrar información sobre El Niño en 1997-1998?
¿Cuáles son las últimas noticias sobre las tormentas en California?
¿Dónde puedo hallar información sobre el tema metereológico El Niño?
¿Dónde puedo hallar información científica general sobre El Niño?

Highway61 tuvo una precisión superior a regular en las búsquedas por frase y por concepto. Highway61 envía las búsquedas a 6 motores de búsqueda: Yahoo!, Alta Vista, Lycos, WebCrawler, Infoseek y Excite. El usuario determina el tiempo máximo de búsqueda y el número de resultados a mostrar. La búsqueda sobre "producción de cobre en Brasil" recuperó varios informes de empresas y la mayor cantidad de sitios Web del dominio .br (Brasil).

Cuando se utilizan multibuscadores y buscadores por palabra clave hay que tener en cuenta qué secciones de las páginas consulta el motor y desarrollar una expresión clara de búsqueda. El volumen de información disponibl volumen de información disponible en la Web requiere el uso de opciones "avanzadas" o "refinadas" para obtener resultados más precisos. Asimismo, los usuarios deberían recordar el consejo de Infoseek: "Las consultas más largas son mejores". Utilicen una serie de términos exclusivos y específicos para conseguir resultados más precisos. Este consejo resultó cierto para localizar información sobre geología en la Web y para las búsquedas temáticas específicas.

Conclusión

Los resultados de este estudio coinciden con los de otros estudios sobre precisión respecto a que ningún motor de búsqueda surge como el más preciso para localizar información en la World Wide Web. Ninguna herramienta se destacó, ni siquiera en las búsquedas específicas sobre geología. Tomaiuolo y Packer, en el estudio realizado en 1996, identificaron a Alta Vista como la herramienta que recuperaba la mayor cantidad de resultados pertinentes en los primeros 10 registros recuperados. Una evaluación de los índices de precisión, para las búsquedas relacionadas con la geología (1), reveló que Infoseek devolvía los resultados más precisos (2) y que Lycos y e;s precisos (2) y que Lycos y Alta Vista eran notablemente menos precisos. El estudio realizado por Leighton y Srivastava, en el que emplearon la metodología más sofisticada, también reveló que ningún motor de búsqueda era claramente el más preciso. Pero "surge un patrón definido. Alta Vista, Excite e Infoseek siempre son los servicios con las calificaciones medias más altas estimadas". (1997, http://www.winona.msus.edu/library/%20webind2/wi2pt3.htm#RESULTS, pág. 2 de 7). [Nota: Link actualizado el 5/8/98 por ald.] En base a estos otros estudios publicados y a los resultados de este estudio relacionado con la geología, se aconseja a los usuarios que cuando traten de localizar CUALQUIER clase de información en la World Wide Web utilicen varias herramientas, según el tipo de búsqueda que quieran hacer y el tipo de información que se necesita.

Como afirmaron Leighton y Srivastava, "la verdadera precisión, la proporción entre los  elementos pertinentes recuperados y el número total de elementos recuperados, es muy difícil de calcular, porque implicaría examinar todos los links devueltos por un servicio, que puedevueltos por un servicio, que pueden alcanzar los miles o millones". (1997, http://www.winona.msus.edu/library/webind2/wi2pt2.htm#EVALCRIT, pág. 3 de 8). [Nota: Link actualizado el 5/8/98 por ald.] Reconociendo las limitaciones de este estudio, se espera que los resultados puedan servir como guía cuando se utilizan los motores de búsqueda de Internet para localizar información sobre geología en la World Wide Web. 

Tabla 1. Motores de búsqueda revisados
 
 
IGN=LEFT VALIGN=TOP>pequeño
Nombre y URL Tamaño Precisión Notas
Motores de búsqueda por directorio o catálogo
All in One
http://www.albany.net/allinone/
pequeño

regular* Interfase común a muchos motores de búsqueda más pequeños, que el usuario debe consultar de a uno por vez. No hay mucho sobre ciencia.
*La precisión varía según la herramienta.
Argus Clearinghouse
http://www.clearinghouse.net/
pequeño alta* Sitios revisados. Los links sobre ciencia están bajo el  encabezado "Medio Ambiente" y el encabezado "Matemáticas y Ciencias" que contiene la subcategoría "Geología". *Sólo si el tema está incluido en Clearinghouse.
C|Net's Search.com
http://www.search.com/
grande regular Búsqueda provista por Infoseek. Los usuarios pueden elegir entre 11 motores de búsqueda cuando uarios pueden elegir entre 11 motores de búsqueda cuando consultan "toda la Web". La subcategoría "Ciencia" está dentro de la categoría principal "Aprendizaje". El uso de "links relacionados" puede mejorar la precisión.
EINet Galaxy
http://www.einet.net/galaxy.html
pequeño regular La subcategoría "Geociencia" está dentro de la categoría principal "Ciencia". Las búsquedas por frase y por concepto no recuperaron registros.
Go2 (antes World Wide Web Worm)
http://www.goto.com/
pequeño alta Hay 500 categorías enumeradas en orden aleatorio. Indica la última fecha en que se hizo una búsqueda y descripciones. Los usuarios pueden "calificar" los sitios localizados.
G.O.D. (Global Online Directory)
http://www.god.co.uk/
http://www.god.co.uk/ pequeño baja La subcategoría "Ciencia" está dentro de la categoría principal "Comunidad y Educación".
HandiLinks
http://www.ahandyguide.com/
pequeño baja No hay "Areas" sobre ciencia, pero usando las barras alfabéticas de salto se localizan links para temas como "geología",
"meteorología", etc. 
Hot Lava
http://hotlava.erupt.com/
pequeño baja* La subcategoría "Geología" está dentro de la categoría principal "Salud y Ciencias". La base de datos es muy pequeña. Similar a 
Yahoo!

*Hace las búsquedas por palabra clave en 6 buscadores al mismo tiempo, uacute;squedas por palabra clave en 6 buscadores al mismo tiempo, con una precisión regular. 
InfoMine
http://infomine.ucr.edu/

[Nota: Link actualizado el 24/7/00 por ald.] 
pequeño alta Ofrece acceso por tema, título o palabra clave. Las descripciones proveen links a sitios relacionados. La categoría "Geología" está dentro de la categoría  principal "Ciencias Físicas,  Ingeniería, Computación y Mateméticas". Se pueden limitar las búsquedas a las categorías individuales.
Internet Sleuth
http://www.isleuth.com/
pequeño regular* "Geología" está dentro de la categoría "Ciencia", que tiene links a buscadores especializados. 
*Las búsquedas por palabra clave en la base de datos de Internet Sleuth con las b&uacu clave en la base de datos de Internet Sleuth con las búsquedas modelo no recuperaron registros. La precisión de los buscadores especializados varió según la herramienta. 
Librarians' Index to the Internet
http://lii.org/

[Nota: Link actualizado el 24/7/00 por ald.] 
pequeño baja Usa las clasificaciones por materias de la Biblioteca del Congreso de los EE.UU. No hay una categoría general para la geología, pero hay subcategorías para "Terremotos" y "Medio Ambiente". La lista temática navegable contiene "Geología" como encabezado de materia, pero la categoría sólo tiene 3 links.
Look Smart
http://www.looksmart.com/
pequeño regular "Tierra y Medio Ambiente" está dentro de las categorías  "Referencia y  Educación" y "Ciencia y Naturaleza".
Magellan
http://www.mckinley.com/magellan/
pequeño regular Las categorías temáticas acceden a sitios revisados. También se pueden hacer búsquedas por palabra clave en "toda la Web". La categoría "Ciencia" contiene una subcategoría llamada "Planeta Tierra", con links relacionados con la geología.
Power Search 
http://www.power-search.com/">

http://www.power-search.com/

[Nota: Link eliminado el 5/8/98 por ald.]
grande** regular* Links distribuidos a más de 100 motores de búsqueda general y especializada. La opción "Búsqueda Personalizada" inserta la estrategia de búsqueda en el cuadro de búsqueda para cada herramienta, pero hay que hacer las búsquedas en forma separada para cada herramienta.
*Laa para cada herramienta.

*La precisión varía según la herramienta.

**Incluye una gran variedad de herramientas, pero el sitio en sí sólo se vincula con 100 herramientas de búsqueda.
SciCentral
http://www.sciquest.com/cgi-bin/ncommerce3/

ExecMacro/sci_index.d2w/report

[Nota: Link actualizado el 24/7/00 por ald.]
pequeño baja Relativamente nuevo. Mantenido por profesionales de las áreas abarcadas. La categoría "La Geología y el Espacio" tiene 9 subcategorías.
WWW Virtual Library
http://www.vlib.org/

[Nota: Link actualizado el 24/7/00 por ald.] 
pequeño regular regular Servidores distribuidos. 
Las geociencias están alojadas en la Universidad de Calgary, la meteorología en Penn State, etc.
Yahoo!
http://www.yahoo.com/
mediano baja* De gran amplitud. La subcategoría "Geología" está dentro de la categoría principal "Ciencias". 
*Las búsquedas modelo por frase y concepto no devolvieron registros y hallaron sólo 2 (de 49) links pertinentes para la búsqueda por palabra clave. Las consultas reenviadas a Alta Vista tuvieron una precisión regular.
Nombre y URL Tamaño Precisión Notas
Motores de búsqueda por palabra clave o crawlers
AliWeb <
AliWeb
http://aliweb.emnet.co.uk/

[Nota: Link actualizado el 24/7/00 por ald.] 
pequeño baja Indices dinámicos, estilo Archie. Se centra actualmente en sitios técnicos y académicos. La interfase de búsqueda cuenta con muchas opciones para refinar la búsqueda.
Alta Vista
http://www.altavista.com/

[Nota: Link actualizado el 14/10/98 por ald.] 
grande regular El uso de la opción "refinar" agrupa los resultados por tema, que el usuario después puede elegir o descartar para mejorar la precisión. Los canales temáticos de Alta Vista están basados en la base de datos de Look Smart.
Excite
http://www.excite.com/http://www.excite.com/
grande alta No se hallaron categorías ni subcategorías sobre ciencia en los canales de Excite. La opción "Búsqueda Personalizada" aumentó la precisión.>/FONT>
HotBot 
http://hotbot.lycos.com/

[Nota: Link actualizado el 24/7/00 por ald.] 
grande regular Incluye las categorías "Guía de Bolsillo", que contienen la subcategoría "La Tierra y el Medio Ambiente" dentro de la categoría principal "Referencia y Educación", y la subcategoría "Ciencia y Naturaleza" (Similar a Look Smart). Se pueden limitar las búsquedas por fecha, ubicación geográfica y dominio. 
Infoseek
http://www.infoseek.com/

[Note: Link actualizado el 24/7/00 por ald.] ald.] 
grande alta La subcategoría "Geología" está dentro de la categoría principal "Carreras y Educación", después seguir "Areas de Estudio" hasta "Ciencia". Se pueden refinar los resultados con términos nuevos. La búsqueda "pipe" rastrea términos más exactos dentro de un concepto más grande. 
Lycos
http://www.lycos.com/
grande regular Para hallar "Geología" en las categorías temáticas de Lycos, ir a la subcategoría "Educación" dentro de la categoría principal "Conocimientos". Se pueden limitar los términos de búsqueda a títulos, URL y dentro de los sitios especificados.
Northern Light
http://www.northernlight.com/
grande alta* Acceso aolor="#FFFFFF">alta* Acceso a artículos en texto completo en "Colecciones Especiales". La descripción incluye la fecha de creación. 
*El uso de carpetas  personalizadas mejoró la precisión.
Planet Search
http://www.planetsearch.com/
grande regular* Muchas opciones para personalizar. Exposición  gráfica de la pertinencia del término de búsqueda para cada link.
*La opción "Búsqueda  Similar" mejoró la precisión.
Web Crawler
http://www.webcrawler.com/

[Nota: Link actualizado el 24/7/00 por ald.] 
mediano regular No tiene canales relacionados con las ciencias. Soporta búsquedas en lenguaje natural. Se puede optar  entre recuperar links solamente o un resuSe puede optar  entre recuperar links solamente o un resumen breve.
What-U-Seek
http://whatuseek.com/
mediano baja* Rápido. La categoría "Ciencia y Tecnología" contiene 50 subcategorías.  *La precisión es más alta en las búsquedas por palabra clave que en las búsquedas por frase o por concepto.
Nombre y URL Tamaño Precisión Notas
Multibuscadores o metacrawlers (el número entre paréntesis indica la cantidad de motores de búsqueda consultados)
Ask Jeeves
http://www.askjeeves.com/
grande regular Consulta 5 buscadores generales de Internet. Acepta las búsquedas en lenguaje natta 5 buscadores generales de Internet. Acepta las búsquedas en lenguaje natural. Un sistema experto ayuda a guiar a los usuarios hacia la información relacionada. Los resultados de los buscadores consultados al mismo tiempo fueron similares a los resultados "refinados" recuperados en las búsquedas de cada uno de los motores.
CUSI - Configurable Unified Search Index
http://cusi.emnet.co.uk/

[Nota: Link actualizado el 24/7/00 por ald.] 
mediano regular* Busca por tipo de motor de búsqueda (categoría, palabra clave, Usenet, etc.) a través de una interfase común. Se consulta una herramienta por vez, pero los usuarios pueden elegir entre más de 18 buscadores diferentes.
*Los resultados varían según la herramienta.
DOGPILE
http://www.dogpile.com/
grande baja Busca en 14 motores de búsqueda de Int color="#FFFFFF">Busca en 14 motores de búsqueda de Internet y en 5 buscadores de Usenet, 2 de FTP y 3 de foros de discusión. Similar a
MetaFind. Las búsquedas se configuran en forma  automática con comandos como "+zona+sísmica+new+

madrid". Los resultados se agrupan según la herramienta que devuelve el link. No elimina los resultados duplicados. 
Highway 61
http://www.highway61.com/
grande regular* Rastrea en 6 motores de búsqueda de Internet. Se pueden leer citas de figuras importantes mientras se esperan los resultados. 
*Las búsquedas por frase o por concepto lograron una precisión más alta.
Inference Find
http://www.inference.com/infind/
grande regular Busca en 6 motores de búsqueda de Internet. Agrupa los resultados por dominio y elimina los registrosnet. Agrupa los resultados por dominio y elimina los registros duplicados.
Mamma
http://www.mamma.com/
grande regular* Consulta 6 buscadores de Internet, 5 buscadores  financieros y 5 buscadores de foros de discusión. Agrupa los resultados según el motor de búsqueda que recupera el link.
*Las búsquedas por frase o por concepto tuvieron una precisión más alta que las búsquedas por palabra clave. 
MetaCrawler
http://www.metacrawler.com/
grande regular* Consulta 6 motores de búsqueda de Internet. El link "Metaspy" permite ver qué están buscando otros usuarios y cómo lo hacen.
*La búsqueda por frase o por concepto tuvo mayor precisión.
MetaFind
http://search.metafind.com/

http://search.metafind.com/

[Nota: Link eliminado el 24/7/00 por  ald.] 
grande regular Busca en 6 motores de búsqueda de Internet. Los resultados se agrupan por palabra clave, dominio u  orden alfabético. La clasificación por dominio fue muchas veces la más útil. Similar a Dogpile. Busca todas las palabras, incluso "en" en las búsquedas modelo.
Profusion
http://profusion.ittc.ukans.edu/
grande baja Consulta 9 motores de búsqueda de Internet. Se puede limitar la búsqueda a "los 3 mejores buscadores" o "los 3 buscadores más rápidos" disponibles. Ofrece tres modos de búsqueda: por defecto, por frase o booleana. Expone  los resultados según el índice de pertinencia.
Savvy Search
http://www.cs.colostate.edu/~dreiling/smartform.html
grande regular Consulta hasta 19 motores de búsqueda de Internet en más de 20 idiomas. Los usuarios pueden integrar los resultados y limitarlos por tipo de material y dominio. No eliminó los registros duplicados. 

Comentarios finales

(1) Todas las búsquedas relacionadas con la geología en el estudio se hicieron por palabra clave o por frase. Las búsquedas incluyeron: avalanchas, la ley Clean Water Act (a favor del agua limpia), terremotos, recalentamiento del planeta, relámpagos, desastres naturales, reducción de la capa de ozono, reciclaje de plástico, estructura de la Tierra, tornados, volcanes y planificación de cuencas. 

(2) La calificación general del estudio realizado por Tomailou y Parker fue de 9,3 para Alta Vista, 8,3 para Infoseek y 8,1 para Lycos. Un análisis de las búsquedas sobre geología reveló 9,5 para Infoseek, 8,7 para Lycos y 8,3 para Alta Vista. 

Referencias

Chu, Heting y Rosenthal, Marilyn. 1996. Search enginting y Rosenthal, Marilyn. 1996. Search engines for the World Wide Web: A
comparative study and evaluation methodology. [En línea.]
http://www.asis.org/annual-96/ElectronicProceedings/chu.html [2 de abril de 1998].

Ding, Wei and Marchionini, Gary. 1996. Estudio comparativo del rendimiento del servicio de búsqueda Web. En: American Society for Information Science 1996 Annual Conference Proceedings, 33; Global complexity: Information, chaos and control; Baltimore, Maryland, October 21-24, 1996. (Editado por Steve Hardin), págs. 136-142. Information Today,  Medford, NJ.

Lebedev, Alexander. 17 de mayo de 1997. Best search engines for finding scientific information in the web. [En línea.] http://www.chem.msu.su/eng/comparison.html [27 de noviembre de 1997]. 

Leighton, Vernon, H. and Srivastava, J. 16 de junio de 1997. Precision among World Wide Web search services (Search engines): Alta Vista, Excite, Hotbot, Infoseek, Lycos. [En línea]. http://www.winona.msus.edu/library/webind2/webind2.htm [Nota: URL  modificada el 5/8/98 por ald.]

< a>.]

Rettig, James. 1996. Beyond cool: Analog models for reviewing digital resources. [En línea]. http://www.onlineinc.com/onlinemag/SeptOL/rettig9.html [30 de abril de 1998].

Singh, Amarendra and Lidsky, David. 1996. "All-out search." PC Magazine 15(21): 213-249.

Tate, Marsha and Alexander, K. 1996. "Teaching critical evaluation skills for World Wide Web resources." Computers in Libraries 16(10): 49-55.

Tomaiuolo, Nicholas G. and Packer, Joan G. 1996. Quantitative analysis of five WWW
"search engines." [En línea]. [Nota: Link a http://neal.ctstateu.edu:2001/htdocs/websearch.html eliminado el 21/12/98 por ald.] [1 de diciembre de 1997].

Webster, Kathleen and Paul, Kathryn. 1996. Beyond surfing: Tools and techniques for
searching the web. [En línea]. http://magi.com/~mmelick/it96jan.htm [26 de noviembre de 1997]. 

 

http://www.library.ucsb.edu/istl/98-spring/articlp://www.library.ucsb.edu/istl/98-spring/article5.html

Editor de ISTL: Andrea L. Duda, Universidad de California, Santa Barbara
 

Traducido con la correspondiente autorización del autor. 
Departamento de Informática y Sistemas.

Facilitado por la Biblioteca Nacional de la República Argentina