Control de Autoridad de Materia

MARY MICCO

CONTROL DE AUTORIDAD DE MATERIA

EN EL MUNDO DE INTERNET

Este artículo está dividido en dos partes. La primera se refiere al problema en general del control de autoridad en Internet y las dificultades involucradas. La segunda habla del uso de la clasificación en la autoridad de materia a través del mundo de Internet, para mejorar el filtrado y la precisión.

===============================================================

Resumen

Hoy en día, debemos analizar el control de autoridad de materia como un sistema que soportará búsquedas a través del vasto dominio de Internet. Si bien reconocemos que existen muchas dificultades, es hora de darle otra mirada y buscar nuevas soluciones. Como herramientas de navegación, se deben diseñar presentaciones gráficas generadas en forma automática, que identifiquen los objetos de la información en muchos niveles diferentes, pero que estén organizadas por un área temática amplia. Esto significa que necesitamos sacar ventaja de los nuevos métodos de producción de documentos, incentivando a los autores a agregar descriptores y, más importante aún, números de clasificación generales con la ayuda de software de sistemas expertos. Más adelante, esta catalogación y clasificación inicial puede ser perfeccionada por profesionales, pero al menos sentará la base para una manipulación e indexación más sofisticada en el punto de ingreso al sistema. En la actualidad, el mayor problema es cómo filtrar lo que no queremos y restringir la búsqueda a los documentos que tal vez nos sean de utilidad.

===============================================================

I Parte. El control de autoridad de materia se debe analizar en un contexto más amplio

A. Objetivo: Construir sistemas de computación para soportar una recuperación efectiva de la información. Hacerlo con una mínima intervención del hombre. Para los fines de este análisis, preferí limitar mis comentarios al control de autoridad de materia, que analizaré no en función del catálogo bibliotecario para libros y materiales no impresos, sino desde el punto de vista del usuario que tiene una determinada necesidad de información. El usuario que busca información vía Internet, un medio que provee acceso no sólo a los recursos bibliotecarios sino también a todo un conjunto de recursos menos tradicionales. El verdadero fin del control de autoridad debe ser ayudar al usuario a pasar, sin esfuerzos, de su terminología (idioma natural) a los términos en uso del sistema (vocabulario controlado), y ubicar todos los materiales (objetos) pertinentes sin considerar en qué base de datos están almacenados o la forma en la que están presentados. Si busca "ataque cardíaco", el sistema de control de autoridad debe vincularlo con "infarto de miocardio" u otros sinónimos, así como también con todas las fuentes de información apropiadas. Un requisito igualmente importante para un sistema de control de autoridad de materia es que debe estar automatizado y mantenerse solo, con una mínima intervención del hombre.

Si todas las bases de datos periódicas, listas y revistas electrónicas, CD-ROM, directorios ftp, menúes gopher y páginas iniciales ("home pages") de la WWW se clasificaran como objetos, se les asignara un número de clasificación (por materia) e identificara por tipo, sería relativamente simple concentrar la búsqueda de un usuario en el área temática de su interés, en vez de hacer una búsqueda de "fuerza bruta" de los recursos del mundo.

B. Dominio: Los conocimientos registrados de la humanidad. Por lo general, el usuario tiene interés por todo lo que está disponible y desea comenzar su búsqueda desde una computadora de escritorio. Le gustaría tener acceso a todos los conocimientos registrados de la humanidad, pero sólo en lo que respecta a su interés. En otras palabras, quiere hacer una búsqueda generalizada, pero filtrar lo que no se relaciona con su necesidad particular. Quiere lo mejor de lo que está disponible, en vez de los primeros 200 resultados. Necesitamos herramientas que ordenen el perfil de un usuario, para ayudarlo a filtrar lo que no es apropiado. Esto indicaría que también necesitamos implementar una asignación automatizada de valores para ayudar a clasificar los resultados. Es evidente que si el resultado aparece en el título o en las palabras clave controladas, se le debe asignar un valor más alto que si aparece simplemente en el texto de un párrafo. El sentido es que el usuario sea capaz de utilizar una clasificación jerárquica para ingresar al sistema, en el nivel deseado de especificidad en el tema de su elección, con la opción de ampliar o acotar una búsqueda que no es fructífera. Las herramientas actuales no lo permiten, y no lo permitirán a menos que se implemente alguna forma de clasificación con organización jerárquica. Es interesante destacar cuántos catálogos clasificados están apareciendo en Internet para guiar al usuario a través del laberinto. El éxito del servidor Yahoo (www.yahoo.com) muestra claramente que la gente aprecia una organización jerárquica por materia.

C. Materiales: Todos los disponibles. Internet expandió en gran medida las formas de transmisión de información. El correo electrónico, los servidores de listas, tableros de los servidores de listas, tableros de anuncios y servicios usenet proveen fácil acceso a un caudal de datos actuales e informales sobre cualquier tema que se pueda imaginar. El FTP hizo posible la publicación y distribución informal de materiales, en papel y multimedia, muy rápidamente y a bajo costo. Los servidores Gopher nos posibilitaron el acceso a toda la información en línea de las ciudades universitarias, organizaciones gubernamentales y empresas en una red vinculada de sitios. La World Wide Web expandió aún más esta capacidad con los enlaces de hipertexto para multimedia, para que podamos navegar por imágenes gráficas, videoclips, animaciones y una infinidad de recursos en forma rápida y fácil.

Todavía más poderosa es nuestra habilidad de reunir, en una página inicial, referencias a recursos de cualquier parte del mundo respecto de un tema o interés particular. Incrementamos considerablemente el número de lugares en los que podemos buscar información, sin un aumento proporcionado en la sofisticación de nuestras herramientas de búsqueda. Los usuarios deben ser capaces de especificar un paquete de información particular, y nosotros debemos empezar a considerar el hecho de que ciertos paquetes representan estructuras compuestas coepresentan estructuras compuestas con documentos múltiples; por ejemplo, las páginas iniciales de la Web.

II. Problemas: En macroescala

A. Explosión de información en Internet. Con más de 3 millones de computadoras conectadas con un número desconocido de usuarios y archivos en estos últimos tres años, no es extraño que nuestra capacidad para manejar y asimilar esta explosión de información se haya quedado atrás.

B. Falta de planeamiento/gobierno cooperativo. La estructura administrativa de Internet se concentra, naturalmente, en la conectividad y los estándares para lograr seguridad e interoperabilidad, más que en el manejo de los problemas de recuperación de información. Hasta este punto, los bibliotecarios y profesionales de tecnología de la información no cooperaron muy activamente en el diseño o administración de los servicios de recuperación de información de Internet, si bien los primeros han hecho un uso activo del "backbone" para distribuir sus propios servicios de bases de datos.

C. Falta de estándares para describir el contenido de información. Serios proyectos están en proceso de ejecución actualmente para redefinir las arquitecturas de manejo de documentos y proveer más información significativa sobre los encabezamientos para archivos. Un documento ya no será más un solo archivo, sino un libro de punteros a objetos de texto, imágenes, fuentes y sonidos, con información concisa que incluya autor, título, palabras clave, número de versión, descripción y estadísticas de archivos, además de los descriptores tradicionales de archivos (Reinhart). Es de vital importancia, para el éxito de un proyecto sobre control de autoridad, integrar a esta arquitectura de documentos la información requerida de una manera estandarizada. La selección de un número de clasificación y de palabras clave temáticas debe hacerla, en primer lugar, el autor del documento cuando lo está creando, y se debe mantener como parte de la información del archivo de una manera bastante parecida a la que se crean los resúmenes para artículos periódicos. Sería excesivamente costoso pagar a intermediarios para hacerlo. Para este proceso, se necesitarán herramientas tales como componentes de sistemas expertos. Ya existe en el mercado un software que extrae registros coincidentes para cadenas de 50 o más palabras clave, y después los clasifica. El usuario sencillamente solicita los registros que coincidan con su documento, y después selecciona los más aproximados aplicando los mismos términos controlados y números de clasificación a su propio documento. Se presume que esta técnica funcionará muy bien para el material efímero, mientras que el material que es más permanente será procesado otra vez en la cadena de la información por profesionales capacitados, que pueden verificar la elección de un número de clasificación y de términos controlados.

D. Falta de una estructura de información que unifique. Dado que ya existen billones de documentos y que se generan más con creciente velocidad, necesitamos una infraestructura sofisticada que ayude a localizar y manejar nuestros recursos de información. En vez de tratar al universo como un servicio monolítico de información, tendría mucho más sentido dividirlo en una serie de mapas temáticos, estructurados de manera jerárquica, mostrando ítems agrupados por tipo de material.

Dentro de cada mapa temático, debemos ser capaces de identificar las colecciones bibliotecarias críticas, tesauros, enciclopedias, obras de referencia, publicaciones periódicas, bases de datos de artículos periódicos, servidores de listas, grupos usenet, sitios ftp y páginas iniciales y gophers especializados; todo presentado en una taxonomía general mostrando cómo se subdivide la materia y cómo encaja en el plan mayor. Los usuarios tienen que poder cambiar rápidamente del mapa temático al objeto específico de su elección. Necesitamos un software que pueda construir, en forma dinámica, presentaciones multiescalonadas con las descripciones asociadas con cada objeto del sistema. En lugar de la organización plana actual, donde todas las palabras clave se tratan de igual manera, necesitamos una organización de árbol, un sistema de clasificación o taxonomía que posibilite al usuario ingresar a cualquier nivel temático, y luego ampliar o acotar su búsqueda a gusto, trasladándose hacia arriba o hacia abajo por el árbol de mapas.

E. Choque de culturas. Tecnócratas vs. académicos vs. vendedores. Es muy evidente que hay varios grupos profesionales diferentes que tienen ideas sobre cómo se deben organizar y manejar los recursos de Internet. Si se quiere brindar al público general una buena atención, estos grupos necesitan formar equipos de trabajo cooperativos y escucharse entre sí. Es necesario que se pongan de acuerdo con respecto a los estándares para organizar y recuperar información, que serán de máxima utilidad para todos los grupos a largo plazo. Uno de los problemas claves en todo sistema de manejo de documentos es cómo identificar la información para que pueda ser recuperada al ser solicitada. Hay una creciente necesidad de poder filtrar lo que no se necesita.

III. Problemas: En microescala

A. Herramientas de búsqueda en Internet inadecuadas: Las herramientas de búsqueda actuales se limitan, en general, a la búsqueda de nombres de archivos y sus descriptores, hallados en los directorios de los sitios de computación indexados. Hay varias restricciones obvias en cuanto a la cantidad de información que se puede cargar en los descriptores de archivos. Sin estándares ni normas, menos aún sin un control de autoridad, un nombre de archivo como f-prot puede tener, y de hecho tiene, al menos 7 variaciones posibles. En los sistemas que buscan coincidencias literales de cadenas, esto significa que no se tienen garantías de que se vayan a encontrar todas los casos existentes, ni de que el ítem buscado no se halle en el sistema.

1. Lista de listas. Listas especializadas como la de Yarnoff. Hasta una tarea aparentemente simple como es localizar un servidor de listas sobre un tema particular, se convierte en una empresa mayor. Hoy en día, una simple búsqueda de cadenas a través del archivo de texto que consta de los nombres y descriptores de las listas que alguien recopiló, es la mejor herramienta disponible.

2. Usenet. Este sistema de foros de discusión ofrece sólo una organización temática jerárquica y primitiva, ya que los boletines están agrupados por amplias categorías de temas con varios niveles de subdivisión cada uno. Pero aún esto es útil. El concepto de hilos ("threads") también es interesante. En un boletín, se puede seguir un tema o hilo particular filtrando otros mensajes. La organización de base todavía es cronológica.

3. Archie [FTP]: El software Archie no ofrece mucha sofisticación o funcionalidad, pero es actualmente la única manera de buscar ítems de interés a través de sitios de archivos de Internet. El software juntarchivos de Internet. El software junta los directorios de archivos de los sitios de archivos todas las noches, y finaliza el círculo completo una vez por mes. Los ingresos obtenidos se desglosan en palabras claves, que luego se clasifican en orden alfabético. La búsqueda por palabra o frase es exacta, pero se debe buscar cada término o frase por separado. No se pueden hacer búsquedas con el operador lógico AND. Se limita a sitios FTP.

4. Veronica (Very Easy Rodent oriented Netwide Index to Computerized Archives). Este software solamente busca temas en los Gophers que están en redes conectadas. Otra vez, las palabras clave derivan de nombres de archivos y descriptores ingresados en los directorios. El usuario puede utilizar los operadores booleanos AND/OR/NOT y también hay un truncamiento derecho; por ejemplo, nativo o aborigen*, población* o gente*.

Algunos Gophers limitan el número de caracteres en una cadena de búsqueda. Se puede acotar la búsqueda utilizando un limitador "/"; por ejemplo, por tipo de archivo. Por defecto, sólo se obtienen los primeros 200 ítems, pero se puede modificar.

5. WAIS: recuperación basada en la probabilidad. Esta es una herramienta de búsqueda más sofisticada, diseñada para la recuperación basada en la probabilidad, con términos que son evaluados dentro de un grupo de bases de datos en texto completo. El software WAIS necesita más refinación y hoy se lo está desaprovechando, ya que se lo utiliza principalmente con los archivos que contienen ingresos de directorios y descriptores en ítems de menúes. Se pueden seleccionar varias bases de datos para hacer la consulta, y luego refinar la cadena de búsqueda. Se clasifican los resultados, pero los algoritmos de clasificación también necesitan más refinación.

6. Metaíndices, listas orientadas a materias, páginas iniciales especializadas. Varios grupos estudiaron los problemas de localizar ítems de interés en Internet. Cern ofrece un metaíndice organizado por materia. En la Universidad de Minnesota, los estudiantes de la escuela de bibliotecarios confeccionan listas temáticas de todos los recursos, las cuales están a disposición del público. Lamentablemente, como suele pasar con los proyectos estudiantiles, la cobertura no es amplia y no hay garantía de que la información esté actualizada. Las páginas iniciales especializadas son una promesa, pero también se presentan problemas de cobertura, control de calidad y mantenimiento.

7. Webcrawlers, Lycos y Aliweb. Varios grupos desarrollaron herramientas automatizadas para buscar URLS e indexar todos los documentos hallados en los sitios Web. Son bastante más poderosas y, probablemente, más actualizadas, porque la actualización es automática. Pero también en este caso, se trata de una búsqueda de palabras de "fuerza bruta" en la base de datos entera, sin clasificación y, prácticamente, sin filtrado.

B. Herramientas bibliotecarias existentes limitadas. En la mayoría de los casos, los sistemas bibliotecarios actuales ofrecen búsquedas de palabras con un método booleano sofisticado, así como con un mínimo acceso a un rastreo de materias. Si bien se trabajó mucho en la asignación de números de clasificación a todos los libros y publicaciones periódicas, esta información todavía no fue explotada ni utilizada, en forma efectiva, en el software OPAC actual.

1. Software OPAC para libros y materiales audiovisuales. La mayoría de los sistemas actuales ofrecen solamente archivos índice invertidos para cada una de las marcas identificadas. Se pueden buscar todas las palabras clave de las materias. O se pueden rastrear las cadenas de materias ordenadas alfabéticamente o combinar palabras clave del título, resúmenes de materias y notas. La única búsqueda es la booleana. Si no se encuentra la palabra, la búsqueda es infructuosa. Si el usuario escribe "ataque cardíaco", el sistema no lo lleva a "infarto de miocardio" en forma automática. Casi no hay clasificación. En el mejor de los casos, se le ofrece al usuario hojear los autores y títulos en el número de clasificación de interés. No hay títulos para los números de clasificación y no se los puede rastrear como un sistema jerárquico. El único control de autoridad que provee es para las materias.

2. Motores de búsqueda de palabras clave (para bases de datos periódicas). Si bien estos paquetes ofrecen una búsqueda booleana sofisticada, hay muy poca clasificación de términos y cuentan con una habilidad muy limitada para filtrar (salvo por idioma o año de publicación) o para ordenar los resultados. ILSA, un prototipo experimental financiado por el Consejo de Recursos Bibliotecarios, demostró la factibilidad y el valor de organizar los resultados por número de clasificación, ofreciendo por lo tanto un desglosamiento muy útil. En una búsqueda de material sobre suicidio, los resultados se relacionaban algunos con la religión, otros con la sociología y otros con la historia.

En la mayoría de los sistemas, sólo se puede consultar una base de datos por vez. Con más de 1.000 bases de datos periódicas en línea, es muy costoso y difícil garantizar que se hallen resultados sobre cualquier tema. Los problemas con la superposición y fragmentación del alcance empeoran la situación.

C. Falta de mecanismos de control de vocabulario. Si bien los bibliotecarios desarrollaron varias herramientas de control de vocabulario, como las Library of Congress Subject Headings y los tesauros múltiples para publicaciones periódicas, no hay mucho interés, ni tampoco fondos, para proyectos que mejoren o automaticen estas herramientas. De hecho, gran parte de la investigación reveló que los intentos por controlar el vocabulario no mejoraron para nada la precisión en los programas de búsqueda booleana de palabras, dentro de una determinada base de datos. Pese a esto, nadie vaticinó la explosión de bases de datos ocurrida. Ahora necesitamos con urgencia maneras efectivas de filtrar la información, con el fin de limitar el alcance de nuestras búsquedas al subconjunto de interés, antes de iniciar una búsqueda booleana. En la actualidad, no contamos con ninguna herramienta para realizar una búsqueda de "fuerza bruta" en todo el sistema y, si la tuviéramos, recuperaríamos más de lo que posiblemente utilizaríamos. Deberíamos investigar herramientas de búsqueda que tengan múltiples pasos. En el primer paso, se refina el área temática y los objetos de la información. En el segundo paso, se ahonda en una búsqueda en texto completo con los términos evaluados.

1. Los usuarios reciben muy poca ayuda para formular las consultas. Un rastreo alfabético de palabras clave o términos no es de mucha utilidad si no se tiene la palabra correcta o área temática con la cual empezar. Necesitamos tener un panorama general primero, para después aproximarnos al tema que nos interesa. No existen actualmente mapas temáticos que guíen a los usuarios. Sería muy útil si estos mapas pudieran utilizar colores para mostrar la densidad de los resultados para los diferentes términos relacionados y, a la vez, indicar los tipos de materiales. vez, indicar los tipos de materiales. Por ejemplo, habría que distinguir a las bases de datos periódicas como vínculos separados a los que el usuario puede saltar. Hay que enseñarles a los usuarios los tesauros, las enciclopedias y otras herramientas útiles de referencia, y luego ofrecerlas en texto completo a través de accesos directos de hipertexto. A veces están disponibles los tesauros en línea pero, en general, no forman parte del sistema y, en la mayoría de los casos, sólo muestran los términos controlados con términos más amplios, acotados y relacionados. No se vinculan con los números de clasificación o los términos no controlados de los resúmenes o de los documentos en texto completo. Sólo en algunas bases de datos, como Medlars, los términos controlados están conectados significativamente a un sistema de clasificación.

2. Los usuarios no pueden determinar qué términos están en uso. Hojeando un sistema de clasificación que muestre la distribución de la literatura (total de resultados), los usuarios podrían ver rápidamente cómo se diseñó un área temática y qué subtemas se desarrollaron. Podrían tener un panorama general del tema y después ingresar a un subtema particular para más detalles. Los sistemas de hoy en día no poseen estas herramientas.

3. Los usuarios no cuentan con herramientas de navegación. Con la rápida evolución de las interfases gráficas de usuario con enlaces de hipertexto a documentos en texto completo, tendríamos que ser capaces de diseñar pantallas de búsqueda mucho más flexibles, que provean acceso a una serie completa de herramientas útiles de control de vocabulario, con el fin de ayudar a formular búsquedas fructíferas. Actualmente, la mayoría de los programas sólo pide que se ingrese una cadena de búsqueda y luego devuelve el resultado.

Conclusión

Es hora de reconsiderar nuestro enfoque sobre el control de autoridad y, de hecho, nuestro enfoque total sobre el acceso temático. Deberíamos asegurarnos de que cada documento tenga incorporados ciertos descriptores clave, un número de clasificación, un tipo y el público eventual, así como también todos los detalles específicos de los contenidos, para asistir en el filtrado de documentos que es tan necesario cuando estamos saturados con el volumen de información en línea. El autor del documento es el que tendría que hacerlo primero con la ayuda de sistemas expertos. La segunda parte trata sobre los pasos que se pueden seguir para mejorar la búsqueda en Internet incluyendo el uso de la clasificación.

Bibliografía

1. Anon. "A Literature Search for information on Native Americans." Dialog(R) File 648: Trade & Industry ASAP (TM) 1994 15234861. Texto completo. Vol. 17, Núm. 2, Pág. 45 (10) "...subject access to electronic information on this network (Internet) is still primitive compared to the powerful command languages that searchers have become accustomed to with online services."

2. Bowman, C. Michael y otros. "Scalable Internet Resource Discovery: Research Problems and Approaches". Communications of the ACM. Agosto, 1994. Vol. 37, Núm. 8, Págs. 98-114. "Taxonomies allow a more uniform search space than is possible solely by content-indexing of documents". Expert system technology could be developed to match the key terms in the document against similar documents. The author could then select the class number and index terms that seemed most relevant adding more as needed. "We believe tools should be developed that allow authors to mark up their documents with cls to mark up their documents with classification terms from some selected set of taxonomies."

3. Broad, William J. "Doing Science on the Network: A Long Way from Gutenberg." New York Times, Martes, 18 de mayo de 1993, p.B 10, col. 1. "Much of the beauty and wonder of Internet and its resources...could become a horrific problem. Systems and people will shut down. I know people who have stopped using Internet because they get 500 messages a day."

4. Kubany Susan K., President of Omnet, Inc..quoted in Reinhart, Andy. "Managing the New Document" Byte. Vol. 19, Núm. 8. Agosto, 1994. "A document will no longer be a single file but rather a book of pointers to text objects, data objects, images, fonts, and so on." Pág. 93.

===============================================================

Este artículo apareció originalmente en LIBRES: Library and Information Science Electronic Journal (ISSN 1058-6768). Septiembre 1996. Vol. 6, Núm. 3.

Traducido con la correspondiente autorización de los autores.

Departamento de Informática y Sistemas. ica y Sistemas.

Facilitado por la Biblioteca Nacional de la República Argentina