MARY MICCO
CONTROL DE AUTORIDAD DE MATERIA
EN EL MUNDO DE INTERNET
Este
artículo está dividido en dos partes. La primera se refiere al problema en
general del control de autoridad en Internet y las dificultades involucradas.
La segunda habla del uso de la clasificación en la autoridad de materia a
través del mundo de Internet, para mejorar el filtrado y la precisión.
===============================================================
Resumen
Hoy en día,
debemos analizar el control de autoridad de materia como un sistema que
soportará búsquedas a través del vasto dominio de Internet. Si bien reconocemos
que existen muchas dificultades, es hora de darle otra mirada y buscar nuevas
soluciones. Como herramientas de navegación, se deben diseñar presentaciones
gráficas generadas en forma automática, que identifiquen los objetos de la
información en muchos niveles diferentes, pero que estén organizadas por un
área temática amplia. Esto significa que necesitamos sacar ventaja de los
nuevos métodos de producción de documentos, incentivando a los autores a
agregar descriptores y, más importante aún, números de clasificación generales
con la ayuda de software de sistemas expertos. Más adelante, esta catalogación
y clasificación inicial puede ser perfeccionada por profesionales, pero al
menos sentará la base para una manipulación e indexación más sofisticada en el
punto de ingreso al sistema. En la actualidad, el mayor problema es cómo
filtrar lo que no queremos y restringir la búsqueda a los documentos que tal
vez nos sean de utilidad.
===============================================================
I Parte. El
control de autoridad de materia se debe analizar en un contexto más amplio
A. Objetivo:
Construir sistemas de computación para soportar una recuperación efectiva de la
información. Hacerlo con una mínima intervención del hombre. Para los fines de
este análisis, preferí limitar mis comentarios al control de autoridad de
materia, que analizaré no en función del catálogo bibliotecario para libros y
materiales no impresos, sino desde el punto de vista del usuario que tiene una
determinada necesidad de información. El usuario que busca información vía Internet, un medio que provee acceso no
sólo a los recursos bibliotecarios sino también a todo un conjunto de recursos
menos tradicionales. El verdadero fin del control de autoridad debe ser ayudar
al usuario a pasar, sin esfuerzos, de su terminología (idioma natural) a los
términos en uso del sistema (vocabulario controlado), y ubicar todos los
materiales (objetos) pertinentes sin considerar en qué base de datos están
almacenados o la forma en la que están presentados. Si busca "ataque
cardíaco", el sistema de control de autoridad debe vincularlo con
"infarto de miocardio" u otros sinónimos, así como también con todas
las fuentes de información apropiadas. Un requisito igualmente importante para
un sistema de control de autoridad de materia es que debe estar automatizado y
mantenerse solo, con una mínima intervención del hombre.
Si todas las
bases de datos periódicas, listas y revistas electrónicas, CD-ROM, directorios
ftp, menúes gopher y páginas iniciales ("home pages") de la WWW se
clasificaran como objetos, se les asignara un número de clasificación (por
materia) e identificara por tipo, sería relativamente simple concentrar la
búsqueda de un usuario en el área temática de su interés, en vez de hacer una
búsqueda de "fuerza bruta" de los recursos del mundo.
B. Dominio:
Los conocimientos registrados de la humanidad. Por lo general, el usuario tiene
interés por todo lo que está disponible y desea comenzar su búsqueda desde una
computadora de escritorio. Le gustaría tener acceso a todos los conocimientos
registrados de la humanidad, pero sólo en lo que respecta a su interés. En
otras palabras, quiere hacer una búsqueda generalizada, pero filtrar lo que no
se relaciona con su necesidad particular. Quiere lo mejor de lo que está
disponible, en vez de los primeros 200 resultados. Necesitamos herramientas que
ordenen el perfil de un usuario, para ayudarlo a filtrar lo que no es
apropiado. Esto indicaría que también necesitamos implementar una asignación
automatizada de valores para ayudar a clasificar los resultados. Es evidente
que si el resultado aparece en el título o en las palabras clave controladas,
se le debe asignar un valor más alto que si aparece simplemente en el texto de
un párrafo. El sentido es que el usuario sea capaz de utilizar una
clasificación jerárquica para ingresar al sistema, en el nivel deseado de
especificidad en el tema de su elección, con la opción de ampliar o acotar una
búsqueda que no es fructífera. Las herramientas actuales no lo permiten, y no
lo permitirán a menos que se implemente alguna forma de clasificación con
organización jerárquica. Es interesante destacar cuántos catálogos clasificados
están apareciendo en Internet para guiar al usuario a través del laberinto. El
éxito del servidor Yahoo (www.yahoo.com) muestra claramente que la gente
aprecia una organización jerárquica por materia.
C.
Materiales: Todos los disponibles. Internet expandió en gran medida las formas
de transmisión de información. El correo electrónico, los servidores de listas,
tableros de los servidores de listas, tableros de anuncios y servicios usenet
proveen fácil acceso a un caudal de datos actuales e informales sobre cualquier tema que se pueda imaginar.
El FTP hizo posible la publicación y distribución informal de materiales, en
papel y multimedia, muy rápidamente y a bajo costo. Los servidores Gopher nos
posibilitaron el acceso a toda la información en línea de las ciudades
universitarias, organizaciones gubernamentales y empresas en una red vinculada
de sitios. La World Wide Web expandió aún más esta capacidad con los enlaces de
hipertexto para multimedia, para que podamos navegar por imágenes gráficas,
videoclips, animaciones y una infinidad de recursos en forma rápida y fácil.
Todavía más
poderosa es nuestra habilidad de reunir, en una página inicial, referencias a
recursos de cualquier parte del mundo respecto de un tema o interés particular.
Incrementamos considerablemente el número de lugares en los que podemos buscar
información, sin un aumento proporcionado en la sofisticación de nuestras
herramientas de búsqueda. Los usuarios deben ser capaces de especificar un
paquete de información particular, y nosotros debemos empezar a considerar el
hecho de que ciertos paquetes representan estructuras compuestas coepresentan
estructuras compuestas con documentos múltiples; por ejemplo, las páginas
iniciales de la Web.
II.
Problemas: En macroescala
A. Explosión de información en Internet. Con
más de 3 millones de computadoras conectadas con un número desconocido de
usuarios y archivos en estos últimos tres años, no es extraño que nuestra
capacidad para manejar y asimilar esta explosión de información se haya quedado
atrás.
B. Falta de planeamiento/gobierno cooperativo.
La estructura administrativa de Internet se concentra, naturalmente, en la
conectividad y los estándares para lograr seguridad e interoperabilidad, más
que en el manejo de los problemas de recuperación de información. Hasta este
punto, los bibliotecarios y profesionales de tecnología de la información
no cooperaron muy activamente en el
diseño o administración de los servicios de recuperación de información de
Internet, si bien los primeros han hecho un uso activo del "backbone"
para distribuir sus propios servicios de bases de datos.
C. Falta de estándares para describir el
contenido de información. Serios proyectos están en proceso de ejecución
actualmente para redefinir las arquitecturas de manejo de documentos y proveer
más información significativa sobre los encabezamientos para archivos. Un
documento ya no será más un solo archivo, sino un libro de punteros a objetos
de texto, imágenes, fuentes y sonidos, con información concisa que incluya
autor, título, palabras clave, número de versión, descripción y estadísticas de
archivos, además de los descriptores tradicionales de archivos (Reinhart). Es
de vital importancia, para el éxito de un proyecto sobre control de autoridad,
integrar a esta arquitectura de documentos la información requerida de una
manera estandarizada. La selección de un número de clasificación y de palabras
clave temáticas debe hacerla, en primer lugar, el autor del documento cuando lo
está creando, y se debe mantener como parte de la información del archivo de
una manera bastante parecida a la que se crean los resúmenes para artículos
periódicos. Sería excesivamente costoso pagar a intermediarios para hacerlo.
Para este proceso, se necesitarán herramientas tales como componentes de
sistemas expertos. Ya existe en el mercado un software que extrae registros
coincidentes para cadenas de 50 o más palabras clave, y después los clasifica.
El usuario sencillamente solicita los registros que coincidan con su documento,
y después selecciona los más aproximados aplicando los mismos términos
controlados y números de clasificación a su propio documento. Se presume que
esta técnica funcionará muy bien para el material efímero, mientras que el
material que es más permanente será procesado otra vez en la cadena de la
información por profesionales capacitados, que pueden verificar la elección de
un número de clasificación y de términos controlados.
D. Falta de una estructura de información que
unifique. Dado que ya existen billones de documentos y que se generan más con
creciente velocidad, necesitamos una infraestructura sofisticada que ayude a
localizar y manejar nuestros recursos de información. En vez de tratar al
universo como un servicio monolítico de información, tendría mucho más sentido
dividirlo en una serie de mapas temáticos, estructurados de manera jerárquica,
mostrando ítems agrupados por tipo de material.
Dentro de
cada mapa temático, debemos ser capaces de identificar las colecciones
bibliotecarias críticas, tesauros, enciclopedias, obras de referencia,
publicaciones periódicas, bases de datos de artículos periódicos, servidores de
listas, grupos usenet, sitios ftp y páginas iniciales y gophers especializados;
todo presentado en una taxonomía general mostrando cómo se subdivide la materia
y cómo encaja en el plan mayor. Los usuarios tienen que poder cambiar
rápidamente del mapa temático al objeto específico de su elección. Necesitamos
un software que pueda construir, en forma dinámica, presentaciones
multiescalonadas con las descripciones asociadas con cada objeto del sistema.
En lugar de la organización plana actual, donde todas las palabras clave se
tratan de igual manera, necesitamos una organización de árbol, un sistema de
clasificación o taxonomía que posibilite al usuario ingresar a cualquier nivel
temático, y luego ampliar o acotar su búsqueda a gusto, trasladándose hacia
arriba o hacia abajo por el árbol de mapas.
E. Choque de culturas. Tecnócratas vs.
académicos vs. vendedores. Es muy evidente que hay varios grupos profesionales
diferentes que tienen ideas sobre cómo se deben organizar y manejar los
recursos de Internet. Si se quiere brindar al público general una buena
atención, estos grupos necesitan formar equipos de trabajo cooperativos y
escucharse entre sí. Es necesario que se pongan de acuerdo con respecto a los
estándares para organizar y recuperar información, que serán de máxima utilidad
para todos los grupos a largo plazo. Uno de los problemas claves en todo sistema
de manejo de documentos es cómo identificar la información para que pueda ser
recuperada al ser solicitada. Hay una creciente necesidad de poder filtrar lo
que no se necesita.
III.
Problemas: En microescala
A. Herramientas de búsqueda en Internet inadecuadas:
Las herramientas de búsqueda actuales se limitan, en general, a la búsqueda de
nombres de archivos y sus descriptores, hallados en los directorios de los
sitios de computación indexados. Hay varias restricciones obvias en cuanto a la
cantidad de información que se puede cargar en los descriptores de archivos.
Sin estándares ni normas, menos aún sin un control de autoridad, un nombre de
archivo como f-prot puede tener, y de hecho tiene, al menos 7 variaciones
posibles. En los sistemas que buscan coincidencias literales de cadenas, esto
significa que no se tienen garantías de que se vayan a encontrar todas los
casos existentes, ni de que el ítem buscado no se halle en el sistema.
1. Lista de listas. Listas especializadas como
la de Yarnoff. Hasta una tarea aparentemente simple como es localizar un
servidor de listas sobre un tema particular, se convierte en una empresa mayor.
Hoy en día, una simple búsqueda de cadenas a través del archivo de texto que consta de los nombres y descriptores de
las listas que alguien recopiló, es la mejor herramienta disponible.
2. Usenet. Este sistema de foros de discusión
ofrece sólo una organización temática jerárquica y primitiva, ya que los
boletines están agrupados por amplias categorías de temas con varios niveles de
subdivisión cada uno. Pero aún esto es útil. El concepto de hilos
("threads") también es interesante. En un boletín, se puede seguir un
tema o hilo particular filtrando otros mensajes. La organización de base todavía
es cronológica.
3. Archie
[FTP]: El software Archie no ofrece mucha sofisticación o funcionalidad, pero
es actualmente la única manera de buscar ítems de interés a través de sitios de
archivos de Internet. El software juntarchivos de Internet. El software junta
los directorios de archivos de los sitios de archivos todas las noches, y
finaliza el círculo completo una vez por mes. Los ingresos obtenidos se
desglosan en palabras claves, que luego se clasifican en orden alfabético. La
búsqueda por palabra o frase es exacta, pero se debe buscar cada término o
frase por separado. No se pueden hacer búsquedas con el operador lógico AND. Se
limita a sitios FTP.
4. Veronica
(Very Easy Rodent oriented Netwide Index to Computerized Archives). Este software solamente busca temas en los
Gophers que están en redes conectadas. Otra vez, las palabras clave derivan de
nombres de archivos y descriptores ingresados en los directorios. El usuario
puede utilizar los operadores booleanos AND/OR/NOT y también hay un truncamiento
derecho; por ejemplo, nativo o aborigen*, población* o gente*.
Algunos
Gophers limitan el número de caracteres en una cadena de búsqueda. Se puede
acotar la búsqueda utilizando un limitador "/"; por ejemplo, por tipo
de archivo. Por defecto, sólo se obtienen los primeros 200 ítems, pero se puede
modificar.
5. WAIS:
recuperación basada en la probabilidad. Esta es una herramienta de búsqueda más
sofisticada, diseñada para la recuperación basada en la probabilidad, con términos
que son evaluados dentro de un grupo de bases de datos en texto completo. El
software WAIS necesita más refinación y hoy se lo está desaprovechando, ya que
se lo utiliza principalmente con los
archivos que contienen ingresos de directorios y descriptores en ítems de
menúes. Se pueden seleccionar varias bases de datos para hacer la consulta, y
luego refinar la cadena de búsqueda. Se clasifican los resultados, pero los
algoritmos de clasificación también necesitan más refinación.
6.
Metaíndices, listas orientadas a materias, páginas iniciales especializadas.
Varios grupos estudiaron los problemas
de localizar ítems de interés en Internet. Cern ofrece un metaíndice organizado
por materia. En la Universidad de Minnesota, los estudiantes de la escuela de bibliotecarios
confeccionan listas temáticas de todos los recursos, las cuales están a
disposición del público. Lamentablemente, como suele pasar con los proyectos
estudiantiles, la cobertura no es amplia y no hay garantía de que la
información esté actualizada. Las páginas iniciales especializadas son una
promesa, pero también se presentan problemas de cobertura, control de calidad y
mantenimiento.
7.
Webcrawlers, Lycos y Aliweb. Varios grupos desarrollaron herramientas automatizadas
para buscar URLS e indexar todos los documentos hallados en los sitios Web. Son
bastante más poderosas y, probablemente, más actualizadas, porque la
actualización es automática. Pero también en este caso, se trata de una
búsqueda de palabras de "fuerza bruta" en la base de datos entera,
sin clasificación y, prácticamente, sin filtrado.
B.
Herramientas bibliotecarias existentes limitadas. En la mayoría de los casos,
los sistemas bibliotecarios actuales ofrecen búsquedas de palabras con un
método booleano sofisticado, así como con un mínimo acceso a un rastreo de
materias. Si bien se trabajó mucho en la asignación de números de clasificación
a todos los libros y publicaciones periódicas, esta información todavía no fue
explotada ni utilizada, en forma efectiva, en el software OPAC actual.
1. Software
OPAC para libros y materiales audiovisuales. La mayoría de los sistemas
actuales ofrecen solamente archivos índice invertidos para cada una de las
marcas identificadas. Se pueden buscar todas las palabras clave de las
materias. O se pueden rastrear las cadenas de materias ordenadas
alfabéticamente o combinar palabras clave del título, resúmenes de materias y
notas. La única búsqueda es la booleana. Si no se encuentra la palabra, la
búsqueda es infructuosa. Si el usuario escribe "ataque cardíaco", el
sistema no lo lleva a "infarto de miocardio" en forma automática.
Casi no hay clasificación. En el mejor de los casos, se le ofrece al usuario
hojear los autores y títulos en el número de clasificación de interés. No hay
títulos para los números de clasificación y no se los puede rastrear como un
sistema jerárquico. El único control de autoridad que provee es para las
materias.
2. Motores
de búsqueda de palabras clave (para bases de datos periódicas). Si bien estos
paquetes ofrecen una búsqueda booleana sofisticada, hay muy poca clasificación
de términos y cuentan con una habilidad muy limitada para filtrar (salvo por
idioma o año de publicación) o para ordenar los resultados. ILSA, un prototipo
experimental financiado por el Consejo de Recursos Bibliotecarios, demostró la
factibilidad y el valor de organizar los resultados por número de
clasificación, ofreciendo por lo tanto un desglosamiento muy útil. En una
búsqueda de material sobre suicidio, los resultados se relacionaban algunos con
la religión, otros con la sociología y otros con la historia.
En la
mayoría de los sistemas, sólo se puede consultar una base de datos por vez. Con
más de 1.000 bases de datos periódicas en línea, es muy costoso y difícil
garantizar que se hallen resultados sobre cualquier tema. Los problemas con la
superposición y fragmentación del alcance empeoran la situación.
C. Falta de
mecanismos de control de vocabulario. Si bien los bibliotecarios desarrollaron
varias herramientas de control de vocabulario, como las Library of Congress
Subject Headings y los tesauros múltiples para publicaciones periódicas, no hay
mucho interés, ni tampoco fondos, para proyectos que mejoren o automaticen
estas herramientas. De hecho, gran parte de la investigación reveló que los
intentos por controlar el vocabulario no mejoraron para nada la precisión en
los programas de búsqueda booleana de palabras, dentro de una determinada base
de datos. Pese a esto, nadie vaticinó la explosión de bases de datos ocurrida. Ahora
necesitamos con urgencia maneras efectivas de filtrar la información, con el
fin de limitar el alcance de nuestras búsquedas al subconjunto de interés,
antes de iniciar una búsqueda booleana. En la actualidad, no contamos con
ninguna herramienta para realizar una búsqueda de "fuerza bruta" en
todo el sistema y, si la tuviéramos, recuperaríamos más de lo que posiblemente
utilizaríamos. Deberíamos investigar herramientas de búsqueda que tengan
múltiples pasos. En el primer paso, se refina el área temática y los objetos de
la información. En el segundo paso, se ahonda en una búsqueda en texto completo
con los términos evaluados.
1. Los
usuarios reciben muy poca ayuda para formular las consultas. Un rastreo
alfabético de palabras clave o términos no es de mucha utilidad si no se tiene
la palabra correcta o área temática con la cual empezar. Necesitamos tener un
panorama general primero, para después aproximarnos al tema que nos interesa.
No existen actualmente mapas temáticos que guíen a los usuarios. Sería muy útil
si estos mapas pudieran utilizar colores para mostrar la densidad de los
resultados para los diferentes términos relacionados y, a la vez, indicar los
tipos de materiales. vez, indicar los tipos de materiales. Por ejemplo, habría
que distinguir a las bases de datos periódicas como vínculos separados a los
que el usuario puede saltar. Hay que enseñarles a los usuarios los tesauros,
las enciclopedias y otras herramientas útiles de referencia, y luego ofrecerlas
en texto completo a través de accesos directos de hipertexto. A veces están
disponibles los tesauros en línea pero, en general, no forman parte del sistema
y, en la mayoría de los casos, sólo muestran los términos controlados con
términos más amplios, acotados y relacionados. No se vinculan con los números
de clasificación o los términos no controlados de los resúmenes o de los
documentos en texto completo. Sólo en algunas bases de datos, como Medlars, los
términos controlados están conectados significativamente a un sistema de
clasificación.
2. Los
usuarios no pueden determinar qué términos están en uso. Hojeando un sistema de
clasificación que muestre la distribución de la literatura (total de
resultados), los usuarios podrían ver rápidamente cómo se diseñó un área
temática y qué subtemas se desarrollaron. Podrían tener un panorama general del
tema y después ingresar a un subtema particular para más detalles. Los sistemas
de hoy en día no poseen estas herramientas.
3. Los
usuarios no cuentan con herramientas de navegación. Con la rápida evolución de
las interfases gráficas de usuario con enlaces de hipertexto a documentos en
texto completo, tendríamos que ser capaces de diseñar pantallas de búsqueda
mucho más flexibles, que provean acceso a una serie completa de herramientas
útiles de control de vocabulario, con el fin de ayudar a formular búsquedas
fructíferas. Actualmente, la mayoría de los programas sólo pide que se ingrese
una cadena de búsqueda y luego devuelve el resultado.
Conclusión
Es hora de
reconsiderar nuestro enfoque sobre el control de autoridad y, de hecho, nuestro
enfoque total sobre el acceso temático. Deberíamos asegurarnos de que cada
documento tenga incorporados ciertos descriptores clave, un número de
clasificación, un tipo y el público eventual, así como también todos los
detalles específicos de los contenidos, para asistir en el filtrado de
documentos que es tan necesario cuando estamos saturados con el volumen de
información en línea. El autor del documento es el que tendría que hacerlo
primero con la ayuda de sistemas expertos. La segunda parte trata sobre los
pasos que se pueden seguir para mejorar la búsqueda en Internet incluyendo el
uso de la clasificación.
Bibliografía
1. Anon. "A Literature Search for information on
Native Americans." Dialog(R) File 648: Trade & Industry ASAP (TM) 1994
15234861. Texto completo. Vol. 17, Núm. 2, Pág. 45 (10) "...subject access
to electronic information on this network (Internet) is still primitive
compared to the powerful command languages that searchers have become
accustomed to with online services."
2. Bowman,
C. Michael y otros. "Scalable Internet Resource Discovery: Research
Problems and Approaches". Communications of the ACM. Agosto, 1994. Vol. 37, Núm. 8, Págs.
98-114. "Taxonomies allow a more uniform search space
than is possible solely by content-indexing of documents". Expert system
technology could be developed to match the key terms in the document against
similar documents. The author could then select the class number and index
terms that seemed most relevant adding more as needed. "We believe tools
should be developed that allow authors to mark up their documents with cls to
mark up their documents with classification terms from some selected set of
taxonomies."
3. Broad, William J. "Doing Science on the
Network: A Long Way from Gutenberg." New York Times, Martes, 18 de mayo de 1993, p.B 10, col. 1. "Much of the
beauty and wonder of Internet and its resources...could become a horrific
problem. Systems and people will shut down. I know people who have stopped
using Internet because they get 500 messages a day."
4. Kubany Susan K., President of Omnet, Inc..quoted in
Reinhart, Andy. "Managing the New Document" Byte. Vol. 19, Núm. 8. Agosto,
1994. "A document will no longer be a single file but rather a book of
pointers to text objects, data objects, images, fonts, and so on." Pág.
93.
===============================================================
Copyright Mary Micco 1996.
Este
artículo apareció originalmente en LIBRES: Library and Information Science
Electronic Journal (ISSN 1058-6768). Septiembre 1996. Vol. 6, Núm. 3.
Traducido
con la correspondiente autorización de los autores.
Departamento
de Informática y Sistemas. ica y Sistemas.
Facilitado
por la Biblioteca Nacional
de la República Argentina