Tesauro

Jorge Morato, Eva Carbonero (2010). Tesauro. GlossariumBITri, 1(1): 1089.

También disponible como: Thesaurus (en)

Colección	GlossariumBITri
Autor	Jorge Morato-Lara, Eva Carbonero
Editor	Sonia Sánchez-Cuadrado
Año	2010
Vol. (núm.)	1(1)
ID	◀ 1089 ▶
Tipo de objeto	Concepto, Recurso
Dominio	Recuperación de Información, Organización de la información
en	thesaurus
fr	thésaurus
de	Thesaurus

Un tesauro es un instrumento de control terminológico para la representación sistemática de un dominio particular del conocimiento de manera normalizada. Se trata de un lenguaje controlado formalmente organizado mediante relaciones explícitas entre conceptos. Los tesauros se han utilizado tradicionalmente para la indización documental.

Los términos pueden ordenarse de manera alfabética, sistemática o gráfica, y presentan notación específica: notas de alcance, relaciones jerárquicas, asociativas, de equivalencia, etc.

> **Ejemplo de uso:** > > **AUTOMÓVIL** > TG Vehículo autopropulsado > TE ambulancia > TE taxi > TR conductor > UP coche > NA Término creado por J.M. en 2009 > > *(Donde TG representa término genérico, TE término específico, TR término relacionado, UP usado por, y NA nota de alcance).*

Componentes del Tesauro

Los tesauros se componen de:

Descriptores: Términos normalizados que componen el tesauro.
No descriptores: Términos no aceptados que deben remitir a los descriptores (términos normalizados).
Relaciones jerárquicas: Término Genérico (TG) / Término Específico (TE). Hacen referencia a los términos conceptualmente superiores o inferiores al término de la entrada. En la bibliografía pueden encontrarse distintos tipos de relaciones jerárquicas: género/especie, todo/parte, relaciones de ejemplo y relaciones polijerárquicas.
Relaciones asociativas: Término Relacionado (TR). Hace referencia a los términos conceptualmente relacionados al término de la entrada.
Relaciones de equivalencia: USE / Usado Por (UP). Esta notación remite del término no aceptado al término aceptado.
Notas de alcance: Nota de Alcance (NA). Esta nota aclaratoria delimita conceptualmente al término de la entrada.

Características de los tesauros

Monolingües o plurilingües.
Polijerárquicos o monojerárquicos: La polijerarquía se da cuando un término puede tener más de un término genérico en el mismo tesauro.
Los términos de indización no tienen que ser necesariamente unitérminos; podemos encontrar frases adjetivadas, frases preposicionales, siglas o acrónimos (si su uso está extendido), etc.
Multidisciplinariedad: Los dominios o áreas de conocimiento pueden presentar solapamiento con otras áreas. La inclusión de estas áreas puede dar lugar a ambigüedad del término (p. ej., polisemia), perjudicando el rendimiento del tesauro.
Visualización y formalización: La propuesta original de los tesauros se hizo en una época en la que los ordenadores personales estaban poco desarrollados, por lo que las primeras propuestas definían salidas para imprimir en papel mediante la visualización jerárquica y alfabética. Con el desarrollo de la Web y la necesidad de interoperabilidad entre sistemas informáticos, se propuso la formalización en XML, frecuentemente bajo el modelado RDF/RDFS. También se ha propuesto un vocabulario para referirse a los distintos elementos del tesauro, denominado SKOS-Core, si bien existen otros vocabularios similares como Zthes, BS8723, MADS o el PSI de tesauros para el estándar Topic Maps.

Diferencia entre Ontologías y Tesauros

El debate entre tesauros y ontologías sigue abierto. El tesauro tiene una estructura marcada y un tipo de relaciones determinadas, mientras que la ontología presenta más posibilidades, contemplando la polijerarquía que muchos tesauros no soportan.

Las diferencias no las convierten en herramientas desconectadas. Conceptualmente tienen una función similar, pero el tesauro tiene su origen en el mundo impreso y la ontología es inconcebible fuera del entorno digital. La situación actual es la de trasladar el formato tradicional del tesauro a la web (RDF/XML), ofreciendo todas las ventajas de esta, aunque en muchos casos resulta insuficiente.

Para la publicación de ontologías en la WWW se emplea el lenguaje de marcado OWL (Ontology Web Language), construido sobre RDF y codificado en XML. Podríamos decir que son una versión más completa y que presentan más posibilidades que los tesauros; posiblemente dentro de unos años el debate termine y se considere a los tesauros simplemente como los predecesores de las ontologías.

Debe también distinguirse el tesauro de la taxonomía, en cuanto a que esta última es una mera estructura jerárquica para esquematizar conceptos de un área del conocimiento.

Metodología para su construcción

En primer lugar deben determinarse las necesidades del centro y decidir si es necesario crear un tesauro ex novo, adoptar uno preexistente, etc.
Selección de términos.
Seleccionar el software para la construcción del tesauro; se analizarán las herramientas existentes y se valorará la posibilidad de adquirir software propietario, emplear uno gratuito, etc.
Construcción del tesauro propiamente dicha, mediante un comité de expertos, empleando el método deductivo (de los términos genéricos a los más específicos) o el método inductivo (de los términos específicos a los más genéricos).
Formación de los usuarios que manejarán el tesauro.
Mantenimiento del tesauro (actualización periódica de los términos).

Ejemplos de tesauros funcionales en línea

Canadian literacy thesaurus: Vocabulario controlado bilingüe del área de literatura para adultos. Tanto la terminología como la estructura del tesauro reflejan las diversas prácticas literarias regionales y las actividades alrededor de Canadá. El sistema de búsqueda es mediante listado alfabético o palabras clave. Emplea el software Multites.
CAB Thesaurus: Vocabulario controlado de más de 48.000 términos de todas las ciencias de la vida. Enfocado al ámbito de las bibliotecas académicas, gubernamentales y corporativas, para navegar, indizar, buscar, catalogar y organizar bases de datos y el manejo de intranets. Permite indizar tanto información digital como textual.

Software para la creación de tesauros

ThManager: Herramienta gratuita para crear y visualizar vocabularios controlados (tesauros, taxonomías y listas de clasificación). Es multiplataforma (Windows, Unix y Java), multilingüe, y está codificada con Dublin Core y SKOS. Permite extraer términos relacionados mediante WordNet.
Multites: Herramienta que permite crear y gestionar tesauros, taxonomías y otro tipo de vocabularios controlados. Se puede exportar a XML y HTML.
Domain Reuse: Permite crear, gestionar, importar y exportar tesauros mediante informes completos. Es software propietario.
TemaTres: Software libre para crear tesauros multilingües en línea con gran variedad de formatos de exportación.
TCS: Se trata de uno de los editores más completos y flexibles. Tiene una excelente integración con el entorno Web.

Conclusiones

No siempre es necesaria la construcción de un tesauro, puesto que existen otras herramientas que, dependiendo de las necesidades del centro, pueden resultar igualmente satisfactorias y requieren de una menor elaboración (es el caso de las taxonomías).

Un tesauro conlleva un elevado coste inicial que se amortiza a lo largo del tiempo con su uso; sin embargo, es necesario destinar recursos continuos a su mantenimiento, puesto que un tesauro no actualizado es un tesauro inservible.

Para obtener el máximo rendimiento de un tesauro, poder actualizarlo cómodamente e interrelacionarlo con otros, es conveniente editarlo o crearlo en línea empleando estándares (como RDF/XML o el esquema SKOS-Core).

Recursos relacionados

CAB Thesaurus. [En línea].
Canadian literacy thesaurus. [En línea].
Domain Reuse. [En línea].
TCS-10. [En línea].
ThManager. [En línea].
TemaTres. [En línea].

Referencias

Aichinson, J. y Dextre, S. (2004). “The Thesaurus: A Historical Viewpoint with a Look to the Future”. En: Cataloging & Classification Quarterly, vol. 37, n.º 3/4, pp. 5-21.
Lancaster, F. W. (1995). El control del vocabulario en la recuperación de la información. Valencia: Universitat de València, p. 286.
Slype, G. van. (1991). Lenguajes de indización: concepción, construcción y utilización en los sistemas documentales. Madrid: Fundación Germán Sánchez Ruipérez, p. 200.
Pérez Agüera, J. R. (2004). “Automatización de tesauros y su utilización en la Web Semántica”. En: BID: textos universitaris de biblioteconomia i documentació, n.º 13. [En línea].
ISO (1986). ISO-2788: 1986. Guidelines for the Establishment and Development of Monolingual Thesauri. Ginebra: ISO.
Sánchez-Cuadrado, S., Morato, J., et al. (2007). “Definición de una metodología para la construcción de Sistemas de Organización del Conocimiento a partir de un corpus documental en Lenguaje Natural”. En: Procesamiento del Lenguaje Natural, n.º 39, pp. 213-220.