 |
Después de la conclusión del Proyecto Genoma Humano, la
proliferación de recursos bioinformáticos en los últimos
años obliga a los investigadores a tener que dedicar buena
parte de su tiempo a buscar estos recursos en la red. El
Grupo de Informática Biomédica (GIB) de la Facultad de Informática
de la Universidad Politécnica de Madrid (UPM) ha desarrollado
una innovadora metodología que, por primera vez, permite
el descubrimiento y clasificación automática de recursos
bioinformáticos a partir de artículos científicos.
En la actualidad existen numerosos recursos bioinformáticos
on-line disponibles para toda la comunidad científica. Este
número sigue creciendo exponencialmente día tras día. En
la investigación biomédica, cada vez es más frecuente que
los recursos generados por los investigadores -bases de
datos, software, recursos de varios tipos- se pongan a disposición
de toda la comunidad científica para así acelerar el avance
científico. Descubrir, localizar y aprender cómo usar nuevas
aplicaciones supone un coste-sobre todo en términos de tiempo-que
la gran mayoría de investigadores no pueden asumir. Por
ello surge la necesidad de organizar los recursos existentes
para facilitar lo más posible estas tareas de búsqueda.
Un equipo de investigadores del GIB de la Facultad de Informática
de la UPM (Guillermo de la Calle, Miguel García-Remesal,
Diana de la Iglesia y Stefano Chiesa), dirigidos por el
catedrático Víctor Maojo, ha desarrollado una innovadora
metodología que por primera vez permite el descubrimiento,
extracción y clasificación automática de recursos bioinformáticos
a partir de la literatura científica especializada en el
área. El índice de recursos desarrollado está disponible
libremente a través de la aplicación web situada en el servidor.
Procesamiento de Lenguaje Natural
La metodología está basada en técnicas de Procesamiento
del Lenguaje Natural e Inteligencia Artificial que permiten
la extracción y clasificación automática de información
relevante contenida en artículos científicos, principalmente
en los abstracts. Cada artículo es analizado morfológica,
sintáctica y semánticamente buscando una serie de patrones
establecidos, que permiten identificar de manera automática
y sin intervención del usuario los nombres, funcionalidad,
URL de acceso y, en algunos casos, las entradas y salidas
de dichos recursos.
Adicionalmente, los recursos son clasificados atendiendo
a dos dimensiones, por un lado el dominio de aplicación
(por ejemplo, ADN, ARN o Proteína) y por otro la categoría
(funcionalidad/tipo) de recurso (por ejemplo, alineamiento,
base de datos o anotación). Para realizar dicha clasificación,
se utiliza una taxonomía de dominios y categorías específicamente
diseñada con este fin y basada en otras taxonomías ya existentes
(por ejemplo, BLD - Bioinformatics Links Directory).
Para validar la metodología, el grupo de la UPM realizó
un experimento preliminar con 400 artículos indexados en
el ISI Web of Knowledge. Se realizó una búsqueda con la
cadena "bioinformatics resources", seleccionando los 392
primeros artículos más relevantes de acuerdo con su factor
de impacto. El resto eran artículos no relacionados con
recursos bioinformáticos, que fueron introducidos como conjunto
de control para verificar la robustez del método. De este
conjunto se extrajeron automáticamente 376 nombres de recursos,
lo que supone un índice de acierto de casi el 95%.
Como trabajo adicional, se ha puesto a libre disposición
de la comunidad científica una aplicación web basada en
Servicios Web, que permite acceder al índice creado y buscar
recursos por el nombre, categoría y dominio.
La principal ventaja del nuevo método frente a los índices
de recursos existentes reside en su creación y actualización,
tareas que se realizan de forma automática. Dado su carácter
genérico, esta metodología se está aplicando en el marco
del proyecto europeo ACTION-Grid, la primera iniciativa
europea en Grid Computing, Informática Biomédica y Nanoinformática,
coordinado por el profesor Víctor Maojo.
|