 |
Después de la conclusión del Proyecto Genoma Humano, la proliferación
de recursos bioinformáticos en los últimos años obliga a los
investigadores a tener que dedicar buena parte de su tiempo
a buscar estos recursos en la red. El Grupo de Informática Biomédica
(GIB) de la Facultad de Informática de la Universidad Politécnica
de Madrid (UPM) ha desarrollado una innovadora metodología que,
por primera vez, permite el descubrimiento y clasificación automática
de recursos bioinformáticos a partir de artículos científicos.
En la actualidad existen numerosos recursos bioinformáticos
on-line disponibles para toda la comunidad científica. Este
número sigue creciendo exponencialmente día tras día. En la
investigación biomédica, cada vez es más frecuente que los recursos
generados por los investigadores -bases de datos, software,
recursos de varios tipos- se pongan a disposición de toda la
comunidad científica para así acelerar el avance científico.
Descubrir, localizar y aprender cómo usar nuevas aplicaciones
supone un coste-sobre todo en términos de tiempo-que la gran
mayoría de investigadores no pueden asumir. Por ello surge la
necesidad de organizar los recursos existentes para facilitar
lo más posible estas tareas de búsqueda. Un equipo de investigadores
del GIB de la Facultad de Informática de la UPM (Guillermo de
la Calle, Miguel García-Remesal, Diana de la Iglesia y Stefano
Chiesa), dirigidos por el catedrático Víctor Maojo, ha desarrollado
una innovadora metodología que por primera vez permite el descubrimiento,
extracción y clasificación automática de recursos bioinformáticos
a partir de la literatura científica especializada en el área.
El índice de recursos desarrollado está disponible libremente
a través de la aplicación web situada en el servidor.
Procesamiento de Lenguaje Natural
La metodología está basada en técnicas de Procesamiento del
Lenguaje Natural e Inteligencia Artificial que permiten la extracción
y clasificación automática de información relevante contenida
en artículos científicos, principalmente en los abstracts. Cada
artículo es analizado morfológica, sintáctica y semánticamente
buscando una serie de patrones establecidos, que permiten identificar
de manera automática y sin intervención del usuario los nombres,
funcionalidad, URL de acceso y, en algunos casos, las entradas
y salidas de dichos recursos.
Adicionalmente, los recursos son clasificados atendiendo a dos
dimensiones, por un lado el dominio de aplicación (por ejemplo,
ADN, ARN o Proteína) y por otro la categoría (funcionalidad/tipo)
de recurso (por ejemplo, alineamiento, base de datos o anotación).
Para realizar dicha clasificación, se utiliza una taxonomía
de dominios y categorías específicamente diseñada con este fin
y basada en otras taxonomías ya existentes (por ejemplo, BLD
- Bioinformatics Links Directory).
Para validar la metodología, el grupo de la UPM realizó un experimento
preliminar con 400 artículos indexados en el ISI Web of Knowledge.
Se realizó una búsqueda con la cadena "bioinformatics resources",
seleccionando los 392 primeros artículos más relevantes de acuerdo
con su factor de impacto. El resto eran artículos no relacionados
con recursos bioinformáticos, que fueron introducidos como conjunto
de control para verificar la robustez del método. De este conjunto
se extrajeron automáticamente 376 nombres de recursos, lo que
supone un índice de acierto de casi el 95%.
Como trabajo adicional, se ha puesto a libre disposición de
la comunidad científica una aplicación web basada en Servicios
Web, que permite acceder al índice creado y buscar recursos
por el nombre, categoría y dominio.
La principal ventaja del nuevo método frente a los índices de
recursos existentes reside en su creación y actualización, tareas
que se realizan de forma automática. Dado su carácter genérico,
esta metodología se está aplicando en el marco del proyecto
europeo ACTION-Grid, la primera iniciativa europea en Grid Computing,
Informática Biomédica y Nanoinformática, coordinado por el profesor
Víctor Maojo.
|