Investigación

Razonamiento Escalable sobre Grandes Volúmenes de Información

Las aplicaciones reales en la Web Semántica gestionan grandes cantidades de metadatos, expresados como instancias de ontologías. Los razonadores basados en lógicas de descripciones no están preparados para gestionar grandes cantidades de instancias, debido por un lado, a que las instancias no se almacenan de forma persistente, y por otro, a que los razonamientos se evalúan en memoria principal. Nuestro objetivo es implementar un razonador para ontologías OWL que ofrezca persistencia a las ontologías y razonamiento escalable. Nuestro trabajo incluye definición de repositorios para almacenar ontologías e instancias, implementación de algoritmos de razonamiento sobre estos repositorios, definición e implementación de lenguajes de consulta para las ontología y definición de mecanismos de optimización de dichas consultas y razonamientos.

Middleware basado en Ontologías

Esta línea de investigación aborda el estudio de soluciones arquitecturales que permitan el desarrollo de aplicaciones basadas en la semántica. En este sentido es de vital importancia el promover la reutilización de componentes. Como producto del trabajo en esta línea se ha producido un middleware cuya infraestructura se basa en un conjunto de componentes esenciales conocidos como SD-Core (the Semantic Directory Core). Los directorios semánticos proveen los elementos mínimos necesarios para el desarrollo de aplicaciones en la Web Semántica. SD-Core ha sido extendido en dos sentidos:

  • Añadiendo métodos específicos para diferentes tipos de aplicaciones. SD-Data es una extensión desarrollada para gestionar recursos que producen datos, que añade métodos específicos para tratar con este tipo de recursos.
  • Añadiendo nuevas interfaces a las ya incluidas en SD-Core:
    1. KOMF (the Khaos Ontology-based Mediation Framework) es un marco de trabajo que añade interfaces especializadas para la planificación y resolución de consultas usando un mediador basado en ontologías.
    2. OMAF (the Ontology Matching and Alignment Framework) es un marco de trabajo que introduce interfaces para la gestión de relaciones entre ontologías.

Descubrimiento de relaciones semánticas entre ontologías

El alineamiento de ontologías consiste en descubrir el conjunto de correspondencias semánticas (mappings) entre las entidades de dos o más ontologías que, aunque pertenecen a un mismo dominio, se ha desarrollado de manera separada.

En este sentido, mantenemos abierta una línea se centra en el desarrollo de técnicas y herramientas que den soporte al descubrimiento de relaciones semánticas entre ontologías, para ello hemos desarrollado MaF un Framework para el matching estadístico que permite componer y ponderar algoritmos simples de matching. Este Framework también ofrece facilidades para el desarrollo y la validación de nuevos algoritmos de alineamiento. Además, investigamos el empleo de técnicas clásicas para optimizar el descubrimiento de correspondencias, y de técnicas novedosas como las que explotan el conocimiento implícito de la web para tomar decisiones acerca de la verosimilitud de las correspondencias descubiertas.

Composición de Servicios Web Semánticos. ESB Semántico

Actualmente la mayoría de la investigación en Web Semántica intenta dar solución al problema de la integración de datos, proponiendo nuevos  lenguajes con los que modelar y consensuar la información que se pretende representar (RDF, RDF Schema, OWL, etc). Sin embargo, existe una minoría dentro de esta comunidad científica que cada vez va ganando más relevancia dedicada al problema de la integración de aplicaciones. Consorcios como NESSI, EIC, OASIS Semantic Execution Environment TC y  SWSI que lideran estas ideas que se desarrollan en el ámbito de los Semantic Web Services donde se emplea el concepto de arquitecturas semánticas orientadas a servicio (SESA). Se persigue el soporte automático para el ciclo de vida y producción de las arquitecturas orientadas a servicios donde es absolutamente necesaria una infraestructura que permita todas las operaciones intrínsecamente relacionadas con los servicios, como son el descubrimiento, selección, composición, mediación, invocación y ejecución. El objetivo en esta línea es colaborar en la implementación de dicha plataforma como base para el despliegue de toda la lógica que controlará el ciclo de vida de los SWS de una forma semi-automática. El fin último es ocultar la capa semántica al desarrollador al mismo tiempo que se facilita su tarea.

Recomendación de contenidos basada en la semántica

Los sistemas de recomendación de contenidos tradicionales se basan en filtrados colaborativos, es decir, en la interacción de los usuarios con los artículos a recomendar. No tienen en cuenta los perfiles de usuario ni las características de los contenidos, sino que hacen recomendaciones identificando grupos de usuarios que han consumido conjuntamente cierto número de productos. La recomendación basada en contenidos nace con la intención de acoger y aprovechar las características de los usuarios y los artículos. Esta línea de trabajo pretende pone en juego las tecnologías de la web semántica, mediante la definición de ontologías adecuadas para representar los perfiles de usuario y los contenidos a recomendar para permitir inferir los artículos más apropiados para un determinado usuario, en base a la adecuación de las características de los contenidos con su perfil. Este perfil, además de recoger los rasgos que proporcione el usuario, se va completando mediante razonamientos ontológicos a partir de su comportamiento. Este sistema de recomendación basado en contenidos puede ser mezclado con un sistema de filtrado colaborativo, dando lugar a un sistema híbrido que arrojará resultados satisfactorios en la mayoría de las situaciones.

Extensión semántica de las bases de datos

Con esta línea de investigación pretendemos anotar semánticamente bases de datos. Con la aparición del concepto de Web Semántica y de sus tecnologías asociadas se ha realizado mucha investigación el proceso de anotación semántica de páginas web. Las páginas se anotan con respecto a una ontología de dominio generándose metadatos en términos de instancias de dicha ontología. Estas instancias pueden ser cargadas en un razonador y consultadas aprovechando sus capacidades de razonamiento, enlazando posteriormente los resultados con los datos de la página web. Nuestro objetivo es estudiar cómo podemos anotar semánticamente no ya páginas web, sino bases de datos. Para ello, estudiamos cómo generar las anotaciones, cómo gestionarlas y cómo enlazar la base de conocimiento con los datos almacenados en la base de datos.

Aplicaciones: Biología de sistemas

La biología de sistemas es un área de investigación científica que se preocupa del estudio de procesos biológicos usando un enfoque sistémico. La biología de sistemas emplea fundamentalmente la modelización (uso de modelos matemáticos que describen el comportamiento del ente en estudio). Los modelos permiten predecir el comportamiento del proceso como un sistema dinámico, generalmente tratado como una red compleja. Para ello es necesario abordar el problema de la integración de información existente a diferentes. Estas fuentes de información están creciendo de forma exponencial con la aparición de los instrumentos de análisis de alto rendimiento, que han dado lugar a corrientes como la genómica, proteómica, metabolómica, etc.

En consecuencia, la Biología de Sistemas es el arquetipo de dominio de aplicación que hace un uso intensivo de datos y conocimiento en el que la aplicación de las tecnologías de la Web Semántica.

Dentro de esta línea de investigación se han desarrollado varias aplicaciones que hacen uso de los conocimientos y sistemas desarrollado en las líneas de investigación básica, para resolver problemas concretos que se encuentran los investigadores que trabajan en Biología de Sistemas (y Biología Molecular). Las aplicaciones desarrolladas son:

  • BioBroker. Esta herramienta integra diferentes bases de datos biológicas usando XML como modelo de intercambio de datos.
  • SB-KOM. Mediador basado en ontologías, que ha sido desarrollado a partir del marco de trabajo KOMF, usando algoritmos de planificación optimizados para las bases de datos biológicas.
  • ASP 3D Model Finder. Aplicación que permite buscar la estructura tridimensional de proteínas participantes en el metabolismo de las Aminas, y en caso de disponer de una estructura conocida se predice dicha estructura mediante métodos computacionales.
  • SBMM-Assistant. Este asistente permite recuperar información de rutas metabólicas (tanto la ruta como información de sus componentes). Además, permite la edición de dichas rutas por parte de los usuarios.

Aplicaciones: Patrimonio cultural y Turismo

En esta línea desarrollamos técnicas de apoyo a la gestión y difusión del patrimonio cultural y el turismo. Estamos interesados en la creación de nuevas tecnologías de carácter social que faciliten la creación y/o anotación de contenidos en base a perfiles de usuario. En este sentido trabajamos en el desarrollo de GeoTrip: Un sistema de información geográfica en línea que permite mostrar a los usuarios de dispositivos móviles un conjunto selecto de puntos de interés en tiempo real, seleccionando dicho conjunto en base a su posición geográfica, las recomendaciones efectuadas por otros usuarios que parecen comportarse siguiendo su mismo patrón y la búsqueda por significado sobre los metadatos asociados a dichos lugares. El conjunto de los puntos de interés devuelto para cada consulta, puede dar lugar a rutas, de modo que los dispositivos móviles pasan a convertirse en guías interactivas al servicio de los usuarios que, por ejemplo, visitan una ciudad. Además, el sistema permite a los usuarios asociar a cada punto de interés información complementaria de carácter multimedia.

Web Semántica para E-Ciencia

Dada la complejidad de la red a estudiar en los Sistema Biológicos, se hace necesario la reducción del modelo en el mayor grado posible del número de ecuaciones y variables que lo describen sin perder información del mismo. Actualmente están abiertas las siguientes líneas de investigación:

  1. Modelado de Sistemas. Aplicación en Biología de Sistemas.
    1. Reducción de modelos Matemáticos.
      Existen diversas técnicas de reducción de modelos matemáticos de sistemas entre las que podemos destacar tres: lumping, análisis de sensibilidad y análisis en escala de tiempos.
    2. Técnicas Dinámica de Modelado. Structural Kinetic Modeling
      Técnica que usada con objeto de obtener información relevante sobre las variables que describen  el modelo matemático estudiándose rangos de saturación de dichos parámetro y estudio de estabilidad del modelo.
  2. Curado de Modelos. Semantic Modeling.
    Con esta técnica se pretende introducir nuevas reglas y componentes de forma automática en el Modelado y Simulado de Sistemas para obtener información relevante sobre de los parámetros que interviene en el Modelo, introduciendo en el mismo Ontologías. Aplicación a la Biología de Sistemas introduciendo Ontologías Biológicas, como por ejemplo, SBO (System Biology Ontology).
  3. Web Semántica: tecnologías de la Web Semántica y desarrollo de aplicaciones. Aplicación en Biología de Sistemas.

Optimizacion multiobjetivo

Gran parte de los problemas de optimización que se presentan en la práctica en muchas disciplinas (ingeniería, economía, etc.) tienen una naturaleza multiobjetivo, en el sentido de que están compuestos por más de una función objetivo que hay que maximizar/minimizar al mismo tiempo. Para resolver estos problemas se pueden utilizar unas técnicas no exactas denominadas metaheurísticas, que permiten obtener soluciones satisfactorias a estos problemas dentro de unos límites de tiempo razonable.
Las líneas de investigación abiertas en este campo son:

  1. Diseño de nuevos algoritmos, con el fin de obtener métodos más eficaces para resolver problemas complejos.
  2. Aplicaciones a problemas de bioinformática.
  3. Aplicaciones a problemas de ingeniería civil.

Análisis del Big Data

La gestión, integración y análisis de datos es una de las líneas de investigación del grupo de investigación consolidado de la Junta de Andalucía (TIC-136) GISUM y desarrollada por el grupo Khaos. La experiencia del grupo Khaos incluye: Razonamiento Escalable sobre Grandes Volúmenes de Información; Middleware basado en ontologías; Descubrimiento de relaciones semánticas entre ontologías; Composición de Servicios Web Semánticos; Recomendación de contenidos basada en la semántica; Algoritmos de Optimización; Extensión Semántica de las Bases de Datos; Web Semántica para E-Ciencia.

Actualmente el grupo desarrolla las tres líneas de investigación (gestión, integración y análisis de datos) en línea con las tecnologías que pueden ser aplicadas para el desarrollo de las mismas:
• Gestión de Datos(Bases de Datos Relacionales, Bases de Datos NoSQL, Datos Vinculados)
• Integración de Datos (Datos Vinculados)
• Análisis de Datos (Minería de Datos, Minería de Textos, Recuperación de Información, Algoritmos de Optimización)

Estas líneas de investigación están abordando a su vez los problemas de su aplicación en el contexto de los Big Data (Datos de Gran Tamaño, Corrientes de Datos, Datos Heterogéneos). En este contexto se están desarrollando líneas de aplicación en las que es necesario combinar técnicas de gestión, integración y análisis de datos a los Big Data: Salud (Enfermedades Raras, Medicina Personalizada, Producción de Proteínas, Rutas Biológicas), Economía (Sentimiento de Mercado, Evolución de Marca) y Turismo (Movimiento de Turistas).