Skip to content

Generating conceptual maps from web-based information / Generación de mapas conceptuales a partir de información en la web

December 9, 2011

In one of the previous posts we talked about the abundance of information that can be found on the internet and different ways of extracting it. We have also published a post about the possibilities offered by analysis and representation of networks.

As far as the last topic is concerned,  in 2009 Observatorio Iberoamericano de la Ciencia, la Tecnología y la Sociedad (CAEU-OEI)  launched  Intelligo, an online service which classifies and analyses scientific documents. Intelligo not only allows users to explore large quantities of information through maps, but also provides them with access to original documents.

Intelligo uses techniques for natural language analysis to identify and extract the most relevant concepts from each document. The concepts are then linked to one another in accordance with occurrence contexts based on a semantic model built from the whole corpus.

Intelligo has gathered a collection of about 500,000 documents. This number will keep growing as new repositories will be added. The following repositories already form part of Intelligo: Scielo, REDALYC, CLACSO, CSIC (Spain), Universidad de Granada (Spain) and USPTO patents.

In the next section we briefly describe the stages of information processing offered by Intelligo:

  1. Data harvesting: implementation of extraction components according to the format of each data source in order to extract metadata and texts that feed subsequent stages of processing. Currently, we can use import sources OAI-PMH for institutional repositories, XML patents and JSON metadata from the Scielo.org platform.
  2. Information Extraction: the main input in this phase consists of the concepts taken  from  the documents (the whole text, a brief or a description). This stage is devoted to identifying and extracting concepts using natural language analysis techniques (in the original language of the country). Moreover, we extract the metadata available in each source.  These metadata provide extra information about the areas that have been analyze  
  3. Generation of the semantic model. On the basis of the extracted concepts and their occurrence contexts, we generate a new semantic model that allows modeling the semantic similarity between any pair of concepts given their occurrence in similar contexts. This model also allows modeling the similarity between documents and sets of concepts (topics) permitting the recovery of information given its semantic affinity. Each source of information generates a different model; in this way we can value the differences between areas, making it possible to see how a given topic is treated within different sets.
  4. Publication of web services: the data processed offline is stored in efficient data structures that feed web services, which in turn answer the queries of the final user through a friendly web interface. This data is provided in the following formats:
  • Theme maps: Given a set of concepts defined by the user, we identify the related documents and concepts using clustering techniques to generate a graph that will show the clusters of topics and its relationships. This graph will be pruned and placed within spatial coordinates in order to be shown in the web interface.
  • Metadata maps: Each data source has a set of metadata (people, institutions, classifiers) that are used to generate maps that provide complementary information about the user-defined topic. This allows us, for example, to know the main experts that publish within a given field of knowledge and their collaborations.
  • Documents recovery: The recovered documents are shown according to the occurrence of words within the text (traditional recovery). Those documents which contain concepts related to the topic defined by the user are presented separately, according to the semantic model which has been previously computed. Therefore, Intelligo offers a new way of retrieving information.

Here you can watch a video which shows how the current version of Intelligo works:

The website is available in: http://www.explora-intelligo.info/

Authors: Rodolfo Barrere & Lautaro Matas


La abundancia de información en Internet y las problemáticas de su extracción ya fueron abordadas en un post anterior. Al mismo tiempo, las posibilidades ofrecidas por el análisis y representación de redes también fueron anteriormente descriptas en un post anterior del SISOBlog.

En este contexto desde 2009, como una actividad del Observatorio Iberoamericano de la Ciencia, la Tecnología y la Sociedad (CAEU-OEI), se desarrolla Intelligo. Se trata de un portal que releva y analiza documentos científicos, tecnológicos y educativos y permite tanto la exploración de estos grandes volúmenes de información a través de mapas, como el acceso a los documentos en su fuente original.

El explorador utiliza técnicas de análisis de lenguaje natural para identificar y extraer los conceptos más relevantes de cada documento. Los conceptos identificados son vinculados entre sí de acuerdo a los contextos de ocurrencia, sobre la base de un modelo semántico construido a partir de todo el corpus.

Bajo la órbita de exploración de Intelligo se reúnen hoy unos 500.000 documentos, número que seguirá creciendo a partir de la incorporación de nuevos repositorios.  Entre los repositorios ya anexados se encuentran Scielo, REDALYC, CLACSO, CSIC (España), la Universidad de Granada (España) y patentes de la USPTO.

A continuación se describen brevemente las etapas involucradas en el procesamiento de la información ofrecida en el portal:

  1. Cosecha de los documentos: de acuerdo a los formatos de cada fuente se implementan módulos para extracción de los metadatos y textos que alimentan a las etapas posteriores del procesamiento. Actualmente se cuenta con importación de fuentes OAI-PMH para repositorios institucionales, XML de patentes, metadata JSON de la plataforma Scielo.org.
  2. Extracción de información: el principal insumo son los conceptos provenientes del texto (completo, resúmen, descripción) de los documentos. En esta etapa se identifican y extraen conceptos utilizando técnicas de análisis de lenguaje natural en los idiomas de la región (español, inglés y portugués). Además se extraen los metadatos disponibles en cada fuente que ofrecen información complementaria de los ámbitos analizados
  3. Generación del modelo semántico: en base a los conceptos extraídos y sus contextos de ocurrencia se genera un modelo semántico emergente, que permite modelar la cercanía semántica de cualquier par de conceptos en base a su ocurrencia en contextos similares. Este modelo además permite modelar la cercanía entre documentos y conjuntos de conceptos (temas) permitiendo la recuperación de información por  afinidad semántica. Cada fuente de información genera un modelo distinto, de esta manera se pueden valorar las diferencias entre ámbitos pudiendo establecer comparaciones cualitativas, permitiendo apreciar como un mismo tema es tratado en distintas colecciones.
  4. Publicación de servicios web: Los datos procesados offline se almacenan en estructuras de datos eficientes que alimentan los servicios web que atienden las consultas de los usuarios finales a través de un aplicativo web amigable, se proveen:
  •  Mapa de temas: dados un conjunto de conceptos definidos por el usuario, se identifican los documentos asociados y sus conceptos, con técnicas de clustering específicas se genera un grafo que da cuenta de las agrupaciones de temas y sus relaciones.  El grafo es podado y ubicado en coordenadas espaciales para permitir su graficación a través del aplicativo web.
  • Mapa de metadatos: cada fuente provee un conjunto de metadatos (personas, instituciones, clasificadores) que son utilizados para generar mapas que brindan información complementaria sobre el tema definido por el usuario. Esto permite, por ejemplo, saber los principales expertos que publican en un tema y su relaciones de colaboración.
  • Recuperación de documentos: se ofrecen los documentos recuperados por la ocurrencia de las palabras en el texto (recuperación tradicional) y en forma separada se presentan los documentos que contienen conceptos afines al tema definido por el usuario de acuerdo a la aplicación del modelo semántico calculado previamente. De esta manera la herramienta ofrece también una forma novedosa de recuperar información.

A continuación se incluye un video que ejemplifica el funcionamiento de la versión actual de Intelligo:

El sitio puede visitarse en http://www.explora-intelligo.info/

Autores: Rodolfo Barrere y Lautaro Matas

One Comment leave one →
  1. April 26, 2013 12:33

    Whats up! I just wish to give an enormous thumbs
    up for the good information you will have here on this post.
    I will likely be coming again to your blog for more soon.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: