Skip to content

Diagram trajectories: a new metaphor for visualising general and specific trends from temporal relational data/ Diagrama de Trayectorias: Nueva Metáfora para visualizar tendencias generales y específicas a partir de datos relacionales temporales

November 25, 2013

In this section, a new type of diagram is presented, called trajectory diagram. The aim of this metaphor is to enable the analysis of complex scenarios based on temporal relational data in an easy way. Based on Sankey diagrams, trajectory diagrams show the evolution of many entities, as well as their possible interactions in time. It offers a pleasant but powerful interface that enables the analyst to obtain conclusions effortlessly from complex data. This visualisation tool allows also the selection of different magnitudes regarding relational data, providing capabilities to study different points of view for the same phenomenon.

Trajectory diagrams are implemented in the SiSOB workbench, and accepts temporal networks obtained from relational data as input. The result is a plot where time is represented at the bottom of the visualization in ascending order (x-axis). An entity is represented by a rectangle, having a size proportional to the magnitude that is being analysed. For each time unit an enumeration of entities is provided, building parallel columns. Ties exist between entities from left to right, and represent any kind of relation (e.g., there exist common subject categories between consecutive publication items). These ties can also represent the strength of the link for a given magnitude (for example, the number of common subject categories shared by the related items).

Following, the use of this diagram is illustrated in two case studies (detailed in deliverables D7.3 and D8.4 of the SiSOB project, respectively).

Case study 1. Tracking research theme development in the UK

Trajectory graphs help to obtain an overview of the degree of thematic mobility exhibited in a sample of researchers or regions. Thematic trajectories describe the evolution of a scientific domain and can help identify the increase and fragmentation of research domains.

We have conducted a pilot study on thematic mobility, based on a large-scale dataset provided by FR, containing detailed information on engineering academics that were employed at the Engineering departments of 40 major UK universities between 1985 and 2007.In order to measure a change in research topics we will focus on a researcher’s academic output and, in particular, their scientific publications. We will draw on publications from the ISI Science Citation Index Expanded (SCI) and devise measures based on the 244 Subject Categories (SCs) assigned by the SCI. The resulting publication database contains information—among others—on ISI SCs for each of the publications, which is essential for applying the model detailed above. In total the search identified 5751 publishing researchers and 82,538 publications with 105,544 researcher-publication pairs. Although all articles considered in this analysis were published in the faculty of engineering, we can find 183 different ISI SCs associated with them.

To track research theme development in the UK we look at the development of five major subject categories. We focus exclusively on primary (first) SCs; secondary SCs are ignored in this first exercise. The five fields are Electrical & Electronic Engineering, Multidisciplinary Material Science, Biomedical Engineering, Nanoscience & Nanotechnology and Artificial Intelligence. The trajectory graph is presented in Figure 1. The horizontal axis shows the year of publication. The size of the node represents the number of publications in a field. The vertical axis indicates the relative increase or decrease compared to the previous occurrence of the field.

The graph shows the fluctuation between fields and especially the decrease in Multidisciplinary Materials Science as primary subject area. We further see how certain subject areas have been able to establish themselves as primary research field, for instance Biomedical Engineering and Artificial Intelligence. Overall the descriptive graph seems to suggest that there is an increase in research domains as well as a diversification. While the number of publication increases across all fields, their relative position compared to other fields changes. The graph further seems to support the idea that research domains appear mainly due to new technological developments and specialisation. Though we cannot observe a case of a subject domain disappearing altogether, they can be marginalised or downgraded to a secondary research field.

Figure 1. Trajectory diagram (SISOB Workbench)

Figure 1. Trajectory diagram (SISOB Workbench)

We secondly want to track research theme development using first and secondary research subjects and investigate how SCs diversify or merge over time. Each paper is categorized by one or more SCs. This SC information is used to build a co-occurrence network for each year, and then extract sets of highly correlated terms using Social Network Analysis techniques (e.g., the Louvain method for the detection of communities or themes). Finally, a process of linking is carried out to establish which SCs in consecutive years are correlated, producing trajectories. In Figure 2, the metaphor shows different trajectories for the case of Engineering in the UK for the years 1985 to 2007. The x-axis represents publication years, so for each year (column) a set of themes has been detected (represented by coloured rectangles). The size of each rectangle is proportional to the size of its related SC. For example, in year 1985 the SC Environmental science (light green), Construction and building technologies (blue), Surgery (light blue), Engineering (orange), Physics (green) and, Automation and control systems (light orange) have been detected. From this point on, each category is tracked based on scientific publications.

Figure 2. Thematic trajectories for Engineering in UK from 1985 to 2007

Figure 2. Thematic trajectories for Engineering in UK from 1985 to 2007

To interpret the diagram we focus on the trajectory of Engineering (orange, Figure 3). This trajectory produces several distinct (non-interdisciplinary) research lines in the earlier years analysed, and from year 1998 onwards these different trajectories produce highly multidisciplinary publications. In fact, the last part of the trajectory is also shared by other trajectories like Environmental sciences, Automation and control Systems, Physics and, Surgery.

Figure 3. Engineering trajectory

Figure 3. Engineering trajectory

Case study 2. Monitoring scientific production in local regions: the case of biotechnology in Andalusia (Spain)

In this case study, we show a simple methodology to monitor research lines in a region during a period of time, based on its scientific production (see D8.4 for details). This research lines are modelled as trajectories in order to be plotted by the SiSOB’s trajectory diagram. As a first step, the highly related topics in which the scientists are researching are detected, producing themes. Then, themes are linked based on common shared topics, producing trajectories. Finally, the trajectories are visualised in an easy-to use yet powerful diagram. This methodology might lead decision-makers to improve their decisions about, for example, where and how much investment should these research lines receive.

These case study take into account those high relevant papers published in journals indexed in the category “Biotechnology and Microbiology” of the Journal of Citation Reports (JCR), Institute of Scientific Information (ISI), from 2004 to 2010 by at least one Andalusian institution. From these data sets (one per year), we follow a process that is better described in three phases: Detection of publication themes, temporal linkage of themes and, visualizing and analysis of trajectories.

In the first phase, a network based on the co-occurrence of keywords in papers is performed for each year. Then, for each network, an algorithm to detect communities is applied. These communities contain sets of high correlated keywords forming themes.

The second phase proceeds with the linkage of themes between networks. This process is based on relating those consecutive communities that fulfil two conditions: the theme has enough elements (i.e., weak communities are discarded) and the count of shared keywords between themes is high enough (i.e., only strong ties are taken into account for linking). This process generates a new network of trajectories containing information about each theme (e.g., number of topics in a theme or its number of papers associated) and tie.

The resulting plot of trajectories for our case study is depicted in Figure 4. As commented before, time is represented in the x-axis while themes detected at each year are represented by rectangles. The length of each rectangle represents the amount of papers related (i.e., the scientific production) with each of them in its corresponding year. The metaphor shows how themes relate through time.

Figure 4. Trajectories detected in Andalusia for the field of Biotechnology (2004-2010).

Figure 4. Trajectories detected in Andalusia for the field of Biotechnology (2004-2010).

In a glance, the diagram shows that the scientific production on Biotechnology in Andalusia has been increased in recent years (the sum of the sizes of rectangles per year is bigger recently than in the beginning), as well as the number of trajectories (research lines). This diagram answer this general question, but it also enables us to look at the details of each trajectory.

For example, this metaphor may help to detect current profitable themes. They are those corresponding to larger rectangles at the end of trajectories (year 2010). Some examples are “Growth” (in grey), “Models” (in light yellow), “Degradation” (in pink), “Bacteria” (in light brown) and “Escherichia Coli” (in light pink). The first three themes are contained in long trajectories (since 2004) and thus belong to consolidated research lines, while the last two themes are in very recent trajectories (starting in 2009) that might lead to potentially productive research lines. In the other hand, one might be interested in knowing which trajectories are about to disappear. They are those recently formed (since 2009) that have a decreasing production (“In-vitro” – in red – and “Mammalian-cells” – in yellow).

In addition, the components of each individual trajectory can be inspected. In Figure 5 a clear research line has been highlighted. It started in 2007 based on topics about “Degradation” (rectangle in pink at the left), having a scientific production in the region of 7 papers related to the theme. Then, in 2008 the trajectory drifted to terms related to “Fermentation” (green box) and contained 51 papers published. In 2009, the scientific production growth up to 92 papers on the same theme and, finally, in 2010 the trajectory split in two new research lines: one focused in “Models” (in light yellow) and another in “Degradations” (in pink) with 40 and 61 papers published, respectively.

Figure 5. Evolution of a well established trajectory

Figure 5. Evolution of a well established trajectory

This metaphor also offers the opportunity to answer more complex questions. For example, to know how many research lines has produced a theme, the analyst only have to select the desired theme and see the trajectories highlighted. In Figure 6 (left), we selected “Temperatures” in 2004 and the visualisation tool highlighted a total of five different research lines, allowing us to analyse the effect of this initial theme along time. In the other hand, one may want to know the composition of a theme. This case is depicted in Figure 6 (right), where we selected “Products” in 2010 and the three trajectories that compose this research lines appear highlighted.

Figure 6. Spread (left) and collapsed (right) themes

Figure 6. Spread (left) and collapsed (right) themes

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Finally, and generalizing the latter issues, the metaphor also offers to know the contribution of a theme, that is to study which trajectories have built a theme and how many trajectories produce. Figure 7 shows that in 2007 the theme containing topics related to “Waters” (purple community at the centre) has been formed by three trajectories, and produces another three different research lines in 2008.

Figure 7. Theme contribution in trajectories

Figure 7. Theme contribution in trajectories

Conclusions

As illustrated in the cases of study, representing temporal relational data (e.g., scientific publication data) in trajectory diagrams allow the analysts to extract descriptive results intuitively. In addition, it offers a pleasant but powerful interface that enables the analyst to obtain conclusions effortlessly. Trajectory diagrams are implemented in the SiSOB workbench and accepts temporal networks obtained from relational data as input. The result is a plot where entities are presented, as well as their relations (which produce trajectories).

This metaphor might reach higher implications if used to help decision-makers in their tasks (for example, lead resources by specific trends of scientific productivity in a region; in the latter case of use a possible decision might be to increment the investment in topics related to “Growth”, “Models”, “Escherichia Coli”, “Degradation” and “Bacteria” for the region of Andalusia).

Raúl Fidalgo, University of Málaga
Cornelia Meissner, Fondazione Rosselli 

diseminación

Se presenta en este apartado un nuevo tipo de diagrama llamado diagrama de trayectoria. El objetivo de esta metáfora es poder analizar de forma simple escenarios complejos basados en datos relacionales temporales. Basado en los diagramas de Sankey, los diagramas de trayectorias muestran la evolución de varias entidades y sus posibles interacciones en el tiempo. Ofrece una interfaz amigable pero potente que permite al analista obtener conclusiones de datos complejos sin apenas esfuerzo. Esta herramienta de visualización permite además la selección de diferentes magnitudes de acuerdo a los datos relacionales aportando capacidades para el estudio de puntos de vista diferentes para el mismo fenómeno.

Los diagramas de trayectorias se implementan en el workbench de SiSOB aceptando como input redes temporales obtenidas de los datos relacionales. El resultado es una trama donde el tiempo se representa en la parte inferior de la visualización en orden ascendente (eje x). Cada entidad es representada por medio de un rectángulo que tiene un tamaño proporcional a la magnitud que se está analizando. Para cada unidad de tiempo se proporciona una enumeración de entidades construyendo así columnas paralelas. Las entidades pueden estar vinculadas de izquierda a derecha, representando cualquier clase de relación (por ejemplo, existen categorías temáticas comunes entre publicaciones consecutivas). Estos vínculos pueden representar también la fuerza del vínculo para una magnitud dada (por ejemplo, el número de categorías temáticas comunes compartidas por los elementos relacionados).

A continuación, el uso de este diagrama se ilustra en dos estudios de caso (detallados en los resultados del proyecto SiSOBD7.3 y D8.4 respectivamente)

Estudio de caso 1. Seguimiento del tema de la investigación en el Reino Unido

Los gráficos de trayectoria permiten obtener una visión general del grado de movilidadtemática que se presenta en una muestra de investigadores o regiones. Las trayectorias temáticas describen la evolución de un ámbito científico y pueden contribuir a la identificación del aumento y fragmentación de los ámbitos de investigación.

Hemos realizado un estudio piloto sobre la movilidad temática basado en un conjunto de datos a gran escala proporcionados por FR y que contienen información detallada de académicos de ingeniería que estuvieron empleados en departamentos de ingeniería de 40 importantes universidades del Reino Unido entre 1985 y 2007. Para medir el cambio en los temas de investigación nos centramos en la producción académica de un investigador, en concreto en sus publicaciones científicas. Recurrimos  a las publicaciones científicas del ISI Science Citation Index Expanded (Índice Expandido de Citación Científica ISI) (SCI) y las medidas ideadas basadas en las 244SubjectCategories (CategoríasTemáticas) (SCs) asignadas por el SCI. La base de datos de publicaciones resultante contiene información -entre otras- de las categorías temáticas de ISI para cada una de laspublicaciones, lo que resulta esencial en la aplicación del modelo detallado anteriormente. En total, la búsqueda identificó 5751 investigadores con publicaciones y 82.538 publicaciones con 105.544 publicaciones conjuntas entre investigadores. Aunque todos los artículos se publicaron en la facultad de ingeniería, podemos hallar 183 categorías temáticas ISI diferentes asociadas a los mismos.

Con el fin de monitorizar el desarrollo de la temática investigadora en el Reino Unido, examinamos el desarrollo de cinco grandes categorías temáticas. Nos centramos exclusivamente en categorías temáticas primarias, ignorando en esta primera parte las secundarias. Las cinco áreas son Ingeniería Eléctrica y Electrónica, Ciencia de Materiales Multidisciplinares, Ingeniería Biomédica, Nanociencia y Nanotecnología e Inteligencia Artificial. En la Gráfica 1 se representan la gráfica de trayectoria. El eje horizontal muestra el año de publicación. El tamaño del nodo representa el número de publicaciones en un área o campo, mientras que el eje vertical indica el relativo aumento o disminucióncomparado con la aparición anterior del campo. 

La gráfica muestra la fluctuación entre campos, y especialmente la disminución en Ciencia de Materiales Multidisciplinar como área temática primaria. Más adelante veremos cómo algunas áreas temáticas se han podido establecer por sí mismas como áreas de investigación primarias, como es el caso de la Ingeniería Biomédica e Inteligencia Artificial. Pero sobre todo, lo que la gráfica de descripción parece sugerir es que hay un aumento tanto en los campos de investigación como en la diversificación. Mientras que el número de publicaciones aumenta en todos los campos, su posición relativa cambia si la comparamos con los cambios habidos en otros campos. La gráfica respalda la idea de que los ámbitos de investigación aparecen principalmente debido a la especialización y el desarrollo tecnológico. Aunque no podemos observar el caso de la desaparición total de un área temática, se puede marginar o degradar a un área de investigación secundaria.

Gráfica 1. Diagrama de Trayectoria (Workbench de SiSOB)

Gráfica 1. Diagrama de Trayectoria (Workbench de SiSOB)

En Segundo lugar, queríamos hacer un seguimiento del desarrollo de la temática de investigación usando temas de investigación primarios y secundarios y averiguar cómo se diversifican o surgen las categorías temáticas a lo largo del tiempo. Cada artículose clasificaporuna o más categorías temáticas. Esta información de las categorías temáticas se utiliza para construir una red de coocurrencia por cada año, para después extraer series de términos altamente correlacionados mediante el uso de técnicas de Análisis de Redes Sociales (por ejemplo, el método Louvain para la detección de comunidades o temas). Finalmente se lleva a cabo un proceso de unión para poder establecer qué categorías temáticas se correlacionan en años consecutivos produciendo trayectorias. En la Gráfica 2, la metáfora muestra trayectorias diferentes para el caso de la Ingeniería en el Reino Unido para los años comprendidos entre 1985 y 2007. El eje X representa los años de publicación, y para cada año (columna) se ha detectado un conjunto de temas (representados mediante rectángulos de color). El tamaño de cada rectángulo es proporcional al tamaño de la categoría temática con la que se relaciona. Por ejemplo, en el año 1985, se detectaron las categorías temáticas de ciencia Medioambiental (verde claro), Materiales de Construcción y tecnología de edificios (azul), Cirugía (azul claro), Ingeniería (naranja), Física (verde) y Sistemas de Automatización y control. A partir de este momento, cada categoría se monitoriza mediante las publicaciones científicas. 

Gráfica 2. Trayectorias temáticas para la Ingeniería en el Reino Unido desde 1985 a 2007

Gráfica 2. Trayectorias temáticas para la Ingeniería en el Reino Unido desde 1985 a 2007

Para interpretar el diagrama nos centramos en la trayectoria de la Ingeniería (naranja, Gráfica 3). Esta trayectoria produce varias líneas de investigación diferentes (no interdisciplinares) en los primeros años analizados, y desde el año 1998 en adelante, estas trayectorias diferentes producen publicaciones altamente multidisciplinares. De hecho, la última parte de la trayectoria es compartida a su vez por otras como  Ciencias Medioambientales, Sistemas de Automatización y control, Física y Cirugía.

Gráfica 3.Trayectoria de Ingeniería

Gráfica 3.Trayectoria de Ingeniería

Estudio de Caso 2. Desarrollo de la producción científica en entornos locales: el caso de la biotecnología en Andalucía (España)

En este estudio se muestra una metodología sencilla para observar las líneas de investigación de una región durante un periodo de tiempo basándonos en su producción científica. (Véase D8.4 para más detalle). Estas líneas de investigación se modelan como trayectorias para poderse mostrar en el diagrama de Trayectorias de SiSOB. Como primer paso, se detectan los temas altamente relacionados sobre los que se lleva a cabo una investigación, produciendo temas. A continuación, los temas se unen de acuerdo a los temas comunes que comparten, produciendo así trayectorias. Finalmente, las trayectorias se visualizan en un diagrama potente pero fácil de usar. Esta metodología permite a los responsables de la toma de decisiones mejorar sus decisiones en torno a, por ejemplo, dónde y cuánto invertir en estas líneas de investigación.

Estos casos de estudio tienen en cuenta los artículos de mayor relevancia publicados en revistas indexadas en la categoría de “Biotecnología y Microbiología” del Journal Citation of Reports (JCR) (Revista de Citación de Informes) perteneciente al Institute of Scientific Information (ISI) (Instituto de Información Científica), desde 2004 a 2010 por,al menos, una institución andaluza. A partir de esta serie datos (uno por año), seguimos un proceso que se describe mejor en tres fases: detección de los temas de publicación, conexión temporal de temas y visualización y análisis de trayectorias.

En la primera fase, se realiza por cada año una red basada en la coocurrencia de palabras clave en artículos. A continuación, por cada red, se aplica un algoritmo de detección de comunidades. Dichas comunidades contienen series de palabras clave altamente correlacionadas que forman temas. En la segunda fase se procede a la conexión de los temas entre redes. Este proceso se basa en relacionar a esas comunidades consecutivas que cumplen dos condiciones: el tema contiene suficientes elementos (por ejemplo, se descartan comunidades débiles) y el conteo de palabras clave compartidas por los temas es lo suficientemente alto (por ejemplo, sólo se consideran conexiones fuertes). Este proceso genera una nueva red de trayectorias que contienen información sobre cada tema (por ejemplo, número de tópicos en un tema o número de artículos asociados) y cada unión.

El trazado de trayectorias resultante para nuestro estudio de caso se representa en la Gráfica 4. Como ya se comentó anteriormente, el tiempo se representa en el eje x mientras que los temas detectados en cada año se representan mediante rectángulos. La longitud de cada rectángulo representa el número de artículos relacionados (por ejemplo, la producción científica) con cada uno de ellos en su correspondiente año. La metáfora muestra cómo los temas se relacionan en el tiempo.

Gráfica 4. Trayectorias detectadas en Andalucía en el área de Biotecnología (2004-2010)

Gráfica 4. Trayectorias detectadas en Andalucía en el área de Biotecnología (2004-2010)

A simple vista, el diagrama muestra que la producción científica en Biotecnología en Andalucía ha aumentado en los últimos años (la suma del tamaño de los rectángulos por año es mayor en los últimos años que al principio), así como el número de trayectorias (líneas de investigación). El diagrama responde a esta cuestión de orden general, pero permite también examinar con detalle cada trayectoria.

Por ejemplo, esta metáfora puede contribuir a la detección de temas de actualidad beneficiosos, que son los que corresponden a los rectángulos más amplios al final de las trayectorias (año 2010). Entre otros están el “Crecimiento” (“Growth”)(en verde), “Modelos” (“Models”)(en amarillo claro), “Degradación” (“Degradation”)(en rosa), “Bacterias” (“Bacteria”) (en marrón claro) y “EscherichiaColi” (en rosa claro). Los primeros tres temas aparecen en las trayectorias largas (desde 2004) y además pertenecen a líneas de investigación consolidadas, mientras que los dos últimos temas se encuentran en trayectorias bastante más recientes (comenzaron en 2009) que podrían convertirse en líneas de investigación productivas. Por otra parte, cualquiera puede interesarse por saber que trayectorias están a punto de desaparecer, que son aquellas que se han formado recientemente (desde 2009) y con una producción decreciente (“in vitro” -en rojo- y “células mamarias”-en amarillo-).

Además, se pueden inspeccionar los componentes de cada trayectoria. En la Gráfica 5 se destaca una clara línea de investigación. Comenzó en 2007 basándose en temas sobre la “degradación” (rectángulo rosa a la izquierda) con una producción científica de 7 artículos en la región.  Después, en 2008 la trayectoria se desvió a términos relacionados con la “Fermentación” (caja verde), y contenía 51 artículos publicados. En el año 2009 la producción científica aumentó hasta los 92 artículos del mismo tema y, finalmente, en el año 2010 la trayectoria se dividió en dos nuevas líneas de investigación: una centrada en “Modelos” (amarillo claro) y otra en “Degradaciones” (rosa) con 40 y 61 artículos publicados respectivamente. 

Gráfica 5. Evolución de una trayectoria bien establecida

Gráfica 5. Evolución de una trayectoria bien establecida

Esta metáfora ofrece también la oportunidad de responder a preguntas más complejas, por ejemplo, saber cuántas líneas de investigación ha producido un tema. Para ello, el analista sólo tiene que seleccionar el tema deseado y ver las trayectorias destacadas. En la Gráfica 6 (izquierda), seleccionamos “Temperaturas” en 2004 y la herramienta de visualización destacaba un total de 5 líneas diferentes de investigación, lo que nos permite analizar el efecto de este tema inicial  a lo largo del tiempo. Por otra parte, cualquiera puede tener interés por saber la composición de un tema, lo cual se representa en la Gráfica 6 (derecha), donde seleccionamos “Productos” en 2010 y aparecen destacadas las tres trayectorias que componen esta línea de investigación.

Gráfica 6. Temas extendidos (izquierda) y colapsados (derecha)

Gráfica 6. Temas extendidos (izquierda) y colapsados (derecha)

 

 

Finalmente y para generalizar en torno a estos últimos aspectos, la metáfora permite saber la contribución de un tema, es decir, estudiar qué trayectorias han construido un tema y cómo se extienden muchas de ellas. La Gráfica 7 muestra que en 2007 el tema que contenía tópicos relacionados con “Aguas” (comunidad violeta en el centro) se ha formado por tres trayectorias, y produce otras tres líneas de investigación en 2008.

Gráfica 7. Contribución de los temas a las trayectorias

Gráfica 7. Contribución de los temas a las trayectorias

 

Conclusiones

 Como se ha ilustrado en los estudios de caso, la representación temporal de datos relacionales (por ejemplo, datos de publicaciones científicas) en los diagramas de trayectoria permiten a los analistas extraer resultados descriptivos instintivamente además de ofrecer una interfaz amigable pero potente al mismo tiempo que permite obtener conclusiones sin apenas esfuerzo. Los diagramas de trayectorias se aplican al Workbench de SiSOB permitiendo a éste aceptar redes temporales obtenidas a partir de datos relacionales como input. El resultado es un entramado en el que se presentan las entidades y sus relaciones (que producen a su vez trayectorias)

Esta metáfora podría tener mayores repercusiones si los responsables de lastomas de decisión las utilizaran para llevar a cabo sus tareas (por ejemplo conducir los recursos según las tendencias en la productividad científica de una región; en el último caso de uso una posible decisión podría aumentar la inversión en temas relativos al “Crecimiento”, “Modelos”, “Escherichia Coli”, “Degradación” y “Bacterias” para la región de Andalucía.

 

Raúl Fidalgo, University of Málaga
Cornelia Meissner, Fondazione Rosselli 

 

No comments yet

Leave a comment