Skip to content

Analysis of high impact research in the biotechnology scientific field and its effects on microblogging social media: a case study

September 23, 2013

Previous and current research in biotechnology has played a role in creating the world that we live in today. But this sector has also some tensions between different applications (e.g., agricultural products). Because of these scientific uncertainties, society might be more or less receptive to new products or research from this industry. If the research results in the field bring benefits for the society, they might be reflected in the media. Thus, one can consider several sources of social data information (e.g., news, forums, blogs, microblogs, etc.) as an output for measuring the impact of science in society.

In the study we tried to answer the following questions: Is it possible to automatically detect different themes in a research field by monitoring its scientific production? Can relevant subsets of these themes be easily selected as productive and/or as multidisciplinary in order to perform a better analysis? What is the magnitude and influence of these themes in the social media? Is the general opinion of people in the social media positive, negative or neutral regarding a theme or group of topics?

How to do this research?

In our study, the processes that try to answer the previous questions need as input scientific article databases containing the most relevant scientific papers (i.e., Journal Citation Reports, JCI, from the Institute of Scientific Information, ISI, for the category “Biotechnology and Applied Microbiology” in year 2011). The analysis performed on these data is based on its articles (co-citation of articles) and the keywords that appear in them (co-occurrence of keywords). By analysing the networks of keywords, we will obtain groups of highly related keywords (that we call themes) in order to see what is being researched in a specific time. Within each theme, we used several techniques of network analysis to obtain the list of relevant sets of keywords in order to measure their influence and opinion generated by social media users. The latter is done by analysing the comments generated about the sets of keywords induced in one of the most relevant social media network: Twitter

kw11_at_least_5_bis

Figure 1. Mapping of communities in keywords network on 2011
Figure created with VOSViewer (Van Eck & Waltman, 2010; http://www.vosviewer.com)

  A key: the keywords network

The keywords network is built, first, by assigning each vertex to a keyword, and then linking vertices if their corresponding keywords appear in the same article. The strength of these links depends on the number of times this tie is found in the database. This procedure will build an undirected network.

In order to obtain themes, we applied a community detection algorithm called “the Louvain method”. A total of 21 communities (or themes) were obtained. Figure 1 shows the mapping of communities (themes) on keywords. From the 21 themes detected, 8 of them are large, relevant and well defined (DNA – corresponding to yellow nodes, Cells – cyan nodes, Genes – red nodes, Plants –brown nodes, Infections – magenta nodes, Degradations – dark blue nodes, Biomass –green nodes – pink nodes) while thirteen are little and isolated (e.g., Crohn’s disease and ulcerative colitis that is composed by these two keywords – see the two little dark green nodes at the bottom of Figure 1

Then we select keywords as relevant from each theme (keywords with high degree). In addition, the combination of relevant keywords leads to more specific results (we limited the size of this keyword sets to 2 to avoid a combinatorial explosion).

Social Media Information and analysis of social impact

As commented before, Twitter is our source for media information. This microblogging site is composed by text messages (called tweets), with at most 140 characters, which includes other metadata (author, entities, hashtags, etc.). Any element in the list of relevant set of terms can be used as search term. Our searches are limited to the year 2012. Once the sets of tweets are cleaned, they are passed to an automated machine learning tool for being classified as ‘positive’, ‘negative’ or ‘neutral’ depending on its semantic background.

Results for some relevant set of keywords can be seen in Figure 2. Each chart contains the number of tweets retrieved by the searched set of keywords as well as the proportion of neutral, negative and positive tweets. With this metaphor the analyst may produce conclusions fast and efficiently.

figura 2

Looking to the future

A framework for linking scientific research and innovation fields with social media resources has been developed.

Our approach is able to detect themes by using well-known techniques for extracting communities from keywords networks, and characterize them by using social network analysis. Using this methodology, the biotechnology research field was composed by eight well defined themes in 2011, as well as, some promising themes from the social point of view have been detected. We also saw that our methodology provides not only social and scientific information about themes but also referred to its components (keywords or pair of keywords). Themes and subsets of relevant keywords can be extracted easily in order to measure the impact in microblogging social media. The tool is able to quantitatively measure this impact by using machine learning and text mining tools that are able to classify text with polarity opinion (positive, negative or neutral).

Despite the results shown, one may think that the research theme “UC & CD” has neutral or even a skewed negative influence in the users of the social media microblog. However, we must think that some tweets refer to the general diseases, not to research. As future work, we think that messages that are not related to research should be filtered.

An interesting future line would be to analyse the temporal dimension together with the research/innovation and social information retrieval from microblogging media. By doing that, we would be able to follow trajectories of themes through time and its influence in social media.

Personnel involved: Raúl Fidalgo, Beatriz Barros (UMA), Eduardo Guzmán (UMA), Daniel López (UMA), Rodolfo Barrere (RYCIT)

diseminación

Análisis de la investigación de gran impacto en el área científica de la biotecnología y sus efectos en  las redes sociales de microblogging: estudio de caso

Tanto la investigación en biotecnología llevada a cabo desde sus inicios hasta la actualidad ha desempeñado un papel importante en la creación del mundo en que vivimos. Pero este sector genera, tensiones además de cambios sustanciales entre sus diferentes aplicaciones o áreas (por ejemplo, en los productos agrícolas). Debido a estas incertidumbres científicas, la sociedad podría ser más o menos receptiva a la hora de aceptar nuevos productos o procesos de investigación procedentes de dicho sector: si los resultados en el área son beneficiosos para la sociedad, podrían verse reflejados en los medios de comunicación. Así pues, la información  publicada en medios sociales provenientes de varias fuentes (por ejemplo las noticias, foros, blogs, microblogs, etc.) podría servir como conclusión para medir el impacto de la ciencia en la sociedad.

En este estudio nos proponemos dar respuesta a estas preguntas: ¿es posible detectar de forma automática los diferentes temas de un área de investigación controlando la producción científica surgida a partir de los mismos? ¿Pueden seleccionarse fácilmente subcategorías de estos temas como productivas y/o multidisciplinares para así poder realizar un mejor análisis? ¿Cuál es la magnitud e influencia de estos temas en los medios sociales? ¿Es la opinión general de la gente en los medios positiva, negativa o neutral con respecto a un tema o grupo de ideas?

¿Cómo hacer esta investigación?

En nuestro estudio, los procesos que pretenden dar respuesta a las preguntas anteriores necesitan como datos iniciales bases de datos de artículos científicos que alberguen aquellos documentos de mayor relevancia (v.g., Journal Citation Reports, JCI, del Institute of Scientific Information, ISI, para la categoría “Biotechnology and Applied Microbiology”, año 2011). El análisis realizado con estos datos se basa en sus artículos (referencia conjunta de artículos) y las palabras clave que aparecen en los mismos (presencia conjunta de palabras clave). Al analizar las redes de palabras clave, obtendremos grupos de estas palabras muy relacionadas entre sí (que nosotros llamamos temas), de manera que así podremos saber lo que se investiga en un momento dado. Dentro de cada tema, utilizamos varias técnicas de análisis de redes con el fin de obtener la lista del conjunto de palabras clave relevantes para así medir tanto la influencia como la opinión generada por los usuarios de dichos medios. Esta última se hace analizando los comentarios generados en torno al conjunto de palabras clave introducidas en una de las redes sociales más influyentes: Twiter

kw11_at_least_5_bis
Imagen 1. Mapeo de comunidades en la red de palabras clave en 2011

Un objetivo: la red de palabras clave

La red de palabras clave se realiza asignando en primer lugar a cada vértice una palabra clave para después unir dichos vértices si sus palabras clave correspondientes aparecen en el mismo artículo. La fuerza de estos enlaces depende del número de veces que se encuentre el vínculo en la base de datos. Dicho proceso dará lugar a un grafo no dirigido.

Para la obtención de los temas aplicamos un algoritmo de detección de comunidades llamado “el método Louvain”. Se obtuvieron un total de 21 comunidades (o temas). La imagen 1 muestra el mapeo de comunidades (temas) en palabras clave. De los 21 temas detectados, 8 son amplios, relevantes y claramente definidos (el ADN– que corresponde a los nodos amarillos, Células-nodos azul claro, Genes– nodos rojos,  Plantas– nodos marrones, Infecciones– nodos magenta, Degradaciones– nodos azules oscuro, Biomasa– nodos verdes y Biosensores– nodos rosas) mientras que 13 son pequeños y aislados (por ejemplo, la enfermedad de Crohn y la colitis ulcerosa, compuesta por estas dos palabras clave – véase al fondo de la imagen 1 los dos nodos pequeños color verde oscuro).

Seleccionamos a continuación las palabras clave adecuadas de cada tema (palabras clave de alta relevancia). Es más, combinar palabras clave adecuadas produce resultados más específicos (limitamos el número de estos conjuntos de palabras clave a 2 para evitar la explosión combinatoria).

Información de los Medios y análisis del impacto social

 Como se ha comentado con anterioridad, Twiter es nuestra fuente para la obtención de datos. Este sitio abarca mensajes cortos de texto (llamados “tweets”) de hasta 140 caracteres, incluyendo otros metadatos (autor, entidades, hashtags, etc.). Cualquier elemento de la lista del conjunto de términos relevantes puede usarse como término de búsqueda. Nuestras búsquedas se limitan al año 2012. Una vez se limpia la serie de tweets, éstos pasan por una herramienta de aprendizaje automático para que sean clasificados como “positivos”, “negativos” o “neutrales”, dependiendo de su origen semántico.

La imagen 2 muestra los resultados para una serie de palabras clave relevantes. Cada gráfico contiene el número de tweets recuperados a partir de las búsquedas de palabras clave así como la proporción de mensajes cortos o tweets neutros, negativos y positivos. Usando esta metáfora, el analista puede ofrecer conclusiones de forma rápida y eficaz. 

figura 2

Mirando al futuro

 Se ha desarrollado un marco que posibilita enlazar la investigación científica y las áreas de innovación con los recursos que ofrecen los medios sociales.

Nuestro enfoque permite detectar temas usando técnicas bien conocidas para la extracción de comunidades a partir de redes de palabras clave y al mismo tiempo caracterizarlos usando el análisis de redes sociales. Al usar esta metodología, el campo de investigación de la biotecnología constaba de 8 temas bien definidos en el año 2011, y además se han detectado  otros temas igualmente prometedores desde el punto de vista social. Observamos también cómo nuestra metodología proporciona no sólo información social o científica referente a los temas sino también a sus componentes (palabras clave o par de palabras clave). Se pueden extraer fácilmente temas y subcategorías de palabras clave relevantes para medir el impacto de los medios de microblogging. La herramienta es capaz de medir cuantitativamente este impacto usando técnicas de aprendizaje automático y de minería de textos capaces de clasificar textos que ofrecen multitud de opiniones (positiva, negativa, neutral).

A pesar de los resultados que se muestran, cabría pensar que el tema de investigación “UC & CD” produce una influencia neutral o incluso parcialmente negativa en los usuarios de la red social estudiada, sin embargo debemos pensar que los tweets o mensajes cortos se refieren a enfermedades en general y no a la investigación. En el futuro, creemos que se deben filtrar aquellos mensajes que no se relacionan con la investigación.

Una interesante futura línea de trabajo podría ser el análisis de la dimensión temporal junto con la obtención de la información tanto social como de la investigación/innovación a partir de los medios sociales. De este modo podríamos seguir la trayectoria de los temas en el tiempo y cómo estos influyen en los medios.

Autores: Raúl Fidalgo, Beatriz Barros (UMA), Eduardo Guzmán (UMA), Daniel López (UMA), Rodolfo Barrere (RYCIT)

No comments yet

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: