Skip to content

Executable Papers and the truth about reusability and knowledge sharing / Executable papers y la verdad sobre la reusabilidad y la transferencia de conocimiento

October 29, 2012

As we have seen in the previous posts, reproducibility (verifying results easily) is convenient and necessary. In fact, we should include reproducibility and reusability among the twelve key properties any research object should possess to be able to meet e-Research requirements.

However, to achieve the most important objective of augmenting the state-of-the-art and reaching true scientific advances, we need to reuse scientific assets. This is of main relevance also for knowledge sharing with companies or start-ups where traditional papers are not the fastest path for efficiently repeating experiments out of labs with increased time pressure or lack of resources. So, these assets (mainly methods and data) should be shared seamlessly for faster reuse.

According to some experts, we should let the method, not the data, flow. This means that methods used in the experiments (we call then workflows) are the ones that flow as shared and reused assets in new experiments. In his way, workflows are verified to be valid and valuable, and thus can be used to obtain new results and new knowledge for everyone.

But is such reusability possible (with these premises) in other disciplines that are not related to IT? Let’s see:

  •   Chemistry: The Blue Obelisk movement promotes the “reusable chemistry via open source software development, consistent and complimentary chemoinformatics research, open data and open standards”.

 

  •    Life Sciences: BioCatalogue, “providing a curate catalogue of Life Science web services”, freely accessible for in-silico reusability of processes, and myExperiment, “a collaborative environment where scientists can safely publish their workflows and in silico experiments, share them with groups and find those of others”.

 

  •    Source Code for Biology and Medicine: “The journal’s aim is to publish source code for distribution and use in the public domain in order to advance biological and medical research. Through this dissemination, it may be possible to shorten the time required for solving certain computational problems for which there is limited source code availability or resources”. Also, all articles published in this journal are accessible online contributing to the Open Access initiative.
  •   Astronomy, Social Sciences, Education and Engineering: Taverna (tightly integrated with myExperiment) is the most extensively used workflow management system. It’s open source, full featured, extensible and scalable and currently used in more than 18 different domains.

Of course, all these examples are based on a common premise: true executable papers need to expose source code of underlying software to allow not only reproducibility, but also auditability of workflow steps through open source and open access to data and research results.

So, to wrap up with an interesting open issue about executable papers, let’s ask the following question: How SISOB Project software could help to write executable papers?

SOURCES:

http://www.scilogs.com/eresearch/
http://eprints.soton.ac.uk/271587/
http://sourceforge.net/apps/mediawiki/blueobelisk/
http://pubs.acs.org/doi/abs/10.1021/ci050400b
http://www.biocatalogue.org/
http://www.myexperiment.org/
http://www.scfbm.org/
http://www.taverna.org.uk/introduction/taverna-in-use/by-domain/

Roberto Aragón

Como vimos en anteriores entradas, la reproducibilidad (verificación sencilla de resultados) es conveniente y necesaria. De hecho, deberíamos incluir reproducibilidad y reusabilidad entre las doce propiedades clave para que un objeto de investigación consiga alcanzar los requisitos de la e-Research.

Sin embargo, para conseguir el objetivo más importante de superar el estado del arte y alcanzar avances científicos verdaderos, necesitamos reutilizar los activos científicos. Esto es de gran relevancia también para la transferencia de conocimiento a nuevas empresas y compañías consolidadas, donde los papers tradicionales no son el camino más rápido para repetir experimentos eficientemente fuera del laboratorio con mayor presión de tiempo y falta de recursos. De este modo, estos activos (principalmente métodos y datos) deberían ser compartidos transparentemente para una reutilización más rápida.

De acuerdo a algunos expertos, deberíamos “dejar que los métodos, y no los datos, fluyan”. Esto significa que los métodos usados en los experimentos (a los que llamamos workflows) son los que fluyen como activos compartidos y reutilizados en nuevos experimentos. De este modo, los workflows son verificados para convertirse en válidos y valiosos, y de este modo ser usados para obtener nuevos resultados y nuevo conocimiento para todos.

Pero, ¿es esta reusabilidad posible (con estas premisas) en otras disciplinas no relacionadas con las TI? Veamos:

  •    Química: El movimiento Blue Obelisk promueve la “química reutilizable a través del desarrollo de software abierto, de la investigación consistente y consolidada en química computacional, los datos y los estándares abiertos”.

 

 

 

  •     Ciencias de la vida: El BioCatalogue, “que provee un catálogo supervisado de servicios web”, libremente accesible para la reutilización de procesos in-silico con myExperiment, “un entorno colaborativo donde los científicos pueden publicar con seguridad sus workflows y experimentos in-silico, compartirlos con grupos y encontrar los de otros”.
  •       Source Code for Biology and Medicine (Código fuente para Biología y Medicina): “El objetivo de la revista es publicar código fuente para la distribución y uso de dominio público para avanzar en la investigación Biológica y Medicina. A través de la diseminación, es posible acortar el tiempo requerido para resolver ciertos problemas computacionales para los que hay una disponibilidad de código fuente y recursos limitados”. Además, todos los artículos publicados por esta revista está accesibles en línea contribuyendo a la inciativa Open Access.
  •    Astronomía, Ciencias Sociales, Educación e Ingeniería: Taverna (estrechamente integrado con myExperiment) es el sistema de gestión de workflows más ampliamente utilizado. Es código abierto, completamente funcional, extensible y escalable y se utiliza actualmente en más de 18 dominios diferentes.

 

Por supuesto, todos estos ejemplos están basados en una premisa común: un verdadero artículo ejecutable debe exponer el código fuente del software subyacente para permitir no sólo la reproducibilidad, si no también facilitar la auditoría de los pasos de los workflows gracias al software abierto,acceso abierto a los datos y a los resultados de la investigación.

Así que, para terminar con una interesante cuestión abierta sobre los artículos ejecutables, hagámonos la siguiente cuestión: ¿Cómo podría el software del Proyecto SISOB ayudar a escribir un artículo ejecutable?

Fuentes:

http://www.scilogs.com/eresearch/
http://eprints.soton.ac.uk/271587/
http://sourceforge.net/apps/mediawiki/blueobelisk/
http://pubs.acs.org/doi/abs/10.1021/ci050400b
http://www.biocatalogue.org/
http://www.myexperiment.org/
http://www.scfbm.org/
http://www.taverna.org.uk/introduction/taverna-in-use/by-domain/

Roberto Aragón
No comments yet

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: