Skip to content

Automatic compilation of publications from Spanish and British universities / Recopilación automática de publicaciones en universidades españolas y del Reino Unido

May 21, 2012

The present work describes the process of an automatic compilation of publications collected by Thomas Reuter’s Web of Knowledge for all the Spanish and British universities over the period of time between January 1994 and May 2012. This information can be further processed to obtain quality indicators of different universities.

Web of Knowledge, later on called WOK, is a subscription service which provides universities and researchers with a powerful search engine of articles from different areas. Although the service is mainly oriented towards locating articles on specific topics, like research support, it can be also used to find articles using other criteria, such as author’s name, date, journal, or what is of particular interest to us, institution.

The search engine can be accessed at http://apps.webofknowledge.com, but you must subscribe to make use of it. The access can be individual, via the user’s IP address, or institutional via a range of valid IPs.

To search for institutions you must fill in the “address” field. The result is a series of websites linked to one another. Each article retrieved in the search includes the following information: title, authors, source (issue, volume, pages), date, and the number of citations.

To obtain the data that can be seen in this paper, we have used a robot called Slavy. As a result, we have been able to automate the complex process of authentication, and obtained a powerful tool for browsing through the results and extracting data. At all times, we have tried to avoid unnecessary loading of websites and wait a reasonable time between queries so as not to affect other users’ work.

Arquitectura del crawler

The data recovery script (crawler) has been implemented in python language using Slavy library. It contains 58 lines of code, 24 of which correspond to the definition of information extractors, while 13 to the query function for each university, and 21 to initialization, authentication and results grouping

Here we summarize the steps taken in this work. First, information extraction expressions were defined for the pages with the results (24 code lines in Python language), taking into account that the extraction process in Slavy is defined as a set of regular expressions indicating the fragments of the original document that have to be extracted. These fragments are also labelled with a field name. Next step consisted in importing and initializing Slavy (1 code line). Then, the list with the names of the universities to be consulted was loaded. 77 names were loaded for Spain (some universities had two terms of search due to the existence of different co-official languages) and 122 for United Kingdom (6 code lines). Furthermore, the slot of time for the queries was also configured (2 code lines) and the authentication in WOK was also made (4 code lines). Once this process had been finished, the robot was configured in polite mode (1 source code) and for each query term (i.e. each university), the retrieval procedure was invoked and all the results were summarized (3 code lines). Finally, the results were formatted and stored in a hard disk (3 code lines).

To debug the script we used a Spanish university with few publications so that the impact on WOK users would be minimal.
In the case of Spain, the complete process took 3 hours, however, we should bear in mind that the polite mode caused a forced random delay of 1 to 5 seconds every 1270 queries. These queries returned 57972 publication records. Without the delay, the process would have taken 2 hours.

This work has laid the foundations for a comparative study of the Spanish and British universities based on the number of publications in high-impact journals, using automated information retrieval methods. These procedures can be repeated periodically (for instance, annually) in order to analyze the improvement of indicators and scientific progress in different universities. The information obtained in the process could be used to prepare a ranking of universities. This should be done by weighting the number of researchers in each university to avoid a bias in favour of the large ones.

Slavy proved to be crucial in the development of the study as it helped us to focus on the most important aspects of the problem at hand, without having to worry about secondary issues like http protocol, cookie-based authentication, and problems related to information extraction and searching results.

Francisco Serradilla

El presente trabajo aborda el proceso de recopilación automática de las publicaciones recogidas por el servicio “Web of Knowledge” de Thomson Reuters, para todas las universidades españolas y del reino unido en el periodo 1/1994 – 5/2012. Estos datos forman la base documental para una posterior obtención de índices de calidad de las diferentes universidades.

“Web of Knowledge”, en adelante WOK, es un servicio que a través de subscripción proporciona a universidades e investigadores un potente buscador de artículos científicos de diversas áreas. Aunque está principalmente orientado a la localización de artículos que traten de un tema determinado como apoyo a las tareas de investigación, puede también utilizarse en las búsquedas otros criterios como el nombre del autor, la fecha, la revista o, lo que nos será útil en este trabajo, la institución.

Se accede al sistema en la dirección http://apps.webofknowledge.com, aunque el servicio sólo está disponible bajo suscripción. La validación del acceso puede ser individual, mediante la IP del ordenador que accede, o bien puede ser institucional, utilizándose en este caso el rango de IPs válidas.

Al realizar una búsqueda, por ejemplo por institución, mediante el campo “Address”, el sistema devuelve páginas encadenadas a través de botones de acceso a la siguiente página. Para cada artículo recuperado en la búsqueda, se incluye información de título, autores, fuente (incluyendo número, volumen y páginas), fecha y número de citas.

Para la obtención de los datos que se muestran en este artículo se ha utilizado el robot slavy, programado específicamente para la tarea, lo que permite automatizar el complejo proceso de autentificación, y además proporciona potentes herramientas para la navegación a través de las páginas de resultados y la extracción de los campos de interés. Para que los datos obtenidos fueran lo más significativo posible, en todo momento se ha intentado ser respetuoso con el servicio, evitando la recarga innecesaria de páginas y esperando un tiempo prudencial entre consultas para que el servicio a otros usuarios no se viera afectado.

Arquitectura del crawler

El script de recuperación de datos (crawler, la arquitectura del crawler se muestra en el gráfico 1) se implementó en lenguaje python utilizando la librería slavy. Consta de 58 líneas de código, de las cuales 24 corresponden a la definición de los extractores de información, 13 a la función de consulta para cada universidad y 21 de inicialización, autentificación y agrupación de resultados.

Los pasos realizados en la investigación se presenta en este artículo pueden concretarse de la siguiente manera. En un primer momento se definieron las expresiones de extracción de la información para las páginas de resultados (24 líneas en python). Teniendo en cuenta que la extracción en slavy se define como un conjunto de expresiones regulares que indican los puntos del documento original en los que hay que empezar a cortar información y en los que hay que terminar de cortarla, asignando a cada fragmento obtenido un nombre de campo. El siguiente paso consistió en la importación e inicialización slavy (1 línea). Después de lo cual, se cargó la lista de universidades a consultar, siendo de 77 términos en España (algunas universidades tienen dos términos de búsqueda debido a las múltiples lenguas oficiales) y 122 universidades en el Reino Unido (6 líneas). Del mismo modo, se asignó el rango de fechas de búsqueda (2 líneas) y se realizó la autentificación en el sistema WOK (4 líneas). Una vez completado este proceso, se puso al robot en modo “educado” (polite) (1 línea) y para cada término de consulta (universidad) se llamó a la función de recuperación y se integranron los resultados (3 líneas). Por último se formatearon los resultados y se guardaron en un disco (3 líneas)

Para la depuración del script se utilizó una universidad española con pocas publicaciones, de modo que el impacto sobre los usuarios del WOK fuera mínimo. Una vez que el script realizaba correctamente su trabajo, se programaron dos sesiones de obtención de datos; una para las universidades españolas y otra para las del Reino Unido.

Para el caso español, el proceso completo de extracción se realizó en 3 horas, aunque teniendo en cuenta que el modo “polite” introdujo una demora forzada aleatoria de entre 1 y 5 segundos tras cada una de las 1270 consultas efectuadas. De estas consultas se obtuvieron un total de 57972 registros de publicaciones. De no haberse efectuado la espera aleatoria (asumimos un promedio de 3 segundos) el proceso completo se habría realizado en unas 2 horas.

En este trabajo ha sentado las bases para diseñar un estudio comparativo de universidades españolas y del Reino Unido basado en el número de publicaciones en revistas de impacto, utilizando procedimientos automáticos de recuperación de información a partir de bases de datos bibliográficas. Estos procedimientos pueden ser repetibles periódicamente (por ejemplo anualmente) para analizar la mejora de indicadores y el progreso científico de las distintas universidades. También permite la elaboración de un ranking de universidades utilizando la información obtenida, aunque habría lógicamente que ponderar por el número de investigadores contratados en cada universidad para evitar el sesgo de universidades grandes.

El uso del robot software slavy ha sido clave en el desarrollo, ya que ha permitido centrarnos en los aspectos específicos del problema y no tener que tratar con asuntos de bajo nivel como la gestión del protocolo http, autentificación basada en cookies y los problemas derivados de la extracción de la información y la navegación interna a través de las páginas de resultados.

Francisco Serradilla

No comments yet

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: