En el campo de las Humanidades Digitales existen cada vez más enfoques cuantitativos y científicos para analizar y estudiar los diferentes géneros literarios. Sin embargo, el caso de la poesía es especial, ya que hay muchos menos estudios cuantitativos y herramientas disponibles para este género en particular. En este sentido, el procesamiento de los corpus poéticos disponibles digitalmente es difícil y consume mucho tiempo. Con el fin de dar solución a este problema, el equipo de POSTDATA ha desarrollado Averell, una herramienta de código abierto que permite descargar corpus poéticos de distintas fuentes y formatos y combinarlos en JSON y CSV.
En la página de github de POSTDATA se puede encontrar toda la documentación necesaria para su instalación:
https://github.com/linhd-postdata/averell
¿Cómo se utiliza?
Después de instalarla, lo primero será ver los corpus disponibles en el catálogo para decidir con cual nos interesa trabajar, esto se hará introduciendo el comando «averell list» en nuestra terminal.
En la actualidad contamos con el siguiente catálogo de 5 corpus:
Seleccionamos y descargamos los corpus en los que estemos interesados mediante el comando «download».
Ejemplo: «averell download 2 3 4 –output mycorpora»
Este comando descargará los corpus con ids 2, 3 y 4 en la carpeta «mycorpora» y generará un fichero JSON por cada poema del corpus. Estos ficheros JSON se encuentran dentro de la carpeta de cada corpus en «averell/parser» y a su vez dentro de la carpeta del autor del poema que corresponda.
Averell permite seleccionar la granularidad del dataset resultante, que será un único JSON con toda la información de las entidades de los corpus seleccionados.
Por ejemplo, ejecutando:
averell export 2 3 –granularity line –corpora-folder mycorpora
obtendremos el fichero «line_2_3.json» dentro de la carpeta «mycorpora» cuyo contenido será la información de todas las líneas de todos los poemas de los corpus con ids 2 y 3.
Extracto de algunas líneas aleatorias de este dataset:
Averell forma parte de las herramientas desarrolladas por el equipo de POSTDATA dentro de la suite PoetryLab, y está ya preparada para añadir corpus públicos nuevos o existentes a su repertorio.