Averell: nueva herramienta de PoetryLab de POSTDATA

En el campo de las Humanidades Digitales existen cada vez más enfoques cuantitativos y científicos para analizar y estudiar los diferentes géneros literarios. Sin embargo, el caso de la poesía es especial, ya que hay muchos menos estudios cuantitativos y herramientas disponibles para este género en particular. En este sentido, el procesamiento de los corpus poéticos disponibles digitalmente es difícil y consume mucho tiempo. Con el fin de dar solución a este problema, el equipo de POSTDATA ha desarrollado Averell, una herramienta de código abierto que permite descargar corpus poéticos de distintas fuentes y formatos y combinarlos en JSON y CSV.

En la página de github de POSTDATA se puede encontrar toda la documentación necesaria para su instalación:
https://github.com/linhd-postdata/averell

¿Cómo se utiliza?

Después de instalarla, lo primero será ver los corpus disponibles en el catálogo para decidir con cual nos interesa trabajar, esto se hará introduciendo el comando «averell list» en nuestra terminal.

En la actualidad contamos con el siguiente catálogo de 5 corpus:

Seleccionamos y descargamos los corpus en los que estemos interesados mediante el comando «download».

Ejemplo: «averell download 2 3 4 –output mycorpora»

Este comando descargará los corpus con ids 2, 3 y 4 en la carpeta «mycorpora» y generará un fichero JSON por cada poema del corpus. Estos ficheros JSON se encuentran dentro de la carpeta de cada corpus en «averell/parser» y a su vez dentro de la carpeta del autor del poema que corresponda.

Averell permite seleccionar la granularidad del dataset resultante, que será un único JSON con toda la información de las entidades de los corpus seleccionados.

Por ejemplo, ejecutando:

averell export 2 3 –granularity line –corpora-folder mycorpora

obtendremos el fichero «line_2_3.json» dentro de la carpeta «mycorpora» cuyo contenido será la información de todas las líneas de todos los poemas de los corpus con ids 2 y 3.

Extracto de algunas líneas aleatorias de este dataset:

Averell forma parte de las herramientas desarrolladas por el equipo de POSTDATA dentro de la suite PoetryLab, y está ya preparada para añadir corpus públicos nuevos o existentes a su repertorio.

#confinaversos: Un proyecto de POSTDATA para el confinamiento

En estos días de confinamiento, la poesía y la música son buena compañía. Las redes sociales se han llenado de creatividad, con los poemas y canciones que comparten personas anónimas, y también conocidas, sobre su experiencia del confinamiento.

El equipo de POSTDATA “Poetry Standardization and Linked Open Data”, está recopilando todos estos poemas y letras de canciones para dar testimonio de esta vivencia colectiva, y poner el conjunto de versos a disposición de todos, para que los podamos disfrutar y se nos haga más llevadera la cuarentena.

Súmate a nuestra iniciativa y ayúdanos a crear este recopilatorio sobre el confinamiento. Envíanos tu poema o canción original, en español o inglés, a través de este link:

#confinaversos

Todo el contenido que recopilemos se podrá consultar en el espacio github de POSTDATA:

https://github.com/linhd-postdata/confinaversos

 

¡Esperamos que lo disfrutéis!

El equipo de POSTDATA

 

POSTDATA “Poetry Standardization and Linked Open Data”: Proyecto financiado por el Consejo Europeo de Investigación (ERC) dentro del programa Horizonte 2020 de la Unión Europea (grant agreement Nº [679528]).

Todos los poemas aportados conservan sus derechos de autor individuales pero son liberados al público en un repositorio GitHub bajo los términos de una licencia CC-BY 4.0.

Historia, sociedad y cultura digital. Reflexiones y nuevas narrativas.

El pasado 11 de febrero se celebró en la Universidad Carlos III de Madrid la jornada Historia, sociedad y cultura digital. Reflexiones y nuevas narrativas. Esta jornada contó con la presencia de Salvador Ros, profesor de la UNED y miembro del LINHD, que participó en la mesa redonda “Nuevos modelos de lectura y escritura: compartir, visualizar, interactuar”, junto con Elena Azofra, profesora de la UNED, y Paul Spence, profesor del King’s College.

En esta mesa redonda se habló de cómo la tecnología influye en los procesos de edición digital y lectura, y se presentaron trabajos de investigación que mostraron estas nuevas tendencias.

Más información en: https://uc3m.libguides.com/c.php?g=674319&p=4812829

 

 

Salvador Ros participa en la Jornada sobre Universidad y Tecnología

El pasado 12 de febrero se celebró un coloquio online de reflexión…

Lanzamiento de la red estratégica INTELE

El martes 18 de febrero se celebró el kick off de la Red INTELE,…

Visita del equipo de CLARIN para organizar su próximo Congreso Anual el Madrid

Nos complace anunciar que CLARIN, la infraestructura europea…

POSTDATA en la Conferencia final de Time Machine en Bruselas

El pasado 17 de febrero se celebró en Bruselas la presentación…

Nueva herramienta desarrollada por el equipo de POSTDATA para spaCy

En POSTDATA usamos la librería de procesamiento de lenguaje…

Entrevista a Elena González-Blanco en #WATTBA Podcast

Elena González-Blanco, Investigadora Principal de POSTDATA,…

Elena González-Blanco, entre los 9 jóvenes emprendedores españoles más influyentes

Elena González-Blanco, Investigadora principal de POSTDATA, fundadora…

POSTDATA asiste al Congreso Anual de CLARIN

Del 30 de septiembre al 3 de octubre tuvo lugar en Leipzig, el…

POSTDATA en la Conferencia "Plotting Poetry 2019"

El equipo de POSTDATA ha estado presente en la Conferencia Anual…