#confinaversos: Un proyecto de POSTDATA para el confinamiento

En estos días de confinamiento, la poesía y la música son buena compañía. Las redes sociales se han llenado de creatividad, con los poemas y canciones que comparten personas anónimas, y también conocidas, sobre su experiencia del confinamiento.

El equipo de POSTDATA “Poetry Standardization and Linked Open Data”, está recopilando todos estos poemas y letras de canciones para dar testimonio de esta vivencia colectiva, y poner el conjunto de versos a disposición de todos, para que los podamos disfrutar y se nos haga más llevadera la cuarentena.

Súmate a nuestra iniciativa y ayúdanos a crear este recopilatorio sobre el confinamiento. Envíanos tu poema o canción original, en español o inglés, a través de este link:

#confinaversos

Todo el contenido que recopilemos se podrá consultar en el espacio github de POSTDATA:

https://github.com/linhd-postdata/confinaversos

 

¡Esperamos que lo disfrutéis!

El equipo de POSTDATA

 

POSTDATA “Poetry Standardization and Linked Open Data”: Proyecto financiado por el Consejo Europeo de Investigación (ERC) dentro del programa Horizonte 2020 de la Unión Europea (grant agreement Nº [679528]).

Todos los poemas aportados conservan sus derechos de autor individuales pero son liberados al público en un repositorio GitHub bajo los términos de una licencia CC-BY 4.0.

POSTDATA en la Conferencia final de Time Machine en Bruselas

El pasado 17 de febrero se celebró en Bruselas la presentación de resultados de la fase preparatoria del proyecto Time Machine. POSTDATA es miembro de esta importante iniciativa cultural, y asistió a dicho encuentro Leire Leguina, Project Manager de POSTDATA.

El proyecto Time Machine, financiado con 1 millón de euros, se ha puesto en marcha recientemente con el objetivo de implementar tecnologías avanzadas de Inteligencia Artificial para extraer y utilizar datos masivos del pasado y poner en abierto el patrimonio cultural de Europa.

El equipo directivo destacó los hitos más importantes conseguidos en los últimos 12 meses, y expuso los próximos pasos a desarrollar para promoverla investigación a gran escala y desarrollar tecnologías estratégicas para extraer y utilizar el Big Data del pasado.

En el pasado año, más de 600 instituciones del mundo de la ciencia y el patrimonio cultural se han unido a este proyecto. Frédéric Kaplan, profesor de Humanidades Digitales de la Escuela Politécnica Federal de Lausana (EPFL) y presidente de Time Machine concluyó: «Es probable que Time Machine se convierta en uno de los sistemas de inteligencia artificial más avanzados jamás construidos. En los próximos años, coordinaremos el desarrollo de una serie de tecnologías mediante proyectos específicos en el marco de Horizonte 2020 y los futuros programas de financiación de la UE».

Para conocer en detalle el Proyecto Time Machine: https://www.timemachine.eu/ 

Número especial de la Revista de Poética Medieval sobre los repertorios poéticos digitales, coordinado por Elena González-Blanco y Helena Bermúdez

La Revista de Poética Medieval acaba de publicar su nuevo número titulado “Los repertorios poéticos digitales: del Medievo a la interoperabilidad”.

Este monográfico, coordinado por las profesoras Elena González-Blanco y Helena Bermúdez, se centra en los recursos poéticos on-line y los diferentes métodos computacionales aplicados al estudio de la poesía.

 La Edad Media es el período en el que se centran la mayor parte de los repertorios digitales de poesía. Dichos repertorios permiten ver cómo cada país, tradición filológica y género literario ha seguido una evolución independiente y particular. Como resultado de ello, el acceso en línea a las colecciones de poesía está muy fragmentado, provocando un problema de incomunicación interlingüística. Sin embargo, gracias a la tecnología y a la inclusión de los big data y de los algoritmos se puede abordar esta problemática desde un punto de vista digital, haciendo que los propios datos en los que los ordenadores convierten a los textos y a los corpus permitan volver a hacer estas tradiciones «interoperables».

Este monográfico de La Revista de Poética Medieval presenta algunos de los repertorios digitales que recogen la variedad, riqueza y singularidad de la poesía medieval europea a través de sus diferentes evoluciones.

Esta es también la perspectiva que se aborda en el proyecto europeo de investigación Poetry Standardization and Linked Open Data (POSTDATA), en cuyo marco se desarrolla el contenido de este monográfico.

Para más información:

https://recyt.fecyt.es/index.php/revpm

 

Sobre Revista de Poética Medieval:

Fundada en 1997, la Revista de Poética Medieval es una publicación anual dedicada al estudio de la poética y a la reflexión teórica y crítica sobre la literatura medieval hispánica e internacional. Sus páginas están abiertas a investigaciones originales de alta calidad científica. La Revista de Poética Medieval provee acceso libre a su contenido y está indexada en numerosas bases de datos que garantizan la alta calidad de la publicación como Latindex o ERIH Plus.

Nueva herramienta desarrollada por el equipo de POSTDATA para spaCy

En POSTDATA usamos la librería de procesamiento de lenguaje natural para Python, spaCy. Se está convirtiendo en un estándar en la industria, pero, aunque generalmente funciona bien, todavía hay que pulir un poco el soporte para español.
Un problema que nos surgió con esta librería fue que no detecta bien los pronombres clíticos (por ejemplo, en palabras como «dímelo», «piérdete» o «hazme»). Esto se debe a que spaCy usa un modelo de datos para español que no ha sido entrenado de manera apropiada para este tipo de palabras.
Para solucionar este problema hemos estado trabajando en una extensión para spaCy que nos permite una identificación y separación apropiada, tanto de la palabra raíz, como de sus sufijos. Esta herramienta open source ha sido liberada y se puede instalar muy fácilmente desde python con un simple «pip install spacy_affixes». En la página de github del proyecto se puede encontrar toda la documentación necesaria:

https://github.com/linhd-postdata/spacy-affixes

¿Cómo funciona?
El funcionamiento es muy simple: nos bajamos archivos de reglas para afijos (que obtendremos de la herramienta Freeling http://nlp.lsi.upc.edu/freeling/index.php/node/1 ) y tras implementar sus reglas en python, añadimos este nuevo comportamiento al «pipeline» (el flujo de trabajo) de spaCy. Gracias a esto obtenemos unos resultados mucho más precisos de los que obtiene spaCy en esta tarea. Es una pieza clave de las herramientas desarrolladas por el equipo de POSTDATA dentro de la suite de PoetryLab y nos enorgullece mucho poder liberarla y compartirla con el resto de la comunidad NLP. Es nuestro granito de arena en un campo en el que hay tan pocos recursos libres para español, como es el de procesamiento del lenguaje natural.

 

Entrevista a Elena González-Blanco en #WATTBA Podcast

Elena González-Blanco, Investigadora Principal de POSTDATA, ha participado en el Podcast #WATTBA para hablar sobre tecnologías del lenguaje e inteligencia artificial: «Estamos en la etapa de las interfaces conversacionales, donde pasamos de la pantalla a la interfaz de voz». También ha hablado sobre la digitalización de las Humanidades y el proyecto europeo de humanidades digitales POSTDATA.

Entrevista completa en el siguiente enlace:

https://www.ivoox.com/wattba-elena-gonzalez-blanco-tenemos-desterrar-la-audios-mp3_rf_44664297_1.html

Presentación de la investigación H2020 DESIR-DARIAH «Digital Humanities Research in Spain»

El Laboratorio de Innovación en Humanidades Digitales y POSTDATA han participado en la Asamblea General de DARIAH, celebrada en Zagreb los días 6 y 7 de noviembre. En dicha asamblea se han presentado los resultados preliminares del proyecto H2020 DESIR-DARIAH «Digital Humanities Research in Spain».

La investigación, coordinada por Salvador Ros, ha sido desarrollada por los investigadores Maurizio Toscano y Aroa Rabadán. En la presentación se ha destacado la metodología empleada por ambos investigadores, que incluye datos referidos a los investigadores, proyectos, recursos, revistas y formación en HD siguiendo diferentes líneas temáticas como su distribución geográfica, líneas de investigación frecuentes y la financiación obtenida por los proyectos en España. De especial interés ha sido la exposición de datos como el número de investigadores en HD con respecto a su género—hombres (51 %) y mujeres (49 %)—y la proporción de todos ellos en relación a los investigadores de las Humanidades genéricas—hombres (58%) y mujeres (42 %)—en el año del último estudio realizado (2016).

El estudio completo se presentará en un informe donde se recogerán todos estos datos revisados y ampliados.

 Más información sobre el estudio en: DARIAH-EU.

Presentación de POSTDATA: «Una red de ontologías para la poesía europea»

La ponencia «Una red de ontologías para la poesía europea» de Mª Luisa Díez Platas, investigadora de POSTDATA, fue presentada en el IV Congreso de Humanidades Digitales y Patrimonio Cultural celebrado en Toledo, del 23 al 25 de octubre de 2019.

En dicha ponencia se mostró el proceso de construcción de la red de ontologías a partir de un modelo conceptual. Esta red conceptualiza y estructura la información sobre todos los aspectos del conocimiento relacionados con la poesía europea. Asimismo, se han presentado las técnicas y herramientas utilizadas para la generación y publicación de las ontologías de la red de ontologías. Hay cuatro ontologías ya publicadas:

Para más información sobre la red de ontologías de POSTDATA, visite:

http://postdata-prototype.linhd.uned.es/ontology.php

 


Illustration 2. Ontology Network Diagram

 

Presentación de la investigación “Impacto de las Humanidades Digitales en España” de H2020 DESIR-DARIAH

El Laboratorio de Innovación de Humanidades Digitales y POSTDATA participan en el 4º Congreso de la Asociación de Humanidades Digitales Hispánicas que se celebra en Toledo, los días 23, 24 y 25 de octubre, bajo el título «Humanidades Digitales & Patrimonio Cultural». La ponencia estuvo a cargo del profesor Salvador Ros y los investigadores Maurizio Toscano y Aroa Rabadán, que presentaron los primeros resultados de la investigación “Impacto de las Humanidades Digitales en España: investigadores, centros, producción científica y financiación”, en el marco del proyecto H2020 DESIR-DARIAH.

En la presentación se destacaron la metodología utilizada para la investigación y los primeros resultados de la elaboración de los datos. En particular, la visualización ponderada de la contribución de las diferentes áreas temáticas a la disciplina, la distribución y concentración de investigadores en los diferentes centros así como una primera aproximación al reparto de la financiación pública y privada en proyectos de investigación en Humanidades Digitales.

El estudio completo se presentará en noviembre, en la reunión anual de DESIR-DARIAH, en Zagreb.

Más información sobre el Congreso de Humanidades Digitales Hispánicas:

https://eventos.uclm.es/24964/detail/iv-congreso-internacional-de-la-asociacion-de-humanidades-digitales-hispanicas.html

Enlace al programa.

POSTDATA en el curso de Procesamiento del Lenguaje Natural organizado por Saturdays.ai Madrid

El pasado sábado, 19 de octubre, el equipo de POSTDATA participó en una sesión sobre Procesamiento del Lenguaje organizada por Saturdays.ai Madrid.

En dicha sesión se presentaron algunas herramientas para la ejecución de PLN, y los alumnos pudieron realizar ejercicios prácticos utilizando el procesador de datos textuales SpaCy.

A continuación, Elena González-Blanco, investigadora principal de POSTDATA, presentó el contenido general del proyecto: el análisis, clasificación y publicación de la poesía aplicando metodologías de análisis propias de las Humanidades Digitales para dar solución a los problemas de interoperabilidad entre las diferentes colecciones poéticas.

Por su parte, Javier de la Rosa y Álvaro Pérez, investigadores del proyecto, presentaron la herramienta PoetryLab del proyecto. Javier explicó en detalle los objetivos del PoetryLab, tanto a nivel analítico como de interoperabilidad, detallando las soluciones a las que se había llegado y su integración en una API común. Álvaro, por su parte, presentó los desafíos que conlleva desarrollar una herramienta así, y lo difícil que resulta tratar con las sutilezas propias del lenguaje poético. Finalmente, presentaron una demo de la API pública y la interfaz web de usuario.

Desde LINHD, agradecemos a los organizadores de Saturdays.Ai Madrid, Pablo Castañeda y Carmen Vázquez de Castro por invitarnos a participar en esta jornada dedicada a la lingüística computacional.

Sobre Saturdays.ai Madrid:

Saturdays AI Madrid forma parte del movimiento #AISaturdays, una iniciativa sin ánimo de lucro que fomenta la formación en Inteligencia Artificial, organizando cursos de contenido práctico y colaborativo sobre esta disciplina.

Más información en: https://www.saturdays.ai/

#AISaturdaysES #POSTDATA

 

POSTDATA asiste al Congreso Anual de CLARIN

Del 30 de septiembre al 3 de octubre tuvo lugar en Leipzig, el Congreso Anual de CLARIN. Se trata del evento más importante del año para los investigadores y profesionales que trabajan en la construcción y funcionamiento de CLARIN en toda Europa.

Asistieron al Congreso dos miembros del equipo POSTDATA: Salvador Ros, Director Técnico y Leire Leguina, Project Manager. Allí tuvieron la oportunidad de intercambiar ideas y experiencias con varios miembros de la comunidad CLARIN, con el fin de crear nuevas sinergias y compartir datos, herramientas y servicios que se incluyen en la Infraestructura CLARIN.

Entre las diferentes intervenciones y ponencias presentadas, destacaron el profesor Scott Rettberg (Universidad de Bergen, Noruega) con su conferencia: Electronic Literature: Documenting and Archiving Multimodal Computational Writing, y la profesora Elke Teich (Universidad del Sarre, Saarbrücken, Alemania), que presentó su trabajo Corpus-Driven Investigation of Language Use, Variation and Change.

El Congreso ha sido organizado por CLARIN ERIC en colaboración con la Universidad de Leipzig y el InfAI – Institut für Angewandte Informatik.

Programa completo de la Conferencia:  https://www.clarin.eu/content/programme-clarin-annual-conference-2019

Website de CLARIN: https://www.clarin.eu/