Entradas

POSTDATA en la Conferencia final de Time Machine en Bruselas

El pasado 17 de febrero se celebró en Bruselas la presentación de resultados de la fase preparatoria del proyecto Time Machine. POSTDATA es miembro de esta importante iniciativa cultural, y asistió a dicho encuentro Leire Leguina, Project Manager de POSTDATA.

El proyecto Time Machine, financiado con 1 millón de euros, se ha puesto en marcha recientemente con el objetivo de implementar tecnologías avanzadas de Inteligencia Artificial para extraer y utilizar datos masivos del pasado y poner en abierto el patrimonio cultural de Europa.

El equipo directivo destacó los hitos más importantes conseguidos en los últimos 12 meses, y expuso los próximos pasos a desarrollar para promoverla investigación a gran escala y desarrollar tecnologías estratégicas para extraer y utilizar el Big Data del pasado.

En el pasado año, más de 600 instituciones del mundo de la ciencia y el patrimonio cultural se han unido a este proyecto. Frédéric Kaplan, profesor de Humanidades Digitales de la Escuela Politécnica Federal de Lausana (EPFL) y presidente de Time Machine concluyó: «Es probable que Time Machine se convierta en uno de los sistemas de inteligencia artificial más avanzados jamás construidos. En los próximos años, coordinaremos el desarrollo de una serie de tecnologías mediante proyectos específicos en el marco de Horizonte 2020 y los futuros programas de financiación de la UE».

Para conocer en detalle el Proyecto Time Machine: https://www.timemachine.eu/ 

Entrevista a Elena González-Blanco en Expansión: ¿A qué empresas puede ayudar la inteligencia artificial?

Elena González-Blanco, General Manager of Europe en Coverwallet e Investigadora Principal de POSTDATA, ha sido entrevistada por el periódico económico Expansión, dentro de su serie de entrevistas a mujeres directivas y emprendedoras “Hablemos de futuro”. Elena ha participado en una conversación con Cristina San José, CDO del Grupo Santander, en la que han hablado de la oportunidad que supone la Inteligencia Artificial para el desarrollo de negocio de las empresas españolas.

Entrevista completa disponible en:

https://hablemosdefuturo.expansion.com/a-que-empresas-puede-ayudar-la-inteligencia-artificial

 

 

Número especial de la Revista de Poética Medieval sobre los repertorios poéticos digitales, coordinado por Elena González-Blanco y Helena Bermúdez

La Revista de Poética Medieval acaba de publicar su nuevo número titulado “Los repertorios poéticos digitales: del Medievo a la interoperabilidad”.

Este monográfico, coordinado por las profesoras Elena González-Blanco y Helena Bermúdez, se centra en los recursos poéticos on-line y los diferentes métodos computacionales aplicados al estudio de la poesía.

 La Edad Media es el período en el que se centran la mayor parte de los repertorios digitales de poesía. Dichos repertorios permiten ver cómo cada país, tradición filológica y género literario ha seguido una evolución independiente y particular. Como resultado de ello, el acceso en línea a las colecciones de poesía está muy fragmentado, provocando un problema de incomunicación interlingüística. Sin embargo, gracias a la tecnología y a la inclusión de los big data y de los algoritmos se puede abordar esta problemática desde un punto de vista digital, haciendo que los propios datos en los que los ordenadores convierten a los textos y a los corpus permitan volver a hacer estas tradiciones «interoperables».

Este monográfico de La Revista de Poética Medieval presenta algunos de los repertorios digitales que recogen la variedad, riqueza y singularidad de la poesía medieval europea a través de sus diferentes evoluciones.

Esta es también la perspectiva que se aborda en el proyecto europeo de investigación Poetry Standardization and Linked Open Data (POSTDATA), en cuyo marco se desarrolla el contenido de este monográfico.

Para más información:

https://recyt.fecyt.es/index.php/revpm

 

Sobre Revista de Poética Medieval:

Fundada en 1997, la Revista de Poética Medieval es una publicación anual dedicada al estudio de la poética y a la reflexión teórica y crítica sobre la literatura medieval hispánica e internacional. Sus páginas están abiertas a investigaciones originales de alta calidad científica. La Revista de Poética Medieval provee acceso libre a su contenido y está indexada en numerosas bases de datos que garantizan la alta calidad de la publicación como Latindex o ERIH Plus.

Nueva herramienta desarrollada por el equipo de POSTDATA para spaCy

En POSTDATA usamos la librería de procesamiento de lenguaje natural para Python, spaCy. Se está convirtiendo en un estándar en la industria, pero, aunque generalmente funciona bien, todavía hay que pulir un poco el soporte para español.
Un problema que nos surgió con esta librería fue que no detecta bien los pronombres clíticos (por ejemplo, en palabras como «dímelo», «piérdete» o «hazme»). Esto se debe a que spaCy usa un modelo de datos para español que no ha sido entrenado de manera apropiada para este tipo de palabras.
Para solucionar este problema hemos estado trabajando en una extensión para spaCy que nos permite una identificación y separación apropiada, tanto de la palabra raíz, como de sus sufijos. Esta herramienta open source ha sido liberada y se puede instalar muy fácilmente desde python con un simple «pip install spacy_affixes». En la página de github del proyecto se puede encontrar toda la documentación necesaria:

https://github.com/linhd-postdata/spacy-affixes

¿Cómo funciona?
El funcionamiento es muy simple: nos bajamos archivos de reglas para afijos (que obtendremos de la herramienta Freeling http://nlp.lsi.upc.edu/freeling/index.php/node/1 ) y tras implementar sus reglas en python, añadimos este nuevo comportamiento al «pipeline» (el flujo de trabajo) de spaCy. Gracias a esto obtenemos unos resultados mucho más precisos de los que obtiene spaCy en esta tarea. Es una pieza clave de las herramientas desarrolladas por el equipo de POSTDATA dentro de la suite de PoetryLab y nos enorgullece mucho poder liberarla y compartirla con el resto de la comunidad NLP. Es nuestro granito de arena en un campo en el que hay tan pocos recursos libres para español, como es el de procesamiento del lenguaje natural.

 

Presentación de la investigación H2020 DESIR-DARIAH «Digital Humanities Research in Spain»

El Laboratorio de Innovación en Humanidades Digitales y POSTDATA han participado en la Asamblea General de DARIAH, celebrada en Zagreb los días 6 y 7 de noviembre. En dicha asamblea se han presentado los resultados preliminares del proyecto H2020 DESIR-DARIAH «Digital Humanities Research in Spain».

La investigación, coordinada por Salvador Ros, ha sido desarrollada por los investigadores Maurizio Toscano y Aroa Rabadán. En la presentación se ha destacado la metodología empleada por ambos investigadores, que incluye datos referidos a los investigadores, proyectos, recursos, revistas y formación en HD siguiendo diferentes líneas temáticas como su distribución geográfica, líneas de investigación frecuentes y la financiación obtenida por los proyectos en España. De especial interés ha sido la exposición de datos como el número de investigadores en HD con respecto a su género—hombres (51 %) y mujeres (49 %)—y la proporción de todos ellos en relación a los investigadores de las Humanidades genéricas—hombres (58%) y mujeres (42 %)—en el año del último estudio realizado (2016).

El estudio completo se presentará en un informe donde se recogerán todos estos datos revisados y ampliados.

 Más información sobre el estudio en: DARIAH-EU.

Elena González-Blanco, entre los 9 jóvenes emprendedores españoles más influyentes

Elena González-Blanco, Investigadora principal de POSTDATA, fundadora de LINHD, y directora general de CoverWallet, ha sido elegida una de los nueve emprendedores españoles más influyentes por la revista «Emprendedores». Esta selección se ha basado en las valoraciones del Foro Económico Mundial y el Instituto francés Choiseul, entre otras instituciones de reconocido prestigio.

La revista destaca el perfil multidisciplinar de González-Blanco, de formación inicial en Humanidades y especializada actualmente en tecnologías del lenguaje e inteligencia artificial.

El artículo completo puede leerse en el siguiente enlace:

https://www.emprendedores.es/casos-de-exito/g63425/jovenes-emprendedores-espanoles-mas-influyentes/

Presentación de POSTDATA: «Una red de ontologías para la poesía europea»

La ponencia «Una red de ontologías para la poesía europea» de Mª Luisa Díez Platas, investigadora de POSTDATA, fue presentada en el IV Congreso de Humanidades Digitales y Patrimonio Cultural celebrado en Toledo, del 23 al 25 de octubre de 2019.

En dicha ponencia se mostró el proceso de construcción de la red de ontologías a partir de un modelo conceptual. Esta red conceptualiza y estructura la información sobre todos los aspectos del conocimiento relacionados con la poesía europea. Asimismo, se han presentado las técnicas y herramientas utilizadas para la generación y publicación de las ontologías de la red de ontologías. Hay cuatro ontologías ya publicadas:

Para más información sobre la red de ontologías de POSTDATA, visite:

http://postdata-prototype.linhd.uned.es/ontology.php

 


Illustration 2. Ontology Network Diagram

 

Presentación de la investigación “Impacto de las Humanidades Digitales en España” de H2020 DESIR-DARIAH

El Laboratorio de Innovación de Humanidades Digitales y POSTDATA participan en el 4º Congreso de la Asociación de Humanidades Digitales Hispánicas que se celebra en Toledo, los días 23, 24 y 25 de octubre, bajo el título «Humanidades Digitales & Patrimonio Cultural». La ponencia estuvo a cargo del profesor Salvador Ros y los investigadores Maurizio Toscano y Aroa Rabadán, que presentaron los primeros resultados de la investigación “Impacto de las Humanidades Digitales en España: investigadores, centros, producción científica y financiación”, en el marco del proyecto H2020 DESIR-DARIAH.

En la presentación se destacaron la metodología utilizada para la investigación y los primeros resultados de la elaboración de los datos. En particular, la visualización ponderada de la contribución de las diferentes áreas temáticas a la disciplina, la distribución y concentración de investigadores en los diferentes centros así como una primera aproximación al reparto de la financiación pública y privada en proyectos de investigación en Humanidades Digitales.

El estudio completo se presentará en noviembre, en la reunión anual de DESIR-DARIAH, en Zagreb.

Más información sobre el Congreso de Humanidades Digitales Hispánicas:

https://eventos.uclm.es/24964/detail/iv-congreso-internacional-de-la-asociacion-de-humanidades-digitales-hispanicas.html

Enlace al programa.

Postdata en la Conferencia anual de la Iniciativa de Metadatos Dublin Core

La Conferencia anual Internacional de la Iniciativa de Metadatos Dublin Core (DCMI), ha sido este año organizada por la Universidad de Oporto del 10 al 13 de septiembre en Portugal.

POSTDATA ha participado de la conferencia presentando el artículo “Validation of a metadata application profile domain model”.

El artículo completo se puede leer aquí.

La Iniciativa de Metadatos Dublin Core es una organización que ha surgido de una sucesión de talleres o reuniones de trabajo que, desde 1995, tienen el objetivo de encontrar una estrategia común para la localización y recuperación de recursos electrónicos en la web.

Para ver el programa de la conferencia 2018: http://dublincore.org/conference/2018/programme/

El proyecto POSTDATA ha nacido para crear un puente digital

POSTDATA es un proyecto financiado de ERC Starting Grants de investigación en humanidades digitales que busca comparar las distintas tradiciones poéticas utilizando la tecnología de la web semántica.

El proyecto POSTDATA “Poetry Standardization and Linked Open Data”, dirigido por Elena González-Blanco García y Salvador Ros Muñoz, es un proyecto del Consejo Europeo de Investigación (European Research Council) de más de un millón de euros con una duración de cinco años (inicio mayo 2016) en los ámbitos de la Ciencia y las Humanidades digitales.

El proyecto se ha convertido en líder de un programa pionero que suma a la Filología investigadores del ámbito de la documentación, la informática, la lingüística computacional y la tecnología de la web semántica y  los datos. El proyecto está integrado en el Laboratorio de Innovación en Humanidades Digitales de la UNED (LINHD), centro pionero en España y en español en este campo.

EL proyecto:

La necesidad de estandarización viene de la mano de la importancia de intercambiar conocimiento y fomentar el entendimiento entre los diferentes campos. Las disciplinas científicas establecieron de una forma temprana protocolos y lenguas para realizar ese trasvase de información, creando unos estándares que fueron rápidamente adquiridos y adaptados para resolver sus problemáticas específicas. Las áreas de humanidades y la cultura han seguido, sin embargo, un camino independiente en el que la creatividad y la tradición juegan un papel esencial. La literatura, y especialmente la poesía, constituyen un claro reflejo de esta idiosincrasia. Desde el punto de vista filológico, no hay un sistema uniforme de analizar, clasificar o estudiar las diferentes manifestaciones poéticas, y la divergencia de teorías es aún mayor cuando se comparan diferentes escuelas poéticas correspondientes a distintas lenguas y períodos. El proyecto POSTDATA ha nacido para crear ese puente digital entre los acervos culturales tradicionales y el mundo creciente de los datos. El proyecto se centra en el análisis, clasificación y publicación de la poesía aplicando metodologías de análisis propias de las Humanidades Digitales, como la codificación en XML-TEI, para buscar la estandarización. Los problemas de interoperabilidad entre las diferentes colecciones poéticas se resuelven utilizando tecnologías de la web semántica para enlazar y publicar conjuntos de datos literarios de forma estructurada en la nube de datos enlazados.

La ventaja de convertir la poesía en datos disponibles en línea legibles para máquina es triple: en primer lugar, la comunidad académica tendrá una plataforma digital accesible para trabajar con corpora poéticos, contribuyendo al enriquecimiento de los propios textos; segundo, esta forma de codificar y estandarizar la información poética, será una garantía de preservación para poemas conservados solamente en libros impresos, o incluso transmitidos oralmente; y tercero, los conjuntos de datos y los corpora estarán disponibles en acceso abierto para su uso con otras finalidades, como la educación, la difusión cultural o el entretenimiento.

Para lograr este fin, se ha creado un laboratorio de poesía dentro de la plataforma que permite a los usuarios aplicar las últimas tecnologías del lenguaje y de la lingüística computacional para analizar los datos poéticos. Algunas de estas herramientas incluyen un analizador métrico que detecta la estructura silábica de las estrofas y los patrones acentuales, el reconocimiento de entidades nombradas para extraer lugares, fechas y personas mencionadas, la combinación de lematizadores y parsers para identificar las estructuras sintácticas con propósitos poéticos y el análisis de sentimiento para descubrir emociones y sentimientos en los poemas. La combinación de todos estos procesos en el mismo entorno mejorará y facilitará el análisis a los investigadores, generando nuevas aplicaciones, como la detección automática del género poético o el análisis de figuras retóricas y estilísticas. .

Uno de los objetivos del proyecto es proporcionar a la comunidad científica de poesía los medios para que puedan publicar los resultados de su investigación como datos abiertos enlazados (LOD) y de esta manera, poder explotar las ventajas que ofrece este tipo de recursos, propios de la web semántica (la publicación de datos que puedan ser procesados por maquinas inteligentes).   

Siguiendo este objetivo, el proyecto ha diseñado un modelo de datos que contiene los conceptos necesarios para poder desarrollar investigación en poesía europea. Al ser esta una tarea muy ambiciosa (abarcar todas las lenguas, periodos, etc de la poesía europea), es necesaria la colaboración de investigadores de todas las tradiciones poéticas de Europa para que validen nuestro trabajo.

Con este fin el proyecto ha desarrollado un formulario que, a través de la inserción de datos resultantes del análisis de los expertos, comprueba que el modelo de postdata no tenga ninguna laguna conceptual.

Enlace al formulario http://postdata-model-validation.linhd.uned.es/

Gracias a este proceso de validación de nuestro trabajo, podremos poner a disposición de la comunidad investigadora en poesía, un modelo ontológico para datos abiertos enlazados.