Nueva herramienta desarrollada por el equipo de POSTDATA para spaCy

En POSTDATA usamos la librería de procesamiento de lenguaje natural para Python, spaCy. Se está convirtiendo en un estándar en la industria, pero, aunque generalmente funciona bien, todavía hay que pulir un poco el soporte para español.
Un problema que nos surgió con esta librería fue que no detecta bien los pronombres clíticos (por ejemplo, en palabras como «dímelo», «piérdete» o «hazme»). Esto se debe a que spaCy usa un modelo de datos para español que no ha sido entrenado de manera apropiada para este tipo de palabras.
Para solucionar este problema hemos estado trabajando en una extensión para spaCy que nos permite una identificación y separación apropiada, tanto de la palabra raíz, como de sus sufijos. Esta herramienta open source ha sido liberada y se puede instalar muy fácilmente desde python con un simple «pip install spacy_affixes». En la página de github del proyecto se puede encontrar toda la documentación necesaria:

https://github.com/linhd-postdata/spacy-affixes

¿Cómo funciona?
El funcionamiento es muy simple: nos bajamos archivos de reglas para afijos (que obtendremos de la herramienta Freeling http://nlp.lsi.upc.edu/freeling/index.php/node/1 ) y tras implementar sus reglas en python, añadimos este nuevo comportamiento al «pipeline» (el flujo de trabajo) de spaCy. Gracias a esto obtenemos unos resultados mucho más precisos de los que obtiene spaCy en esta tarea. Es una pieza clave de las herramientas desarrolladas por el equipo de POSTDATA dentro de la suite de PoetryLab y nos enorgullece mucho poder liberarla y compartirla con el resto de la comunidad NLP. Es nuestro granito de arena en un campo en el que hay tan pocos recursos libres para español, como es el de procesamiento del lenguaje natural.

 

Entrevista a Elena González-Blanco en #WATTBA Podcast

Elena González-Blanco, Investigadora Principal de POSTDATA, ha participado en el Podcast #WATTBA para hablar sobre tecnologías del lenguaje e inteligencia artificial: «Estamos en la etapa de las interfaces conversacionales, donde pasamos de la pantalla a la interfaz de voz». También ha hablado sobre la digitalización de las Humanidades y el proyecto europeo de humanidades digitales POSTDATA.

Entrevista completa en el siguiente enlace:

https://www.ivoox.com/wattba-elena-gonzalez-blanco-tenemos-desterrar-la-audios-mp3_rf_44664297_1.html

Presentación de la investigación H2020 DESIR-DARIAH «Digital Humanities Research in Spain»

El Laboratorio de Innovación en Humanidades Digitales y POSTDATA han participado en la Asamblea General de DARIAH, celebrada en Zagreb los días 6 y 7 de noviembre. En dicha asamblea se han presentado los resultados preliminares del proyecto H2020 DESIR-DARIAH «Digital Humanities Research in Spain».

La investigación, coordinada por Salvador Ros, ha sido desarrollada por los investigadores Maurizio Toscano y Aroa Rabadán. En la presentación se ha destacado la metodología empleada por ambos investigadores, que incluye datos referidos a los investigadores, proyectos, recursos, revistas y formación en HD siguiendo diferentes líneas temáticas como su distribución geográfica, líneas de investigación frecuentes y la financiación obtenida por los proyectos en España. De especial interés ha sido la exposición de datos como el número de investigadores en HD con respecto a su género—hombres (51 %) y mujeres (49 %)—y la proporción de todos ellos en relación a los investigadores de las Humanidades genéricas—hombres (58%) y mujeres (42 %)—en el año del último estudio realizado (2016).

El estudio completo se presentará en un informe donde se recogerán todos estos datos revisados y ampliados.

 Más información sobre el estudio en: DARIAH-EU.

Elena González-Blanco, entre los 9 jóvenes emprendedores españoles más influyentes

Elena González-Blanco, Investigadora principal de POSTDATA, fundadora de LINHD, y directora general de CoverWallet, ha sido elegida una de los nueve emprendedores españoles más influyentes por la revista «Emprendedores». Esta selección se ha basado en las valoraciones del Foro Económico Mundial y el Instituto francés Choiseul, entre otras instituciones de reconocido prestigio.

La revista destaca el perfil multidisciplinar de González-Blanco, de formación inicial en Humanidades y especializada actualmente en tecnologías del lenguaje e inteligencia artificial.

El artículo completo puede leerse en el siguiente enlace:

https://www.emprendedores.es/casos-de-exito/g63425/jovenes-emprendedores-espanoles-mas-influyentes/

Presentación de la investigación “Impacto de las Humanidades Digitales en España” de H2020 DESIR-DARIAH

El Laboratorio de Innovación de Humanidades Digitales y POSTDATA participan en el 4º Congreso de la Asociación de Humanidades Digitales Hispánicas que se celebra en Toledo, los días 23, 24 y 25 de octubre, bajo el título «Humanidades Digitales & Patrimonio Cultural». La ponencia estuvo a cargo del profesor Salvador Ros y los investigadores Maurizio Toscano y Aroa Rabadán, que presentaron los primeros resultados de la investigación “Impacto de las Humanidades Digitales en España: investigadores, centros, producción científica y financiación”, en el marco del proyecto H2020 DESIR-DARIAH.

En la presentación se destacaron la metodología utilizada para la investigación y los primeros resultados de la elaboración de los datos. En particular, la visualización ponderada de la contribución de las diferentes áreas temáticas a la disciplina, la distribución y concentración de investigadores en los diferentes centros así como una primera aproximación al reparto de la financiación pública y privada en proyectos de investigación en Humanidades Digitales.

El estudio completo se presentará en noviembre, en la reunión anual de DESIR-DARIAH, en Zagreb.

Más información sobre el Congreso de Humanidades Digitales Hispánicas:

https://eventos.uclm.es/24964/detail/iv-congreso-internacional-de-la-asociacion-de-humanidades-digitales-hispanicas.html

Enlace al programa.

POSTDATA en el curso de Procesamiento del Lenguaje Natural organizado por Saturdays.ai Madrid

El pasado sábado, 19 de octubre, el equipo de POSTDATA participó en una sesión sobre Procesamiento del Lenguaje organizada por Saturdays.ai Madrid.

En dicha sesión se presentaron algunas herramientas para la ejecución de PLN, y los alumnos pudieron realizar ejercicios prácticos utilizando el procesador de datos textuales SpaCy.

A continuación, Elena González-Blanco, investigadora principal de POSTDATA, presentó el contenido general del proyecto: el análisis, clasificación y publicación de la poesía aplicando metodologías de análisis propias de las Humanidades Digitales para dar solución a los problemas de interoperabilidad entre las diferentes colecciones poéticas.

Por su parte, Javier de la Rosa y Álvaro Pérez, investigadores del proyecto, presentaron la herramienta PoetryLab del proyecto. Javier explicó en detalle los objetivos del PoetryLab, tanto a nivel analítico como de interoperabilidad, detallando las soluciones a las que se había llegado y su integración en una API común. Álvaro, por su parte, presentó los desafíos que conlleva desarrollar una herramienta así, y lo difícil que resulta tratar con las sutilezas propias del lenguaje poético. Finalmente, presentaron una demo de la API pública y la interfaz web de usuario.

Desde LINHD, agradecemos a los organizadores de Saturdays.Ai Madrid, Pablo Castañeda y Carmen Vázquez de Castro por invitarnos a participar en esta jornada dedicada a la lingüística computacional.

Sobre Saturdays.ai Madrid:

Saturdays AI Madrid forma parte del movimiento #AISaturdays, una iniciativa sin ánimo de lucro que fomenta la formación en Inteligencia Artificial, organizando cursos de contenido práctico y colaborativo sobre esta disciplina.

Más información en: https://www.saturdays.ai/

#AISaturdaysES #POSTDATA

 

POSTDATA asiste al Congreso Anual de CLARIN

Del 30 de septiembre al 3 de octubre tuvo lugar en Leipzig, el Congreso Anual de CLARIN. Se trata del evento más importante del año para los investigadores y profesionales que trabajan en la construcción y funcionamiento de CLARIN en toda Europa.

Asistieron al Congreso dos miembros del equipo POSTDATA: Salvador Ros, Director Técnico y Leire Leguina, Project Manager. Allí tuvieron la oportunidad de intercambiar ideas y experiencias con varios miembros de la comunidad CLARIN, con el fin de crear nuevas sinergias y compartir datos, herramientas y servicios que se incluyen en la Infraestructura CLARIN.

Entre las diferentes intervenciones y ponencias presentadas, destacaron el profesor Scott Rettberg (Universidad de Bergen, Noruega) con su conferencia: Electronic Literature: Documenting and Archiving Multimodal Computational Writing, y la profesora Elke Teich (Universidad del Sarre, Saarbrücken, Alemania), que presentó su trabajo Corpus-Driven Investigation of Language Use, Variation and Change.

El Congreso ha sido organizado por CLARIN ERIC en colaboración con la Universidad de Leipzig y el InfAI – Institut für Angewandte Informatik.

Programa completo de la Conferencia:  https://www.clarin.eu/content/programme-clarin-annual-conference-2019

Website de CLARIN: https://www.clarin.eu/

POSTDATA en la Conferencia «Plotting Poetry 2019»

El equipo de POSTDATA ha estado presente en la Conferencia Anual de Plotting Poetry que ha tenido lugar en Nancy. En ella hemos tenido la oportunidad de conocer nuevas herramientas y campos de estudio de diferentes investigadores tanto de Europa como de Estados Unidos.
Nada más entrar en la sala de conferencias destacaban dos grandes posters, uno azul y en inglés y otro blanco en francés. En ambos carteles, con textos excesivamente largos, una gran densidad de palabras y sin imágenes, el autor Rémi Forte (estudiante de bellas artes en la ANRT de Nancy) nos mostraba su experimento en el que intentaba crear un texto que emulase el código informático.
En estos dos días se han tratado temas tan variados que van desde la poesía litúrgica hebrea, la estilometría, herramientas de anotación (catma.de) y de visualización de corpus, hasta el uso de técnicas de aprendizaje automático para el tratamiento de grandes colecciones de textos o para la generación automática de Poesía. En este último campo hemos visto dos enfoques distintos que intentan alcanzar el mismo fin, como hemos podido aprender con la charla de Pablo Gervás y la de Thomas Haider, utilizando análisis estadístico y herramientas de aprendizaje automático, respectivamente.
Han sido igualmente interesantes las ponencias de Natalie Houston y su estudio de la rima en poesía inglesa, y cómo se relacionan las palabras que riman entre sí, y la de Valérie Beaudouin en la que trata la música rap y su relación con la métrica.
También hemos tenido la oportunidad de escuchar a dos personas que llevan muchos años dedicándose a las humanidades digitales como son Anne Bandry-Scubbi y Jan-Christof Meister, los cuales nos han contado la evolución que ha ido sucediendo en este campo desde sus propias experiencias personales.

Elena González-Blanco: “El lenguaje como fuente de datos no estructurados: del procesamiento del lenguaje al deep learning: usos, aplicaciones y potencial” @WIMLDS_Madrid

Elena González-Blanco participó ayer martes, 24 de septiembre, en el encuentro organizado por Madrid Women in Machine Learning & Data Science @WIMLDS_Madrid, y SAS España para hablar sobre inteligencia artificial y lenguaje. En la ponencia, titulada “El lenguaje como fuente de datos no estructurados: del procesamiento del lenguaje al Deep learning: usos, aplicaciones y potencial”, Elena ha presentado los últimos avances en PLN en análisis de sentimiento y traducción automática, entre otras cuestiones.

Más información en: https://www.meetup.com/es-ES/Madrid-Women-in-Machine-Learning-and-Data-Science/

 

Elena González-Blanco junto a algunas de las participantes en @WIMLDS_Madrid

Entrevista a Elena González-Blanco en MasQUEUNAradio

Elena González-Blanco, investigadora principal de POSTDATA, ha sido entrevistada en MasQUEUNAradio, para hablar de su trayectoria y experiencia en Inteligencia Artificial. así como del uso de las nuevas tecnologías aplicadas a las Humanidades. También ha comentado su proyecto europeo de humanidades digitales POSTDATA, financiado por el Consejo Europeo de Investigación (CEI) en el marco del programa de investigación e innovación Horizonte 2020 de la Unión Europea.

Utilice el siguiente enlace para acceder al programa https://www.pscp.tv/w/1lDxLoDNyyPJm