Nueva herramienta desarrollada por el equipo de POSTDATA para spaCy

En POSTDATA usamos la librería de procesamiento de lenguaje natural para Python, spaCy. Se está convirtiendo en un estándar en la industria, pero, aunque generalmente funciona bien, todavía hay que pulir un poco el soporte para español.
Un problema que nos surgió con esta librería fue que no detecta bien los pronombres clíticos (por ejemplo, en palabras como «dímelo», «piérdete» o «hazme»). Esto se debe a que spaCy usa un modelo de datos para español que no ha sido entrenado de manera apropiada para este tipo de palabras.
Para solucionar este problema hemos estado trabajando en una extensión para spaCy que nos permite una identificación y separación apropiada, tanto de la palabra raíz, como de sus sufijos. Esta herramienta open source ha sido liberada y se puede instalar muy fácilmente desde python con un simple «pip install spacy_affixes». En la página de github del proyecto se puede encontrar toda la documentación necesaria:

https://github.com/linhd-postdata/spacy-affixes

¿Cómo funciona?
El funcionamiento es muy simple: nos bajamos archivos de reglas para afijos (que obtendremos de la herramienta Freeling http://nlp.lsi.upc.edu/freeling/index.php/node/1 ) y tras implementar sus reglas en python, añadimos este nuevo comportamiento al «pipeline» (el flujo de trabajo) de spaCy. Gracias a esto obtenemos unos resultados mucho más precisos de los que obtiene spaCy en esta tarea. Es una pieza clave de las herramientas desarrolladas por el equipo de POSTDATA dentro de la suite de PoetryLab y nos enorgullece mucho poder liberarla y compartirla con el resto de la comunidad NLP. Es nuestro granito de arena en un campo en el que hay tan pocos recursos libres para español, como es el de procesamiento del lenguaje natural.

 

Entrevista a Elena González-Blanco en #WATTBA Podcast

Elena González-Blanco, Investigadora Principal de POSTDATA, ha participado en el Podcast #WATTBA para hablar sobre tecnologías del lenguaje e inteligencia artificial: «Estamos en la etapa de las interfaces conversacionales, donde pasamos de la pantalla a la interfaz de voz». También ha hablado sobre la digitalización de las Humanidades y el proyecto europeo de humanidades digitales POSTDATA.

Entrevista completa en el siguiente enlace:

https://www.ivoox.com/wattba-elena-gonzalez-blanco-tenemos-desterrar-la-audios-mp3_rf_44664297_1.html

Presentación de la investigación H2020 DESIR-DARIAH «Digital Humanities Research in Spain»

El Laboratorio de Innovación en Humanidades Digitales y POSTDATA han participado en la Asamblea General de DARIAH, celebrada en Zagreb los días 6 y 7 de noviembre. En dicha asamblea se han presentado los resultados preliminares del proyecto H2020 DESIR-DARIAH «Digital Humanities Research in Spain».

La investigación, coordinada por Salvador Ros, ha sido desarrollada por los investigadores Maurizio Toscano y Aroa Rabadán. En la presentación se ha destacado la metodología empleada por ambos investigadores, que incluye datos referidos a los investigadores, proyectos, recursos, revistas y formación en HD siguiendo diferentes líneas temáticas como su distribución geográfica, líneas de investigación frecuentes y la financiación obtenida por los proyectos en España. De especial interés ha sido la exposición de datos como el número de investigadores en HD con respecto a su género—hombres (51 %) y mujeres (49 %)—y la proporción de todos ellos en relación a los investigadores de las Humanidades genéricas—hombres (58%) y mujeres (42 %)—en el año del último estudio realizado (2016).

El estudio completo se presentará en un informe donde se recogerán todos estos datos revisados y ampliados.

 Más información sobre el estudio en: DARIAH-EU.

Elena González-Blanco, entre los 9 jóvenes emprendedores españoles más influyentes

Elena González-Blanco, Investigadora principal de POSTDATA, fundadora…

POSTDATA asiste al Congreso Anual de CLARIN

Del 30 de septiembre al 3 de octubre tuvo lugar en Leipzig, el…

POSTDATA en la Conferencia "Plotting Poetry 2019"

El equipo de POSTDATA ha estado presente en la Conferencia Anual…

Entrevista a Elena González-Blanco en MasQUEUNAradio

Elena González-Blanco, investigadora principal de POSTDATA,…

DARIAH Annual Event 2019: Humanities Data

Salvador Ros asiste a la conferencia anual de DARIAH. La presencia…

DH@Madrid Summer School 2019

La escuela de verano DH@Madrid Summer School 2019 es un evento…