Entradas

Nueva herramienta desarrollada por el equipo de POSTDATA para spaCy

En POSTDATA usamos la librería de procesamiento de lenguaje natural para Python, spaCy. Se está convirtiendo en un estándar en la industria, pero, aunque generalmente funciona bien, todavía hay que pulir un poco el soporte para español.
Un problema que nos surgió con esta librería fue que no detecta bien los pronombres clíticos (por ejemplo, en palabras como «dímelo», «piérdete» o «hazme»). Esto se debe a que spaCy usa un modelo de datos para español que no ha sido entrenado de manera apropiada para este tipo de palabras.
Para solucionar este problema hemos estado trabajando en una extensión para spaCy que nos permite una identificación y separación apropiada, tanto de la palabra raíz, como de sus sufijos. Esta herramienta open source ha sido liberada y se puede instalar muy fácilmente desde python con un simple «pip install spacy_affixes». En la página de github del proyecto se puede encontrar toda la documentación necesaria:

https://github.com/linhd-postdata/spacy-affixes

¿Cómo funciona?
El funcionamiento es muy simple: nos bajamos archivos de reglas para afijos (que obtendremos de la herramienta Freeling http://nlp.lsi.upc.edu/freeling/index.php/node/1 ) y tras implementar sus reglas en python, añadimos este nuevo comportamiento al «pipeline» (el flujo de trabajo) de spaCy. Gracias a esto obtenemos unos resultados mucho más precisos de los que obtiene spaCy en esta tarea. Es una pieza clave de las herramientas desarrolladas por el equipo de POSTDATA dentro de la suite de PoetryLab y nos enorgullece mucho poder liberarla y compartirla con el resto de la comunidad NLP. Es nuestro granito de arena en un campo en el que hay tan pocos recursos libres para español, como es el de procesamiento del lenguaje natural.

 

POSTDATA en la Jornada de la Biblioteca Nacional de España: «La edición digital de textos: estado actual y perspectivas»

El 11 de diciembre de 2017 la Biblioteca Nacional de España, BNE, organizó una Jornada para analizar proyectos recientes sobre edición digital. La digitalización de colecciones y el desarrollo de herramientas de edición digital han llevado a la aparición de muchas formas diferentes de tratar con textos digitales. Este taller tuvo como objetivo debatir y reflexionar sobre cómo se desarrollan los proyectos actuales, qué significa la edición digital y la publicación en la actualidad y qué papel pueden desempeñar las instituciones culturales, especialmente la BNE, en este nuevo contexto. Aquí tienes más información sobre la Jornada y su programa.

 

Clara Martínez Cantón y Pablo Ruiz Fabo, miembros del equipo POSTDATA, pronunciaron dos charlas:

 

  • Clara Martínez Cantón: «Poesía medieval en un entorno digital. Edición e interoperabilidad en el siglo XXI». En su charla presentó diferentes proyectos de Humanidades Digitales llevados a cabo en el grupo LINHD y que comparten el mismo objeto de investigación: la poesía medieval castellana y sus métricas: Remetca, Diálogo Medieval, Poetriae y, finalmente, POSTDATA. Se puede consultar en: https://zenodo.org/record/1101120#.Wi7U1EriY2w

 

  • Pablo Ruiz Fabo: «Contribuciones del Procesamiento del Lenguaje Natural a la navegación de corpus digitales». La charla discutió cómo las tecnologías del lenguaje natural pueden ayudar a proporcionar experiencias de exploración de corpus más ricas para los usuarios. Se presentaron tres estudios de caso: Primero, navegación por actores (agentes) y sus declaraciones en un corpus de negociación climática llamado Boletín de Negociaciones de la Tierra. Segundo, navegación de conceptos en los manuscritos de Jeremy Bentham. Finalmente, se mostró cómo se aplicaron las mismas tecnologías NLP para anotar automáticamente un corpus de poesía para las ocurrencias del llamado encabalgamiento, un recurso estilístico. Los problemas de evaluación también fueron abordados. Las diapositivas están disponibles en http://bit.ly/2kmrH6v

 

El vídeo completo de la Jornada está disponible aquí debajo, con nuestras charlas empezando en 2:22:55 (Clara) y 55:08 (Pablo).

[embeber vídeo]