Desde hace dos décadas, el crecimiento exponencial de la información digital hace necesario el uso de técnicas y herramientas que permitan recuperar masivamente datos de la web. Las Humanidades Digitales también requieren en ciertos proyectos de estas aplicaciones, basadas en la minería de texto, para obtener información con la que llevar a cabo sus investigaciones.

El webscraping (o scraping, raspar) es una técnica usada para extraer contenido de sitios web, que permite construir datasets o conjuntos de datos desde la web. El procedimiento es sencillo, se captura la información en HTML enviada a nuestro navegador y se procesa, realizando operaciones de filtrado, conversión de formatos y etiquetado, para obtener datos estructurados que puedan ser almacenados y posteriormente analizados en estudios de investigación. De esta manera, los datos adquieren un carácter multivalente al pasar de una amplia dispersión en la web a formatos más sencillos para usos instrumentales. Así, por ejemplo, es posible extraer datos de estadísticas de organismos oficiales o de redes sociales para el estudio de fenómenos sociales o culturales.

Aplicaciones para la extracción de datos

Entre las aplicaciones más populares para la extracción de datos se encuentran:

  • Octoparse: permite extraer fácilmente casi todo tipo de datos en sitios web, ya que ofrece amplias funcionalidades y capacidades. Cuenta con dos modos de operación: Plantilla de tarea y Avanzado, para aprender rápidamente sin conocimientos de programación. La interfaz es muy intuitiva, ya que nos guía durante el proceso de extracción. Una vez extraído el contenido del sitio web, posibilita guardarlos en formatos estructurados como EXCEL, TXT, HTML o sus bases de datos en un corto período de tiempo.
  • Import.io: es una de las herramientas de webscraping por excelencia ya que extrae datos de casi cualquier sitio web. Es muy fiable y fácil de usar. Permite crear datasets o conjuntos de datos al importar hasta 1.000 páginas (URL’s) de contenidos a un CSV en una sola vez y cuenta con funcionalidades como el envío de alertas cada vez que se extrae algo.
  • ParseHub: esta aplicación gratuita facilita también la extracción de datos de cualquier página web sin necesidad de programar nada. Simplemente hay que seleccionar lo que debe extraer e indicar cómo clasificarlo. Para ello, previamente debemos descargar e instalar el programa en el ordenador.

Códigos de programación para diseñar todo el proceso

Por otro lado, se pueden utilizar códigos de programación o sistemas basados en lenguajes que permiten diseñar todo el proceso, ajustándose lo más posible al proyecto y las webs que se quieren procesar, que requieren conocimientos de programación para diseñar y poner a funcionar el proceso de extracción. Entre las herramientas más conocidas en este modelo están:

  1. Para Pyton: Scrapy, BeautifulSoup y Selenium
  2. Para R: Rcrawler y Rvest

Expresiones regulares

Por último, dentro de este apartado es importante señalar, sobre todo por su aplicación en las Humanidades Digitales, el concepto de Expresiones Regulares (regex) para la extracción de datos textuales. Las expresiones regulares son una serie de códigos que se utilizan para localizar patrones de texto. A través de una serie de operadores y códigos se puede recuperar segmentos específicos.

This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.