Herramientas
5 herramientas para la recolección de datos de páginas web
Por Cindy Villegas
Publicado el 17 de enero del 2011
El periodista Dan Nguyen de ProPublica comparte 5 herramientas muy útiles para la recolección de datos (o ‘raspado’) de páginas web. Si bien estas herramientas requieren la capacidad de programar, también pueden ser usadas por periodistas que están aprendiendo a programar y saben lo básico.
Google Refine: (Anteriormente conocida como base libre GridWorks) Una aplicación sofisticada que hace la limpieza de datos en un instante.
Firebug: Un plug-in para Firefox que añade una serie de herramientas de desarrollo útiles, incluyendo el seguimiento de parámetros y archivos recibidos de los sitios web que quiere ‘raspar’.
Ruby: El lenguaje de programación más utilizado en ProPublica.
Nokogiri: Una colección de Ruby esencial para raspar las páginas web.
Tesseract: Reconocimiento de caracteres ópticos de Google ( OCR ) herramienta útil para convertir el texto escaneado en “real”, texto interpretable.
Adobe Acrobat: Puede (a veces) convertir archivos PDF a HTML bien estructurados.
Además, Nguyen agrega guías para usar mejor estas herramientas.
Usar Google Refine para limpiar datos desordenados.
Lectura de datos desde sitios Flash usando Firebug.
Análisis de PDF.
Raspado de HTML.
Obtener el texto de una imagen escaneada (solo en PDF).
Publicado por:
COMPATIR EN REDES
NOTICIAS RELACIONADAS
Periodista gay arremete contra Gobierno ruso por el “ambiente de homofobia”
El reconocido presentador de TV James Kirchick, quien es abiertamente homosexual, fue invitado por la cadena de noticias RT con el propósito de hablar sobre la condena de Bradley Manning, un soldado que filtró información secreta de EE.UU. a WikiLeaks.
22-08-13La gente tiene problemas para identificar imágenes falsas, según estudio
Las personas no son muy buenas para identificar imágenes manipuladas.
20-07-17Piezas periodísticas son nominadas en los Premios GLAAD
Los Premios GLAAD reconocen a los medios de comunicación por sus representaciones precisas e inclusivas de la comunidad lésbica, gay, bisexual y transgénero, así como los problemas que afectan sus vidas.
21-01-15