Herramientas

5 herramientas para la recolección de datos de páginas web

Por Cindy Villegas

Publicado el 17 de enero del 2011

El periodista Dan Nguyen de ProPublica comparte 5 herramientas muy útiles para la recolección de datos (o ‘raspado’) de páginas web. Si bien estas herramientas requieren la capacidad de programar, también pueden ser usadas por periodistas que están aprendiendo a programar y saben lo básico.

Google Refine: (Anteriormente conocida como base libre GridWorks) Una aplicación sofisticada que hace la limpieza de datos en un instante.
Firebug: Un plug-in para Firefox que añade una serie de herramientas de desarrollo útiles, incluyendo el seguimiento de parámetros y archivos recibidos de los sitios web que quiere ‘raspar’.
Ruby: El lenguaje de programación más utilizado en ProPublica.
Nokogiri: Una colección de Ruby esencial para raspar las páginas web.
Tesseract: Reconocimiento de caracteres ópticos de Google ( OCR ) herramienta útil para convertir el texto escaneado en «real», texto interpretable.
Adobe Acrobat: Puede (a veces) convertir archivos PDF a HTML bien estructurados.

Además, Nguyen agrega guías para usar mejor estas herramientas.

Usar Google Refine para limpiar datos desordenados.
Lectura de datos desde sitios Flash usando Firebug.
Análisis de PDF.
Raspado de HTML.
Obtener el texto de una imagen escaneada (solo en PDF).

Publicado por:

Periodista.

Sígueme

COMPATIR EN REDES

NOTICIAS RELACIONADAS

30 diarios apuestan por la campaña «Todos Somos Venezuela»

La prensa internacional inició el pasado 6 de marzo la campaña “Todos Somos Venezuela”, en la cual participan hasta ahora 30 periódicos extranjeros, informa El Nacional.

11-03-14

Lo que busca The Washington Post en un editor de economía

El mítico diario estadounidense The Washington Post publicó en su cuenta de Tumblr que está en búsqueda de un editor de economía. Y como siempre es interesante conocer el perfil de los profesionales que buscan estos grandes medios, compartimos lo que el medio está buscando en este periodista.

15-10-16

El 43% de noticias se comparte en redes sociales

Según una investigación realizada por CNN, reseñada por The Guardian, los medios sociales como Facebook, Twitter y YouTube son las herramientas más potentes y responsables del 43% de los artículos que se comparten en la red. Estos sitios son seguidos de cerca por el correo electrónico (30%), SMS  (15%) y mensajería instantánea (12%). El estudio […]

08-10-10

COMENTARIOS