Archive for Web Scraping

deshabilitar pólitica X-Frame-Options en PhantonJS / QtWebKit

Sep 26, 2016 No Comments by

El encabezado opcional “X-Frame-Options” del Response HTTP, nos permite poder definir una regla de renderización (aceptar o denegar) al momento de cargar una página en un elemento frame/iframe, esto es muy útil para evitar ataques del tipo Clickjacking o si deseamos que nadie nos pueda incrustar una página en un iframe. Siempre y cuando el [...]

Web Scraping Read more

extracción de datos en un archico PDF de forma automatizada

Jun 13, 2013 No Comments by

A veces la extracción de datos de un archivo PDF no es tarea facil , sin embargo, existen algunas librerías libres que nos permiten hacer esta tarea más amena, una de ellas es Xpdf que contiene al comando pdftotext (su nombre lo dice todo xD).    

Web Scraping Read more

Extrayendo resultados de google mobile con CasperJS

Mar 25, 2013 1 Comment by

CasperJS es un framework sobre PhantomJS que nos entrega una herramienta de mas alto nivel (comparado con PhantomJS) para automatizar procesos en un navegador, como completar formularios, extraer datos, secuencia de navegación entre páginas, etc. Instalación con git Ahora solo nos queda agregar la ruta del “binario” de casperjs a nuestras variables PATH global o [...]

Javascript, Web Scraping Read more

Acceder al interior de un iframe (distinto dominios) con phantomjs

Feb 27, 2013 2 Comments

Phantomjs es un browser funcional (basado en WebKit) bajo línea de comandos, contiene una API y es programable a través de Javascript, permitiendo manejar (de forma automatizada) Javascript, DOM handling, CSS selector, JSON, Canvas, and SVG realmente en un navegador. Como no requiere de una interfaz X, es ideal para automatiza tareas como pruebas unitarias, [...]

Read more

descargando archivos con php curl

Feb 25, 2013 3 Comments

Una forma sencilla y eficiente para descargar archivos con curl, es crear un nuevo recurso de archivo y asociarlo a curl a través de la opción CURLOPT_FILE con curl_setopt. El siguiente ejemplo primero se autentifica contra un supuesto sitio (capturando las cookies) y luego procede a descargar el archivo (que requiere autentificación).

Read more

Configurar proxy para una sesión CURL en PHP

May 03, 2012 1 Comment

Si necesitas utilizar un proxy en CURL (en php) para la extración de datos, solo debes configurar los parametro CURLOPT_PROXY, CURLOPT_PROXYPORT y CURLOPT_PROXYUSERPWD con curl_setopt. El siguiente ejemplo, utiliza el proxy 192.168.1.10 puerto 8080 para acceder a la url http://intranet/news.aspx, además de auntentificación NTLM (opcional).

Read more

Autentificación NTLM a través de CURL en PHP

May 03, 2012 No Comments

A veces es necesario extraer datos de una aplicación web, que solicite autentificación NTLM (por ejemplo una aplicación web en .net bajo IIS), a través de CURL, podemos configurar las credenciales NTLM para acceder al recurso solicitado. Solo debemos setear el parámetro CURLOPT_HTTPAUTH con la constante CURLAUTH_NTLM. El siguiente ejemplo postea un par de datos [...]

Read more

Capturar datos de otra web en PHP

Nov 30, 2011 195 Comments

A veces es necesario extraer datos “públicos” desde alguna fuente en internet, en PHP, lo podemos hacer con un GET y una que otra expresión regular. Como en todo, hay varias formas, pero creo que la más sencilla es utilizar la función file_get_contents para realizar un simple GET y obtener el contenido del sitio web. [...]

Read more

Cómo realizar una conexión http get en Java

Oct 13, 2011 1 Comment

En Java, disponemos de la clase java.net.URL, una clase de alto nivel que nos permite trabajar de una forma sencilla con las Uniform Resource Locator, es decir, URL. Para realizar una conexión HTTP GET, podemos usar el método openStream (de URL) para obtener un clásico objeto InputStream, el resto es simplemente leer el Stream. El [...]

Read more