Web scraping rudimentario II

October 29, 2011
By

This post was kindly contributed by Ciencia Política Computacional - go there to comment and to read the full post.

Siguiendo con el post anterior, colgué una pregunta en Stack Overflow, uno de los mejores recursos online para aprender y sacarse dudas en cuanto a programación. La pregunta es está, y no tuve que esperar mucho para obtener una respuesta satisfactoria.

Con estas funciones podemos automatizar el webscraping sobre la lista de urls que tengamos. Así...

# Método 1
tabla <- list()
for(i in seq_along(urls))
{
    total <- readHTMLTable(urls[i])
    n.rows <- unlist(lapply(total, function(t) dim(t)[1]))
    tabla[[i]] <- as.data.frame(total[[which.max(n.rows)]])
}

# Método 2
tabla <- lapply(urls, function(url) {
    total <- readHTMLTable(url)
    n.rows <- unlist(lapply(total, function(t) dim(t)[1]))
    as.data.frame(total[[which.max(n.rows)]])
})
...podemos guardar la información en un vector y luego convertirlo en data frame.

Tags: ,

Comments are closed.