| This post was kindly contributed by Political R Analysis - go there to comment and to read the full post. |
Tengo que presentar en algunos meses un trabajo que tiene como objetivo probar algunos modelos sobre satisfacción con la democracia. Más adelante, con mayor detalle, explicaré la idea y las hipótesis principales. Para efectos de este blog, iré mostrando paso a paso como, siempre con R, llego a probar ( si lo termino) las hipótesis de este trabajo.
Primera gran pregunta ¿Cuál será mi fuente? Hasta ahora tengo claro que usaré LAPOP, y empezaré por seleccionar de la base de Perú las preguntas que me interesan. Creo que este debe ser el primer paso para empezar a trabajar,
considerando que LAPOP tienen muchas más variables de las que me interesan. Entonces los objetivos de este post son:
- Cargar la data de LAPOP Perú a R.
- Seleccionar las variables que me interesan.
- Grabar una base de datos con las variables que he seleccionado>
- #El "T" es para decirle que me respete las categorias en mis variables categoricas.
- #El "to.data.frame" es para decirle que la base tiene formato de base de datos.
- #Si quieres saber más sobre las opciones de read.spps tienes que usar el comando: ?read.spss
- En total son 263 variables
Vamos a usar para este post la base de datos de LAPOP Perú. Si quieres saber más sobre LAPOP y pedir la base de datos lo puedes hacer aquí
Vamos al R
library(foreign) # Mi data está en SPSS, por eso necesito el paquete foreign.
data<-read.spss("Peru_LAPOP_AmericasBarometer 2010 data set approved V3.sav",T, to.data.frame=TRUE)
Una vez que ya tenemos la base, conozcamos un poco la información que tenemos
names(data) # Le pido me entregue todos los nombres de la data summary(data$q1)# Pruebo con información simple de una variable
Yo quiero trabajar con un grupo especifico de variables, que las juntare en una base de datos. Las variables que necesito son:
ed,q2,q11,etid,peretid2,rac4,dis11,dis17,dis13,dis12,
rac1a,rac1b,rac1d,rac1e,rac3c,d5,d6,q3c,q5a,q5b,peretida,leng1,haicr1,www1,gi0,gi1, gi3,gi4,r1,r3,r4,r4a,r5,r6,r7,r8,r12,r14,r15,r16,r18,ocup4a,ocup1a,ocup1,ocup1b1, ocup1b2,ocup1anc,pen1,pen3,pen4,it1,it1a,l1,eff2,rac3a,rac3b
Como son muchas variables utilizare la función "attach" esto me permite llamar a las variables directamente, de los contrario al nombre de cada variable tiene que anteceder "data$ "
attach(data)
Creo en un objeto mi lista de variables
misvariables<-c("q1","ed","q2","q11","etid","peretid2","rac4","dis11","dis17","dis13","dis12","rac1a",
"rac1b","rac1d","rac1e","rac3c","d5","d6","q3c","q5a","q5b","peretida","leng1","haicr1", "www1","gi0","gi1","gi3","gi4","r1","r3","r4","r4a","r5","r6","r7","r8","r12","r14","r15", "r16","r18","ocup4a","ocup1a","ocup1","ocup1b1","ocup1b2","ocup1anc","pen1","pen3", "pen4","it1","it1a","l1","eff2","rac3a")
Ahora de la data total extraere las variables que me interesan
data1<-data[misvariables] names(data1)
Ya que tengo la base de datos que necesito, la guardaré en formato R
save(data1,file="set_Peru.rdata")
No existe una sola forma de extraer las variables que necesitamos, sin embargo esta me parecio útil por que conserva todas las caracteristicas de la base original, es decir las etiquetas en los factores, tipo de variables etc.
Te recomiendo que revises el cuestionario y selecciones las variables que más te interesan así puedes seguir estos post con más ánimo.
Ok eso es todo nos vemos en el siguiente post