Ahora vamos a repasar cómo acceder realmente a partes del marco de datos. Esto siempre es útil, ya que para cualquier tarea de datos en particular, es probable que trabajes sólo con un subconjunto de tus filas o columnas.
Selección de una columna por índice
Digamos que quieres acceder a una columna en particular usando el número de columna. Tal vez quiera entender las ocupaciones en nuestro conjunto de datos. Así es como funciona ese acceso:
1df_base[,2]
r
No sólo vemos los valores de cada fila en la segunda columna impresa, sino también los niveles correspondientes . Ver aquí para más información sobre qué son los niveles. La sintaxis es la misma cuando se selecciona una fila de una tibia, excepto que los niveles no se incluyen porque las columnas con caracteres no se codifican automáticamente como factores y sólo los factores tienen niveles (no te cuelgues si no entiendes los niveles por ahora). Ten en cuenta que la columna de la tibia se imprime un poco mejor (y es un chr o un personaje, pero no en forma de broma).
1df_tidy[,2]
r
Obsérvese que en R, cuando se localiza una celda, [1,2] se refiere a la primera fila y a la segunda columna, de modo que [,2] agarra toda la segunda columna.
Para hacer algo más interesante con esto, y contar el número de trabajos únicos, se utiliza la misma sintaxis dentro de una función:
1unique(df_tidy[,2])
r
Selección de una columna por nombre
Note que mantenemos la sintaxis , ya que queremos toda la columna, y seleccionamos la columna por nombre entre comillas.
1df_base[, "ocupación"]
r
Esto es lo mismo para una tibia (esta es la última vez que haremos la comparación). De nuevo, noten que los niveles han desaparecido porque el orden inverso se basa en caracteres en lugar de factores.
1df_tidy[, "ocupación"]
r
Ya que probablemente has captado el patrón, ahora me centraré únicamente en el orden.
Selección de una fila por índice
Los cálculos suelen realizarse en las columnas o en partes de ellas; cuando se mira una fila entera o unas pocas filas suele ser más para la inspección y el control de la cordura. Digamos que te encuentras con un resultado inesperado de un cálculo y quieres examinar una fila entera en un conjunto de datos.
1df_tidy[1,]
r
Y aquí está la sintaxis para agarrar múltiples filas. Observa que abarca inclusivamente desde la primera a la última fila de interés.
1df_tidy[1:2,]
r
Selección de una fila por contenido
Mientras que normalmente accedemos a las columnas por índice (es decir, número de columna) o por nombre de columna , cuando se trata de filas normalmente accedemos por índice o por contenido de fila . Aunque se pueden nombrar filas en un marco de datos, este no es el flujo de trabajo típico. Más a menudo, identificará las filas por lo que contienen sus celdas.
Digamos que queremos agarrar todas las filas para los ingenieros. Aquí traeremos otras partes del ordenamiento que le ayudarán en su viaje de datos. Nota: Llamaremos al paquete de orden (que son las rodillas de la abeja) y «canalizaremos» los datos de nuestra tibia a la función de filtro usando %>%. Vea mucho más aquí sobre los tubos en la R de Hadley Wickham (gratis) para la Ciencia de los Datos .
123library($0027tidyverse$0027)df_tidy % >% filter(occupation ==$0027engineer$0027)
r