Saltar al contenido

Datos en disputa con los pandas

La manipulación de los datos incluye la clasificación, fusión, agrupación y alteración de los datos. Pandas ofrece múltiples funciones para manipular los datos como:

Clasificación

Para clasificar el marco de datos en orden ascendente (por defecto) o descendente, utilice la función sort_values. Utiliza el quicksort por defecto para la ordenación, aunque puede ser reemplazado por el mergesort o el heapsort usando la propiedad kind. sort_values as:

Datos en disputa con los pandas
Datos en disputa con los pandas
1234sorted_guest_df = guest_list_df.sort_values($0027GoogleKnowlege_Occupation$0027,# ordenar por columna ascendente=Falso,# habilitar orden descendente kind=$0027heapsort$0027,# algoritmo de ordenación na_position=$0027last$0027)# mantener el valor NaN al final

pitón

Fusión y Concatenación

Pandas tiene una función de fusión que puede ser usada para combinar dos cuadros de datos, al igual que dos tablas SQL usando “joins as”:

12345# Mergesorted_guest_df = pd.merge(lista_de_huéspedes_df.head(3), lista_de_huéspedes_df.tail(3), how=$0027exterior$0027, indicador =True)

pitón

  • cabeza y cola obtendrán las tres filas de la parte superior e inferior como marcos de datos.
  • exterior se requiere combinar dos marcos de datos (cuadros) disímiles (sin filas comunes).
  • El indicador de activación proporcionará información sobre la fuente del marco de datos de cada fila (izquierda o derecha).

Para combinar ambos cuadros de datos en uno nuevo, use el concat como:

123top_df = guest_list_df.head(3)bottom_df = guest_list_df.tail(3)combined_guest_df = pd.concat([top_df, bottom_df])

pitón

Agrupación

La agrupación se utiliza para agregar los datos en diferentes categorías. Un caso de uso común sería crear diferentes tipos de usuarios (de pago/gratuitos) o encontrar el número de huéspedes, teniendo Actuando como Grupo.

12guest_group = guest_list_df.groupby($0027Group$0027)print(guest_group.get_group($0027Acting$0027))

pitón

Renombrar

Use “renombrar” para cambiar el nombre de la columna Grupo a Ocupación como:

1guest_list_df = guest_list_df.rename(columns={$0027Group$0027:$0027Occupation$0027}, index={1:0001})

pitón