Pandas es una popular librería de manipulación de datos que incluye optimas herramientas de estructura de datos y análisis de información. Su uso se ha extendido a muchos campos como ciencia de datos, finanzas o inteligencia artificial. Durante este artículo, se explicará su uso, la sintaxis para poder aplicar diferentes tareas y algunos casos prácticos. Si quieres un tutorial sobre Pandas, te invito a leer el Blog de 4Geeks, donde encontrarás mucha información relevante.
Aquí un ejemplo inicial sobre Pandas en Python:
1import pandas as pd 2 3# Cargamos informacion de un archivo CSV 4data = pd.read_csv(‘data.csv’) 5# Imprimimos las primeras 5 filas del nuevo DataFrame 6print(data.head()) 7 8# Resultado 9 Nombre Edad País 100 Alejandro 28 Colombia 111 Ana 34 Mexico 122 Pedro 29 Costa Rica
Pandas es una librería open-source que se puede usar con Python y ofrece una gran variedad de optimas y eficientes herramientas para manipular datos de acuerdo con los objetivos establecidos. Además, es posible trabajar tanto con números como con texto, limpieza de datos y explorar los datos para hallar patrones.
Es importante entender que pandas se compone de dos estructuras: Series y DataFrame. Series puede ser entendido como una lista que puede contener cualquier tipo de dato, mientras que el DataFrame es una estructura compuesta de columnas y filas, lo que posibilita aplicar distintas operaciones.
Entre las funcionalidades principales de Pandas destacan:
Ahora se mostrará ejemplos para tener una mayor claridad de cómo funciona la sintaxis básica de Pandas en Python:
1import pandas as pd 2data = {'name': ['Juan', 'Ana', 'Pedro'], 3 'age': [28, 34, 29], 4 'country': ['Colombia', 'México', 'Costa Rica']} 5# Se utiliza data para create un DataFrame(df) 6df = pd.DataFrame(data) 7print(df) 8 9# Resultado 10 name age country 110 Alejandro 28 Colombia 121 Ana 34 México 132 Pedro 29 Costa Rica
1import pandas as pd 2 3# Filtrar los valores de acuerdo con una condicion 4valores_filtrados = df[df['age'] > 30] 5 6# Seleccionar columnas especificas 7columna_seleccionada = df[['name', 'country']] 8 9# Imprimir los datos filtrados: 10print(valores_filtrados) 11print(columna_seleccionada) 12 13# Resultado 14 name age country 151 Ana 34 México 16 17 name country 180 Alejandro Colombia 191 Ana México 202 Pedro Costa Rica
1import pandas as pd 2 3# Agrupar datos por país y calcular el promedio 4datos_agrupados = df.groupby('country')['age'].mean() 5 6# Imprimir datos_agrupados 7print(datos_agrupados) 8 9# Resultado 10country 11México 34.0 12Colombia 28.0 13Costa Rica 29.0 14Name: age, dtype: float64
Ahora se mostrará algunos casos de uso en donde se puede utilizar Pandas eficientemente con datos.
Para procesar y limpiar datos, se puede integrar un código similar a este:
1import pandas as pd 2 3# Manear datos faltantes 4df.dropna() # Remueve las filas o columnas vacías 5df.fillna() # Rellena valores vacíos con un valor especifico 6 7# Remover los duplicados 8df.drop_duplicates() # Remueve las filas duplicadas
Con Pandas, se puede obtener perspectivas de nuestra información como relaciones, patrones, estadísticas, etc.
1import pandas as pd 2 3# Obtenemos las estadísticas de nuestro conjunto de datos 4df.describe() 5 6# Agrupa y sumar valores específicos 7df.groupby('category')['sales'].sum() # Con esto obtenemos el total de ventas por cada cateogria
Mediante Pandas se puede manipular y transformar datos de la siguiente manera:
1Import pandas as pd 2 3# Unir conjuntos de datos 4df_unido = pd.merge(df1, df2, on='ID') # Con esta linea se unen dos DataFrames por medio del ID como columna comun 5 6# Remodelación de datos 7df.pivot_table(index='sale_date', columns='products', values='sales') # Se crea una tabla pivote con estos datos
Pandas es una herramienta muy poderosa que provee varias opciones para desarrollar el análisis de datos. Esta librería se ha vuelto muy popular en los campos de la ciecia de datos, analistas y la inteligencia artificial. Mediante Python y Pandas, se pueden alcanzar varios objeticos al momento de analizar cualquier conjunto de datos y tomar decisiones.
Para aprender mas sobre Pandas y practicar estas habilidades, 4geeks ofrece este tutorial interactivo de Python y Pandas.