Matplotlib es una librería de visualización de Python que proporciona una variedad de herramientas y funciones para crear gráficos y visualizaciones estáticas, animadas e interactivas. Es una de las bibliotecas más populares y ampliamente utilizadas en la comunidad de Python.
pyplot
es un módulo de la biblioteca Matplotlib que proporciona una interfaz sencilla e intuitiva para crear gráficos. Normalmente, es el módulo que utilizan los ingenieros de Machine Learning y ciencia de datos para sus representaciones gráficas. En concreto, los puntos claves de este módulo son:
import numpy as np
X = np.linspace(0, 10, 100)
y = np.sin(X)
z = np.cos(X)
El gráfico de líneas (line plot) representa la información en puntos conectados por líneas. Es útil para mostrar la evolución de una o más series de datos a lo largo de un eje, típicamente el tiempo,
import matplotlib.pyplot as plt
plt.figure(figsize = (10, 5))
plt.plot(X, y, label = "Seno de X")
plt.plot(X, z, label = "Coseno de X")
plt.title("Gráfico de líneas")
plt.legend()
plt.show()
El gráfico de dispersión (scatter plot) muestra valores individuales de dos variables numéricas en un plano cartesiano (con dos ejes). Cada punto representa una observación.
plt.figure(figsize = (10, 5))
plt.scatter(X, y, label = "Seno de X")
plt.title("Gráfico de dispersión")
plt.legend()
plt.show()
El histograma (histogram) representa la distribución de una variable numérica dividiendo el rango de datos en intervalos y mostrando cuántos datos caen en cada uno de ellos (para variables continuas) o la frecuencia de cada categoría (para variables categóricas).
data = np.random.randn(1000)
plt.figure(figsize = (10, 5))
plt.hist(data, bins = 30, alpha = 0.7)
plt.title("Histograma")
plt.show()
El gráfico de barras (bar plot) representa datos categóricos con barras rectangulares con alturas (o longitudes, en el caso de barras horizontales) proporcionales a los valores que representan.
labels = ["A", "B", "C", "D"]
values = [10, 20, 15, 30]
plt.figure(figsize = (10, 5))
plt.bar(labels, values)
plt.title("Gráfico de barras")
plt.show()
Un gráfico circular (pie chart) representa datos en sectores circulares, donde cada sector corresponde a una categoría y su tamaño es proporcional al valor que representa.
labels = ["A", "B", "C", "D"]
sizes = [215, 130, 245, 210]
plt.figure(figsize = (7, 7))
plt.pie(sizes, labels = labels)
plt.title("Gráfico circular")
plt.show()
Un gráfico de caja (boxplot) muestra la distribución de datos cuantitativos mediante su cuartil y posiblemente valores atípicos.
Los extremos de la caja indican el cuartil inferior y superior, mientras que la línea dentro de la caja indica la mediana.
data = np.random.randn(1000)
plt.figure(figsize = (10, 5))
plt.boxplot(data)
plt.title("Gráfico de caja")
plt.show()
x = [1, 2, 3, 4], y = [1, 2, 0, 0.5]
(★☆☆)¶
NOTA: Puedes encontrar el dataset en https://raw.githubusercontent.com/cvazquezlos/machine-learning-prework/main/04-matplotlib/assets/titanic_train.csv