Data Science

Python

Machine Learning

Pandas

Pandas Exercises And Solutions

The following list below are solutions for the pandas exercises given in the pandas python lesson at 4Geeks.com, click here to access the exercise instructions.

In [ ]:

import numpy as np
import pandas as pd

np.random.seed(42)

Exercise 01¶

In [2]:

# From list
l = [1, 2, 3, 4, 5, 6]
serie = pd.Series(l)
print(serie)

# From NumPy array
array = np.array([1, 2, 3, 4, 5, 6])
serie = pd.Series(array)
print(serie)

# From dictionary
d = {"A": 1, "B": 2, "C": 3}
serie = pd.Series(d)
print(serie)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
A    1
B    2
C    3
dtype: int64

Exercise 02¶

In [3]:

# From NumPy array
array = np.random.randint(1, 10, size = (5, 5))
dataframe = pd.DataFrame(array)
dataframe

Out[3]:

	0	1	2	3	4
0	7	4	8	5	7
1	3	7	8	5	4
2	8	8	3	6	5
3	2	8	6	2	5
4	1	6	9	1	3

In [4]:

# From dictionary
d = {
    "A": np.random.randint(10, 100, size = 5),
    "B": np.linspace(1, 10, 5),
    "C": np.random.randn(5)
}
dataframe = pd.DataFrame(d)
dataframe

Out[4]:

	A	B	C
0	64	1.00	-0.600254
1	73	3.25	0.947440
2	12	5.50	0.291034
3	60	7.75	-0.635560
4	16	10.00	-1.021552

In [5]:

# From list of tuples
t = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
dataframe = pd.DataFrame(t)
dataframe

Out[5]:

	0	1	2
0	1	2	3
1	4	5	6
2	7	8	9

Exercise 03¶

In [6]:

s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([4, 5, 6, 7, 8])

# Method 1
dataframe = pd.DataFrame({"ser1": s1, "ser2": s2})
dataframe = pd.DataFrame({"ser1": s1, "ser2": s2}, index = s1.index)
dataframe

Out[6]:

	ser1	ser2
0	1	4
1	2	5
2	3	6
3	4	7
4	5	8

In [7]:

# Method 2
dataframe = pd.concat([s1, s2], axis = 1)
dataframe

Out[7]:

	0	1
0	1	4
1	2	5
2	3	6
3	4	7
4	5	8

In [8]:

# Method 3
s1.name = "ser1"
s2.name = "ser2"

dataframe = s1.to_frame().join(s2)
dataframe

Out[8]:

	ser1	ser2
0	1	4
1	2	5
2	3	6
3	4	7
4	5	8

Exercise 04¶

In [9]:

s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([4, 5, 6, 7, 8])

# Method 1: Using Pandas function
filtering_results = s1.isin(s2)
indices = s1[filtering_results].index

indices

Out[9]:

Index([3, 4], dtype='int64')

In [10]:

# Method 2: Using NumPy function
indices = np.where(s1.isin(s2))
indices

Out[10]:

(array([3, 4]),)

In [11]:

# Method 3: Using Python
indices = []

for value in s1.values:
    if value in s2.values:
        indices.append(s1[s1 == value].index[0])
indices

Out[11]:

[3, 4]

Exercise 05¶

In [12]:

s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([4, 5, 6, 7, 8])

# Method 1
unique_s1 = s1[~s1.isin(s2)]
unique_s2 = s2[~s2.isin(s1)]

unique_elements = np.concatenate([unique_s1, unique_s2])
unique_elements

Out[12]:

array([1, 2, 3, 6, 7, 8])

In [13]:

# Method 2
concat = pd.concat([s1, s2])
unique_elements = concat[~concat.duplicated(keep = False)].values
unique_elements

Out[13]:

array([1, 2, 3, 6, 7, 8])

Exercise 06¶

In [14]:

df = pd.DataFrame(np.random.rand(10, 5) * 10, columns = [f"Col {i}" for i in range(5)])
df

Out[14]:

	Col 0	Col 1	Col 2	Col 3	Col 4
0	4.951769	0.343885	9.093204	2.587800	6.625223
1	3.117111	5.200680	5.467103	1.848545	9.695846
2	7.751328	9.394989	8.948274	5.979000	9.218742
3	0.884925	1.959829	0.452273	3.253303	3.886773
4	2.713490	8.287375	3.567533	2.809345	5.426961
5	1.409242	8.021970	0.745506	9.868869	7.722448
6	1.987157	0.055221	8.154614	7.068573	7.290072
7	7.712703	0.740447	3.584657	1.158691	8.631034
8	6.232981	3.308980	0.635584	3.109823	3.251833
9	7.296062	6.375575	8.872127	4.722149	1.195942

In [15]:

df.sort_values("Col 0")

Out[15]:

	Col 0	Col 1	Col 2	Col 3	Col 4
3	0.884925	1.959829	0.452273	3.253303	3.886773
5	1.409242	8.021970	0.745506	9.868869	7.722448
6	1.987157	0.055221	8.154614	7.068573	7.290072
4	2.713490	8.287375	3.567533	2.809345	5.426961
1	3.117111	5.200680	5.467103	1.848545	9.695846
0	4.951769	0.343885	9.093204	2.587800	6.625223
8	6.232981	3.308980	0.635584	3.109823	3.251833
9	7.296062	6.375575	8.872127	4.722149	1.195942
7	7.712703	0.740447	3.584657	1.158691	8.631034
2	7.751328	9.394989	8.948274	5.979000	9.218742

In [16]:

df.sort_values(by = ["Col 2", "Col 4"])

Out[16]:

	Col 0	Col 1	Col 2	Col 3	Col 4
3	0.884925	1.959829	0.452273	3.253303	3.886773
8	6.232981	3.308980	0.635584	3.109823	3.251833
5	1.409242	8.021970	0.745506	9.868869	7.722448
4	2.713490	8.287375	3.567533	2.809345	5.426961
7	7.712703	0.740447	3.584657	1.158691	8.631034
1	3.117111	5.200680	5.467103	1.848545	9.695846
6	1.987157	0.055221	8.154614	7.068573	7.290072
9	7.296062	6.375575	8.872127	4.722149	1.195942
2	7.751328	9.394989	8.948274	5.979000	9.218742
0	4.951769	0.343885	9.093204	2.587800	6.625223

Exercise 07¶

In [17]:

df.columns = [f"{i}_column" for i in range(5)]
df

Out[17]:

	0_column	1_column	2_column	3_column	4_column
0	4.951769	0.343885	9.093204	2.587800	6.625223
1	3.117111	5.200680	5.467103	1.848545	9.695846
2	7.751328	9.394989	8.948274	5.979000	9.218742
3	0.884925	1.959829	0.452273	3.253303	3.886773
4	2.713490	8.287375	3.567533	2.809345	5.426961
5	1.409242	8.021970	0.745506	9.868869	7.722448
6	1.987157	0.055221	8.154614	7.068573	7.290072
7	7.712703	0.740447	3.584657	1.158691	8.631034
8	6.232981	3.308980	0.635584	3.109823	3.251833
9	7.296062	6.375575	8.872127	4.722149	1.195942

Exercise 08¶

In [18]:

df.index = [f"{i}_row" for i in range(10)]
df

Out[18]:

	0_column	1_column	2_column	3_column	4_column
0_row	4.951769	0.343885	9.093204	2.587800	6.625223
1_row	3.117111	5.200680	5.467103	1.848545	9.695846
2_row	7.751328	9.394989	8.948274	5.979000	9.218742
3_row	0.884925	1.959829	0.452273	3.253303	3.886773
4_row	2.713490	8.287375	3.567533	2.809345	5.426961
5_row	1.409242	8.021970	0.745506	9.868869	7.722448
6_row	1.987157	0.055221	8.154614	7.068573	7.290072
7_row	7.712703	0.740447	3.584657	1.158691	8.631034
8_row	6.232981	3.308980	0.635584	3.109823	3.251833
9_row	7.296062	6.375575	8.872127	4.722149	1.195942