pandas入門 – データの基本統計量を確認する

概要

データ分析を行う上で、データの行数や列数、どのようなデータの特性があるかを事前に確認することは非常に重要です。今回はデータの基本統計量の確認方法について解説したいと思います。

基本統計量とは

データの基本的な特徴を表す値のことで、平均値、最大値、最小値、分散、標準偏差などが存在します。

基本統計量の確認

データサイズの確認

まずは、行数、列数といったデータサイズを確認する方法を解説します。

読み込んだデータの大きさを確認するには、DataFrameのshapeを確認します。データの大きさは(行数,列数)というtuple型で出力されます。

df = pd.DataFrame({
    'id': [1, 2, 3],
    'name': ['taro', 'takuya', 'erika'],
    'age': [20, 25, 18],
    'sex': ['male', 'male', 'female']
})

df.shape

# 3行, 4列
(3, 4)

行数を確認するにはlen()を利用します

df(data)

# 行数
3

データの数を確認するには、DataFrameのsizeを確認します。これは行数 * 列数に等しい値となります。

df.size

# データ量
12

describe()を利用することで以下の統計量を確認することができます。

count: 要素の個数
unique: ユニークな値の要素の個数
top: 最頻値
freq: 最頻値の頻度（出現回数）
mean: 算術平均
std: 標準偏差
min: 最小値
max: 最大値
50%: 中央値
25%: 1/4分位数
75%: 3/4分位数

df.describe()

id	age
count	3.0	3.000000
mean	2.0	21.000000
std	1.0	3.605551
min	1.0	18.000000
25%	1.5	19.000000
50%	2.0	20.000000
75%	2.5	22.500000
max	3.0	25.000000

上記の場合、数値型のデータのみ統計量が表示されます。全ての列に対して、統計量を表示したい場合はパタメータinclude='all'を利用します。

df.describe(include='all')

id	name	age	sex
count	3.0	3	3.000000	3
unique	NaN	3	NaN	2
top	NaN	takuya	NaN	male
freq	NaN	1	NaN	2
mean	2.0	NaN	21.000000	NaN
std	1.0	NaN	3.605551	NaN
min	1.0	NaN	18.000000	NaN
25%	1.5	NaN	19.000000	NaN
50%	2.0	NaN	20.000000	NaN
75%	2.5	NaN	22.500000	NaN
max	3.0	NaN	25.000000	NaN