概要
データ分析を行う上で、データの行数や列数、どのようなデータの特性があるかを事前に確認することは非常に重要です。 今回はデータの基本統計量の確認方法について解説したいと思います。
基本統計量とは
データの基本的な特徴を表す値のことで、平均値、最大値、最小値、分散、標準偏差などが存在します。
基本統計量の確認
データサイズの確認
まずは、行数、列数といったデータサイズを確認する方法を解説します。
読み込んだデータの大きさを確認するには、DataFrameのshape
を確認します。 データの大きさは(行数,列数)というtuple型で出力されます。
df = pd.DataFrame({
'id': [1, 2, 3],
'name': ['taro', 'takuya', 'erika'],
'age': [20, 25, 18],
'sex': ['male', 'male', 'female']
})
df.shape
# 3行, 4列
(3, 4)
行数を確認するにはlen()
を利用します
df(data)
# 行数
3
データの数を確認するには、DataFrameのsize
を確認します。 これは行数 * 列数に等しい値となります。
df.size
# データ量
12
describe()
を利用することで以下の統計量を確認することができます。
- count: 要素の個数
- unique: ユニークな値の要素の個数
- top: 最頻値
- freq: 最頻値の頻度(出現回数)
- mean: 算術平均
- std: 標準偏差
- min: 最小値
- max: 最大値
- 50%: 中央値
- 25%: 1/4分位数
- 75%: 3/4分位数
df.describe()
id age
count 3.0 3.000000
mean 2.0 21.000000
std 1.0 3.605551
min 1.0 18.000000
25% 1.5 19.000000
50% 2.0 20.000000
75% 2.5 22.500000
max 3.0 25.000000
上記の場合、数値型のデータのみ統計量が表示されます。 全ての列に対して、統計量を表示したい場合はパタメータinclude='all'
を利用します。
df.describe(include='all')
id name age sex
count 3.0 3 3.000000 3
unique NaN 3 NaN 2
top NaN takuya NaN male
freq NaN 1 NaN 2
mean 2.0 NaN 21.000000 NaN
std 1.0 NaN 3.605551 NaN
min 1.0 NaN 18.000000 NaN
25% 1.5 NaN 19.000000 NaN
50% 2.0 NaN 20.000000 NaN
75% 2.5 NaN 22.500000 NaN
max 3.0 NaN 25.000000 NaN
まとめ
pandasを利用することで、データの統計量を簡単に確認できます。 データの統計量を確認することはデータ分析のファーストステップであり重要な作業となります。