pandas入門 – データの基本統計量を確認する

概要

データ分析を行う上で、データの行数や列数、どのようなデータの特性があるかを事前に確認することは非常に重要です。 今回はデータの基本統計量の確認方法について解説したいと思います。

基本統計量とは

データの基本的な特徴を表す値のことで、平均値、最大値、最小値、分散、標準偏差などが存在します。

基本統計量の確認

データサイズの確認

まずは、行数、列数といったデータサイズを確認する方法を解説します。

読み込んだデータの大きさを確認するには、DataFrameのshapeを確認します。 データの大きさは(行数,列数)というtuple型で出力されます。

df = pd.DataFrame({
    'id': [1, 2, 3],
    'name': ['taro', 'takuya', 'erika'],
    'age': [20, 25, 18],
    'sex': ['male', 'male', 'female']
})
df.shape
# 3行, 4列
(3, 4)

行数を確認するにはlen()を利用します

df(data)
# 行数
3

データの数を確認するには、DataFrameのsizeを確認します。 これは行数 * 列数に等しい値となります。

df.size
# データ量
12

describe()を利用することで以下の統計量を確認することができます。

  • count: 要素の個数
  • unique: ユニークな値の要素の個数
  • top: 最頻値
  • freq: 最頻値の頻度(出現回数)
  • mean: 算術平均
  • std: 標準偏差
  • min: 最小値
  • max: 最大値
  • 50%: 中央値
  • 25%: 1/4分位数
  • 75%: 3/4分位数
df.describe()
id	age
count	3.0	3.000000
mean	2.0	21.000000
std	1.0	3.605551
min	1.0	18.000000
25%	1.5	19.000000
50%	2.0	20.000000
75%	2.5	22.500000
max	3.0	25.000000

上記の場合、数値型のデータのみ統計量が表示されます。 全ての列に対して、統計量を表示したい場合はパタメータinclude='all'を利用します。

df.describe(include='all')
id	name	age	sex
count	3.0	3	3.000000	3
unique	NaN	3	NaN	2
top	NaN	takuya	NaN	male
freq	NaN	1	NaN	2
mean	2.0	NaN	21.000000	NaN
std	1.0	NaN	3.605551	NaN
min	1.0	NaN	18.000000	NaN
25%	1.5	NaN	19.000000	NaN
50%	2.0	NaN	20.000000	NaN
75%	2.5	NaN	22.500000	NaN
max	3.0	NaN	25.000000	NaN

まとめ

pandasを利用することで、データの統計量を簡単に確認できます。 データの統計量を確認することはデータ分析のファーストステップであり重要な作業となります。