pandas入門 – CSVからデータを読み込む

概要

データ分析を行う際、表形式でデータを読み込むことによって分析が行いやすくなります。 Pandasを利用することによって簡単にCSVやTSVファイルから簡単にデータをデータフレームとして読み込むことができます。

Pandasとは

Pandasはデータ分析で必要となる便利な機能を提供するライブラリです。 Pandasを利用するとデータの読み込みや、行・列の値へのアクセス、データの変換、グラフによる可視化などが簡単に行えます。データはDataFrameという型た読み込まれます。

pd.read_csv('{ファイルパス}')

使い方

以下は基本的な利用例となります。

# ライブラリのインポート
import pandas as pd

# データの読み込み
data = pd.read_csv('sample.csv')

# 確認
print(data.head())
# データ量の確認
print(data.shape)
# データ型の確認
print(data.info())

パラメーター

encoding

文字コードがshift_jisのデータを読み込む場合など以下のように文字コードをしてすることができます。

data = pd.read_csv('sample.csv', encoding='shift_jis')
data = pd.read_csv('sample.csv', encoding='utf-8')

index_col

読み込んだDataFrameのindexに利用するカラムを指定することができます。 以下はIDという名称のカラムをindexとして読み込む例です。

data = pd.read_csv('sample.csv', index_col='ID')

usecols

ファイルの中から全てのカラムを読み込むのではなく、一部のカラムを指定して読み込むことができます。 引数はリスト型で複数の値を指定することができます。

data = pd.read_csv('sample.csv', usecols=['ID', 'NAME', 'AGE'])

sep

区切り文字がカンマのCSVファイル以外にも区切り文字がタブのTSVファイルなどを読み込むことも可能です。 TSVファイルを読み込む場合には以下のように区切り文字を指定します。

data = pd.read_csv('sample.csv', sep='\t')

今回は基本的なパラメータを紹介しましたが、他にも多くのパラメータがあります。 より詳しくは以下のドキュメントをご確認ください。

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

まとめ

いかがでしょうか。pandasを利用するとファイルから簡単にデータを読み込み、確認できるを確認いただけたと思います。 pandasにはExcelファイルからデータを読み込むread_excel()などもありますので、また別の記事でご紹介させていただきたいと思います。