概要
データ分析を行う際、表形式でデータを読み込むことによって分析が行いやすくなります。 Pandasを利用することによって簡単にCSVやTSVファイルから簡単にデータをデータフレームとして読み込むことができます。
Pandasとは
Pandasはデータ分析で必要となる便利な機能を提供するライブラリです。 Pandasを利用するとデータの読み込みや、行・列の値へのアクセス、データの変換、グラフによる可視化などが簡単に行えます。データはDataFrameという型た読み込まれます。
pd.read_csv('{ファイルパス}')
使い方
以下は基本的な利用例となります。
# ライブラリのインポート
import pandas as pd
# データの読み込み
data = pd.read_csv('sample.csv')
# 確認
print(data.head())
# データ量の確認
print(data.shape)
# データ型の確認
print(data.info())
パラメーター
encoding
文字コードがshift_jis
のデータを読み込む場合など以下のように文字コードをしてすることができます。
data = pd.read_csv('sample.csv', encoding='shift_jis')
data = pd.read_csv('sample.csv', encoding='utf-8')
index_col
読み込んだDataFrameのindexに利用するカラムを指定することができます。 以下はID
という名称のカラムをindexとして読み込む例です。
data = pd.read_csv('sample.csv', index_col='ID')
usecols
ファイルの中から全てのカラムを読み込むのではなく、一部のカラムを指定して読み込むことができます。 引数はリスト型で複数の値を指定することができます。
data = pd.read_csv('sample.csv', usecols=['ID', 'NAME', 'AGE'])
sep
区切り文字がカンマ
のCSVファイル以外にも区切り文字がタブ
のTSVファイルなどを読み込むことも可能です。 TSVファイルを読み込む場合には以下のように区切り文字を指定します。
data = pd.read_csv('sample.csv', sep='\t')
今回は基本的なパラメータを紹介しましたが、他にも多くのパラメータがあります。 より詳しくは以下のドキュメントをご確認ください。
まとめ
いかがでしょうか。pandasを利用するとファイルから簡単にデータを読み込み、確認できるを確認いただけたと思います。 pandasにはExcelファイルからデータを読み込むread_excel()
などもありますので、また別の記事でご紹介させていただきたいと思います。