pandas を使う

Excel 読込みファイル作成

それでは Excel 読込みファイルを作成していきます。
取り敢えずファイルはたった3行です。

import pandas as pd
xl_df = pd.read_excel('file/CHART-190624-0802-py.xlsx')
xl_df[:5]

まず1行目
外部モジュ-ル pandas を読み込んでそれを pd と呼びますと宣言します。
別に pd ではなくppdd でもなんでも良いのですが、 Python 人は pandas を pd と呼んでいるので素直に従いましょう。
2行目
そして、 pandas の中にある read_excel( ) 関数(メソッド)を使います。
この関数を使うと( )内のエクセルファイルを Python の中に読み込むことができます。
エクセルファイルを置いたフォルダ名も忘れずに指定します。
ファイル構成はノ-トブックを開き、Home を表示したとき
jupyter(Home)
  ∟panda
    ∟panda-sam.ipynb
    ∟file
      ∟CHART-190624-0802-py.xlsx
のようになっているはずです。
3行目
読み込んだエクセルファイルの 0~4行目を表示します。
実行してみましょう。
Run をクリックすると次のように表示されれば OK です。


pandas ファイル実行

エラ-がでて動かない。
そんな人は、xlrd モジュ-ルがインスト-ルされていないのかもしれません。
read_excel( ) 関数は xlrd 機能を利用しています。
pandas 概要に戻って xlrd がインスト-ルされているか確認してください。

DataFrame

読込まれた xl_df は一体どんなものなのでしょうか?
実は DataFrame と呼ばれるオブジェクトなのです。
なので、pandas の中では自由に使えるのですが、 このままでは Python ファイルの中では自由に使えないのです。
Python で使用できるデ-タ型(リスト型)に変換する必要があります。
そこで登場するのが
エクセルファイル1行目の列名例えば Close をキ-にしてその列の値を読出す
.values
が優れもの、
Close = xl_df["Close"].values
とすると Close 列の値をすべて抜き出してくれます。
言い換えると、xl_df は DaraFrame 書式、これをリスト型(浮動小数点型)に変換してくれます。
また、
Date = xl_df["Date"].values
とすると Date 列の値をすべて抜き出してくれます。
この場合はリスト型(文字列型)に変換してくれます。
日付のほかに時刻が
00:00:00:00.000000000
のように変換されてしまいます。
それでは、

import pandas as pd
xl_df = pd.read_excel('file/CHART-190624-0802-py.xlsx')
Close = xl_df["Close"].values
print(Close[:5])
Date = xl_df["Date"].values
print(Date[:5])

として実行してみましょう。

実行結果

[74.696 74.602 75.282 75.539 75.736]
['2019-06-24T00:00:00.000000000'
'2019-06-25T00:00:00.000000000'
'2019-06-26T00:00:00.000000000'
'2019-06-27T00:00:00.000000000'
'2019-06-28T00:00:00.000000000']

CHART-190624-0802-py.xlsx
のなかのClose列とDate列の最初の5行分のデ-タが表示されたはずです。
[:5] が最初の5行分を表示するためのフィルタになっているのがわかります。
ちなみに、最後の5行分を取り出すのには、
Date[-5:]
となります。
ここからラスト1行分を除く場合は
Date[-5:-1]
とします。

このあと、このデ-タを使って折線グラフを描きたいのですが道半ばです。
長くなりましたのでここで一旦切りたいと思います。


pyplot 概要 に続く
pandas 概要 に戻る 

63PearVillage に戻る