pandas を使う
Excel 読込みファイル作成
それでは Excel 読込みファイルを作成していきます。
取り敢えずファイルはたった3行です。
import pandas as pd
xl_df = pd.read_excel('file/CHART-190624-0802-py.xlsx')
xl_df[:5]
まず1行目
外部モジュ-ル pandas を読み込んでそれを pd と呼びますと宣言します。
別に pd ではなくppdd でもなんでも良いのですが、
Python 人は pandas を pd と呼んでいるので素直に従いましょう。
2行目
そして、 pandas の中にある read_excel( ) 関数(メソッド)を使います。
この関数を使うと( )内のエクセルファイルを Python の中に読み込むことができます。
エクセルファイルを置いたフォルダ名も忘れずに指定します。
ファイル構成はノ-トブックを開き、Home を表示したとき
jupyter(Home)
∟panda
∟panda-sam.ipynb
∟file
∟CHART-190624-0802-py.xlsx
のようになっているはずです。
3行目
読み込んだエクセルファイルの 0~4行目を表示します。
実行してみましょう。
Run をクリックすると次のように表示されれば OK です。
エラ-がでて動かない。
そんな人は、xlrd モジュ-ルがインスト-ルされていないのかもしれません。
read_excel( ) 関数は xlrd 機能を利用しています。
pandas 概要に戻って xlrd がインスト-ルされているか確認してください。
DataFrame
読込まれた xl_df は一体どんなものなのでしょうか?
実は DataFrame と呼ばれるオブジェクトなのです。
なので、pandas の中では自由に使えるのですが、
このままでは Python ファイルの中では自由に使えないのです。
Python で使用できるデ-タ型(リスト型)に変換する必要があります。
そこで登場するのが
エクセルファイル1行目の列名例えば Close をキ-にしてその列の値を読出す
.values
が優れもの、
Close = xl_df["Close"].values
とすると Close 列の値をすべて抜き出してくれます。
言い換えると、xl_df は DaraFrame 書式、これをリスト型(浮動小数点型)に変換してくれます。
また、
Date = xl_df["Date"].values
とすると Date 列の値をすべて抜き出してくれます。
この場合はリスト型(文字列型)に変換してくれます。
日付のほかに時刻が
00:00:00:00.000000000
のように変換されてしまいます。
それでは、
import pandas as pd
xl_df = pd.read_excel('file/CHART-190624-0802-py.xlsx')
Close = xl_df["Close"].values
print(Close[:5])
Date = xl_df["Date"].values
print(Date[:5])
として実行してみましょう。
実行結果
[74.696 74.602 75.282 75.539 75.736]
['2019-06-24T00:00:00.000000000'
'2019-06-25T00:00:00.000000000'
'2019-06-26T00:00:00.000000000'
'2019-06-27T00:00:00.000000000'
'2019-06-28T00:00:00.000000000']
CHART-190624-0802-py.xlsx
のなかのClose列とDate列の最初の5行分のデ-タが表示されたはずです。
[:5] が最初の5行分を表示するためのフィルタになっているのがわかります。
ちなみに、最後の5行分を取り出すのには、
Date[-5:]
となります。
ここからラスト1行分を除く場合は
Date[-5:-1]
とします。
このあと、このデ-タを使って折線グラフを描きたいのですが道半ばです。
長くなりましたのでここで一旦切りたいと思います。
pyplot 概要 に続く
pandas 概要 に戻る