kabaohのブログ

仕事ができなすぎて辛いので、趣味に逃げるカバ野郎

自分でタイタニックのチュートリアルを解く(5)

前回と今回はtoolの使い方の勉強。
世の中にあふれる技術ブログたちは、参考になるんだけど
エントリの内容がスマート過ぎて参考にならないことも多々。
このブログは備忘録代わりだし泥臭いところから。

まずチュートリアルを解くあたって、どこかデータに着目しないといけないと考えた。
そしてそれを決定するにはやはり見やすいグラフが一番助けになると。

ではグラフを表示させるにはどんなやり方があるのだろうか。
パーセプトロンのところでも使ったけれど、やっぱりmatplotlibを使うのが一番良さそうだ。
どこかで書くつもりのpandasの公式ドキュメントのVisualizationが良さそうだったのでそこを参考に

ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
ts = ts.cumsum()
ts.plot()

f:id:kabaoh:20151204231153p:plain

確かに表示される。
中身はなんだろう。

np.random.randn(1000)はどうやら1000個のランダムデータをarray形式で作成する関数。
np.random.randn(10)を実行した結果

array([-1.56413419, -1.05268384, -0.72886754,  0.48600949,  1.0781502 ,
        0.24644173, -0.00739214, -1.43059049, -0.77819694,  1.57174671])

となった。なるほど。
indexはx軸に表示されている日付のあたりを設定しているんだろう。
df.cumsum()は累積和。
ではSeriesってなんだろ...

"class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
One-dimensional ndarray with axis labels (including time series)."

らしいので、一次元のデータを時系列データに直してくれるモジュールのもよう