kabaohのブログ

仕事ができなすぎて辛いので、趣味に逃げるカバ野郎

久しぶりに投稿再開

お久しぶりです。といっても、購読者はほとんどいない弊ブログです。

年末年始で本職が何となく忙しくなったり 一年の疲れを休めたりしながらなんとなく 修行編を進めてきました。

やったことは

  1. パンダ力向上
  2. グラフ力向上
  3. SVMとランダムフォレストについての概要把握
  4. 忘年会、初詣、正月ボケ

です。 なお、自分の環境はjupyter notebookです。 DataFrameの表示とかその辺り、Terminalとは 違うところがあるとおもいますがご容赦下さい。

1. パンダ力向上

データ解析するのに、Pythonのpandasがとっても役に立ちます

まず、pandasをimportします 毎回pandasと打つのはだるいので pdという名前で呼び出すことにします

import pandas as pd

これはとても便利。CSVなどの読込をすると かってにDataFrameという形式(?)で読み込んでくれます。 DataFrameという形で読むと、そのあとの操作が簡単になります。

df = pd.read_csv('./iris.csv')

一度読み込むと、dfと叩くだけで読み込んだデータを表示してくれます f:id:kabaoh:20160118103955p:plain


head とか tailとかも使えます

df.head(100)

これで、先頭から100個のデータ表示です。 特定の列だけ表示させたい場合は

df[['Sepal Length']]

などとかきます。


複数書くこともできます。

df[['Sepal Length','Sepal Width']]

こうやって書くと、2つの列だけ表示で来ます。 なお、[ これが1つ足りない状態だと、表示形式がかわって

df['Sepal Length']

f:id:kabaoh:20160118104844p:plain

こんな感じになります。 なお、指定するデータ名に半角スペースが入っていなければ (例えばSpecies)下記のように指定することも可能です

df.['Species']
# これは下記と(多分)同値です。
df.Species

あとは、これらの足し算とか掛け算もできます

2. グラフ力向上

matplotlibとかpandas とかのplotを勉強しました (割愛)

3. SVMとランダムフォレストについての概要把握

実際これらが何をやっているのかの概要を把握しました。 SVMはきちんと数学を理解しないといけないので、細かいところは理解してないです。 数式上に現れるガンマと、コストが何を示していて、カーネルってなんなの? っていうところくらいは理解しました。 ランダムフォレストは、決定木をいっぱい作って多数決でどの木がいいかを決定しているとかいう 荒い理解しかしていません。

4. 忘年会、初詣、正月ボケ

いいたいことはたくさんあるんだよ ひとことで言うと、おみくじは大吉でした

こんな感じでした。 いまはkaggleのコンペをのんびり進めています。 全然スコアがあがらず、ベンチマークすら越えられていませんが頑張っていこうと思います