ipemoの日記

読んだ本や買ったもの等

【読書】Pythonによる経済・経営分析のためのデータサイエンス

Pythonによる経済・経営分析のためのデータサイエンス~分析の基礎から因果推論まで

PandasでExcelはある程度扱えるようになったので、もう少しデータサイエンスなるもののスキルを掘り下げてみたいがどうしたものかと思っていたところ、某知財情報コンサルタント氏が何故か専門でもないのにTwitterでRTしており、なんとなく良さそうかなと踏んで、中身も見ずに予約して買ったもの。

とりあえずざっと読んだので、メモ。

Smipsでも公演されるようですね。

知的財産マネジメント研究会 » Blog Archive » 第218回 知的財産マネジメント研究会(Smips)

対象がよくわからない

人により自分の実力は以下と認識しています。

  • Pythonは趣味レベル(大学・大学院でJavaを少しやって、Pythonに少しキャッチアップしたところ。仕事のExcel処理でPandasを活用中。)
  • 統計はほとんど勉強していない

結論から書けば、ある程度スラスラ読むには、以下の要件の両方が必要であり、また以下の要件を備えた人は読む必要はないのではと考えます。差し引いて残るのは本書の前半にあるスクレイピングの知識ぐらいでしょうか*1

  1. Pythonコードを理解して書き直しできる
  2. 統計の知識も持っている

コードは理解して書き直し必須

まず、紙面の問題や手間の問題があるのだろうとは思うのですが、Pythonのコードの載せ方がよくわからず、「Pythonゼロから学びます」みたいな人には向いていません。

Pythonのコードの載せ方がよくわからず」というのは、

  • 本文に載っているプログラムコードはJupyter Notebookの形式ではなく普通のPythonファイルのプログラム。なので、Jupyternotebookでデータを逐次見ながら使用するには、コードを理解して書き直す(というか分割する)必要あり。
  • コードも特に整頓されておらず、とりあえず実行させたものがそのまま記載されているという印象を受けます。実行内容とあまり関係の無いコメント(コメントアウトされたコード)等*2も見られる

というもので、要するにコードを理解して書き直す(分割する)必要があるように思います。

統計の知識も必須

自分がつまずいたのはどちらかといえばこちらです。 途中で検定等に関する処理、その指標、及びその意義について、理解していることが前提とされたものとなっており、統計の知識がないと途中で進められなくなります*3

自分は本書を読み進めるには、統計の勉強が必要だと判断し、途中で読み進めるのをやめて今このエントリを書いています。

その他

最初のサンプルコードで個人のサイトを使用したためか、スクレイピングできないような対策をされてしまった?等、書籍の内容だけではフォローできない状態となっているようです。基本的に、書籍に記載の著者のWebサイトは見る必要があります。

まとめ

素人としては、スクレイピング等の処理は、実例として参考になった部分はあります。 本書を読み進めるためにはある程度の前提スキルが必要であり、そのある程度の前提スキルを持っている人が本書を買う必要があるかはなんとも言えません。

*1:これはこれで役には立ちましたが

*2:恐らく、Jupyter Notebookで作業していたときにデータを見るために実行したコード

*3:その後、決定木等の機械学習的なものとなるので、そちらはできると思いますが