金融と工学のあいだ

興味関心に関するメモ(機械学習、検索エンジン、プログラミングなど)

Pandas:python用データ解析ライブラリ

Intro

今まで研究ではデータ解析をするのにMatlab*1を使用していたのですが、これは有償なので個人的な趣味に使用するのには難しいです。

そのため、データ解析をできるフリーソフトを探しました。条件として以下を満たす探して見ました。

  1. 無償
  2. データの入出力が楽そう
  3. スクリプト言語

無料のデータ解析ソフトだとR*2が有名だと思いますが、上記の2の項目に不満が出てきそうです。

そのため、データの入出力はpython、解析をRで行い、互換のあるデータ形式JSON等)で
やり取りをする*3ことを考えたのですが、たまたまpythonでもデータ解析を行うライブラリPandas*4が存在することが分かったのでinstallしてみました。

Install 方法 (Ubuntu 12.04)

official*5の通り、

sudo apt-get install python-pandas

で大丈夫でした。その後、pythonを起動して

import pandas

とすれば良いようです。まだできたばかりで使い勝手が良いのか怪しいですし、referenceも少ないみたいですが、簡単に準備できたのでちょっと遊んでみようと思います。

また、書籍として

Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理

Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理

のようなものもあるので今度書店で探してみたいと思います