文書の過去の版を表示しています。
Python モジュール: pandas
概要
- Python のデータフレームモジュール
- データフレームとは、複数のデータ型が入り交じるデータ集合を 1 つのデータセットでまとめたもの
- リストやディクショナリ型でも対応は可能だが、例えば 1 原子に様々なパラメータ (座標や原子名、原子量などなど) が加わると、
- データへのアクセスの仕方が難しくなる
- ソートが難しい
- プログラム言語にもよるが、リストやディクショナリでは特定の型のデータしか格納できない
- 内部のデータを確認する際に、for 文などで取り出して整形しないと見づらい
- データフレームでは、自動で整形やソートの際の煩雑な作業をしてくれるのでデータ処理が楽になる。
使い方
インストール
$ sudo pip3 install pandas
モジュールの読み込み
import pandas
あるいは
import numpy as pd
as pd
によって、以降pd
で呼び出せる。- ここではこっちの読み込みをした場合で記述していく。
データフレームの作成
hoge = \ pd.DataFrame([ ["Tanaka", "Suzuki", "Yamada"], [59, 20, 31], [150, 160, 159] ]).T hoge.columns = ["Name", "Age", "Height"] hoge.index = [1,2,3]
- `.T` を忘れない (`.T` は numpy の転置と同じ)
- 二次元リストにする
- `hoge.columns` で、各リストのデータ名 (カラム名) を上書きする
- `hoge.index` で、各リストのインデックス (シリアル ID) を上書きする
- インデックスは数値でないといけない
データフレームへのアクセス
- カラム、インデックスへのアクセス
print(hoge.columns) print(hoge.index)
- `hoge.columns` でカラム一覧にアクセス
- `hoge.index` でインデックス一覧にアクセス
- データへのアクセス
- 単一カラムへのアクセス
print(hoge["Name"])
- 複数カラムへのアクセス
print(hoge[["Name", "Age"]])
- 二次リストでカラム名を指定する