$ sudo pip3 install pandas
import pandas
あるいは
import pandas as pd
as pd
によって、以降 pd
で呼び出せる。data_frame = \ pd.DataFrame([ ["Tanaka", "Suzuki", "Yamada"], [59, 20, 31], [150, 160, 159] ]).T data_frame.columns = ["Name", "Age", "Height"] data_frame.index = [1,2,3]
.T
: numpy の転置と同じ (pandas では、行を個々のデータ、列をデータの種類としているため、転置を使っている)data_frame.columns
で、各リストのデータ名 (カラム名) を上書きするdata_frame.index
で、各リストのインデックス (シリアル ID) を上書きするprint(data_frame.columns) print(data_frame.index)
print(data_frame["Name"])
print(data_frame[["Name", "Age"]])
print(data_frame[1:2])
data_frame[NEW_COLUMN] = [DATA1, DATA2, DATA3, ...]
NEW_COLUMN
: 新しく追加するカラム名DATA1, DATA2, …
: 追加するデータはリストで渡すdata_frame = data_frame.append(DATA_FRAME)
DATA_FRAME
: 追加するデータが入った pandas のデータフレームNaN
となる。DATA_FRAME = pd.concat([DATA_FRAME1, DATA_FRAME2, ...], axis = 1)
DATA_FRAME = pd.concat([DATA_FRAME1, DATA_FRAME2, ...])
NaN
扱いとなる。NaN
を置換するには .fillna()
を使う。DATA_FRAME.fillna("")
NaN
が空の文字列に置換される。DF.at[ROW_LABEL, COL_LABEL]
DF
: データフレーム変数ROW_LABEL
: 行ラベルCOL_LABEL
: 列ラベルDF.at[ROW_LABEL, COL_LABEL] = VALUE
DF
: データフレーム変数ROW_LABEL
: 行ラベルCOL_LABEL
: 列ラベルVALUE
: 新しい値DF.iat[ROW_INDEX, COL_INDEX]
DF
: データフレーム変数ROW_INDEX
: 行番号COL_INDEX
: 列番号DF.iat[ROW_INDEX, COL_INDEX] = VALUE
DF
: データフレーム変数ROW_INDEX
: 行番号COL_INDEX
: 列番号VALUE
: 新しい値.index
や .columns
で取得したカラム名やインデックス名のリストを len()
を使って取得する。DATA_FRAME.shape
でインデックスとカラム数を同時に取得する。DF = pd.read_table("INPUT.txt", names = [LABEL1, LABEL2, ...])
DF
: データフレームを格納する変数INPUT.txt
: 入力ファイルLABEL1, LABEL2,…
: カラム名DF = pd.read_csv(CSV_FILE[, OPTION])
DF
: データフレームを格納する変数CSV_FILE
: CSV ファイルのパスOPTION
: その他のオプション (任意)OPTION
に header = None
を指定する。OPTION
に name = (LABEL1, LABEL2, …)
を付け、LABEL1
や LABEL2
に列ラベルを指定していく。OPTION
に header = NUM
の NUM
に行番号 (0 から始まる) を指定する。この場合、指定した行より上の行は無視される。OPTION
に index_col = NUM
の NUM
に列番号 (0 から始まる) を指定する。DF.to_csv(CSV_FILE[, OPTION])
DF
: データフレームが格納された変数CSV_FILE
: 出力する CSV ファイルのパスOPTION
: その他のオプション (任意)OPTION
に columns = [LABEL1, LABEL2, …]
を追加し、LABEL1
や LABEL2
に書き出す列ラベルを指定していく。OPTION
に header
(列ラベル) や index
(行ラベル) を追加し、TRUE
や FALSE
で ON/OFF を切り替える。デフォルトは両方 True
OPTION
に sep = SEP
を追加し、SEP
に区切り文字を指定する。SEP
に \t
を指定すると、TSV 形式のファイルで出力できる。