Pandasで基本統計量を纏めて算出する方法を紹介します。
使用するデータフレーム
data変数に以下のデータフレームが入っていると仮定します。
身長 体重 0 157.5 53 1 180.0 80 2 177.5 63 3 146.0 40 4 130.0 36
書き方
data.describe()
身長 体重 count 5.000000 5.000000 mean 158.200000 54.400000 std 21.167782 17.868968 min 130.000000 36.000000 25% 146.000000 40.000000 50% 157.500000 53.000000 75% 177.500000 63.000000 max 180.000000 80.000000
各項目の意味
count | 行の数 |
mean | 平均 |
std | 標準偏差(ばらつき) |
min | 最小値 |
25%,50%,75% | 四分位数(データを並べた時に各%の位置にある値) |
max | 最大値 |
特定のカラムにだけ基本統計量を算出したい場合
data.describe()["身長"]
特定の複数カラムにだけ基本統計量を算出したい場合
data.describe()[["身長" , "体重"]]
個別に基本統計量を算出する場合
data.count() #行数が算出できる。 data.mean() #平均が算出できる。 data.std() #標準偏差が算出できる。 data.min() #最小値が算出できる。 data.quantile(.25) #四分位数が算出できる。(()の中に任意の数字を入れる。) data.max() #最大値が算出できる。