suppressMessages(require(tidyverse))
require(purrr)purrr
パッケージの概要
purrrは、ベクトルやリストに対して関数を適用し、データの加工や操作を効果的に行うためのユーティリティ関数や操作を提供します。
map関数
map関数はリストの各要素に対して、関数を適用した結果をリストに格納します 以下の例では、リストの各要素であるベクトルに対して、それぞれのベクトルの平均値を計算(meanを適用)します
x <- list(1:2,1:3,1:4)
map(x,mean)[[1]]
[1] 1.5
[[2]]
[1] 2
[[3]]
[1] 2.5
map関数はベクトルに対しても適用することが可能です。 その場合、関数の各要素に対して、単独で適用され、結果はリストに格納されます。 mean関数に適用した場合は、単純に各ベクトルの要素がリストの各要素に格納されるだけとなりますが、例えば、rnorm関数に適用すれば、ベクトルの要素の数だけ、rnorm関数を適用した結果をリストに格納することができます。
y <- 1:3
map(y, mean)[[1]]
[1] 1
[[2]]
[1] 2
[[3]]
[1] 3
map(y, rnorm, n=5)[[1]]
[1] 1.9824686 0.2751347 -0.1263742 0.6456573 0.5864637
[[2]]
[1] 3.11605499 -0.53956619 0.74846584 -0.01126552 2.02890768
[[3]]
[1] 2.479666 1.852039 3.013718 2.581137 3.488995
map_dbl関数
map_dbl関数は、結果をリストではなく、数値ベクトルに格納します。 類似の関数として、map_int関数や、map_chr関数なども存在します。
z <- 1:5
map_dbl(z, mean)[1] 1 2 3 4 5
zclass <- map_dbl(z, mean)
typeof(zclass)[1] "double"
map_dbl関数を利用する場合、関数を適用した結果は、それぞれの結果は1つの数値である必要があります。 例えば、map関数をrnorm関数に適用し、nを5とした場合、各リストに格納される結果は要素数が5のベクトルになるため、map_dbl関数ではエラーになります。
z <- 1:3
map(z, rnorm, n=5)[[1]]
[1] 1.451150 2.517198 1.351899 1.031781 1.654450
[[2]]
[1] 3.3132701 1.1952853 0.8001845 2.2724800 1.5609079
[[3]]
[1] 1.600831 3.792787 4.010662 2.413056 3.116548
map_dbl(z, rnorm, n=5)Error in `map_dbl()`:
ℹ In index: 1.
Caused by error:
! Result must be length 1, not 5.
なお、map関数とmap_dbl関数を組み合わせることで、rnorm関数で生成した結果の平均値を1つの数値ベクトルに格納することができます
z |>
map(rnorm, n=5) |>
map_dbl(mean)[1] 0.9105756 2.4009039 3.2977725
線形回帰モデルを実装する活用例
Rのデフォルトのデータセットであるmtcars(自動車の燃費などに関するデータセット)を用いた例について記載します。 車の燃費(mpg)と車の重量(wt)の関係について異なるシリンダー数(cyl)ごとに線形回帰モデルを適用し、各モデルの決定係数(R-squared)を取得する処理は、map関数、map_dbl関数を用いれば、以下のコードで実現可能です。
mtcars |>
split(mtcars$cyl) |>
map(function(df) lm(mpg ~ wt, data = df)) |>
map(summary) |>
map_dbl("r.squared") 4 6 8
0.5086326 0.4645102 0.4229655
複数のパイプ処理が連なっているため、各コードの実装結果を順番に確認します。 まず、以下のコードでは、mtcarsをシリンダー数(cyl)別に分解して、それぞれの結果をリストに格納しています。
mtcars |>
split(mtcars$cyl)$`4`
mpg cyl disp hp drat wt qsec vs am gear carb
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2
Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2
Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2
Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2
$`6`
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4
Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4
Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6
$`8`
mpg cyl disp hp drat wt qsec vs am gear carb
Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3
Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3
Merc 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3
Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4
Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4
Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4
Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2
AMC Javelin 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2
Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4
Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2
Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4
Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8
次に、以下のコードではmap関数を用いて、シリンダー数(cyl)別に分解したそれぞれのデータセットに対して、線形回帰モデルを作成し、結果をリストに格納しています。
mtcars |>
split(mtcars$cyl)|>
map(function(df) lm(mpg ~ wt, data = df)) $`4`
Call:
lm(formula = mpg ~ wt, data = df)
Coefficients:
(Intercept) wt
39.571 -5.647
$`6`
Call:
lm(formula = mpg ~ wt, data = df)
Coefficients:
(Intercept) wt
28.41 -2.78
$`8`
Call:
lm(formula = mpg ~ wt, data = df)
Coefficients:
(Intercept) wt
23.868 -2.192
以下のコードでは、シリンダー数(cyl)別に作成した線形回帰モデルのサマリーをリストに格納しています。
mtcars |>
split(mtcars$cyl)|>
map(function(df) lm(mpg ~ wt, data = df)) |>
map(summary)$`4`
Call:
lm(formula = mpg ~ wt, data = df)
Residuals:
Min 1Q Median 3Q Max
-4.1513 -1.9795 -0.6272 1.9299 5.2523
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 39.571 4.347 9.104 7.77e-06 ***
wt -5.647 1.850 -3.052 0.0137 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.332 on 9 degrees of freedom
Multiple R-squared: 0.5086, Adjusted R-squared: 0.454
F-statistic: 9.316 on 1 and 9 DF, p-value: 0.01374
$`6`
Call:
lm(formula = mpg ~ wt, data = df)
Residuals:
Mazda RX4 Mazda RX4 Wag Hornet 4 Drive Valiant Merc 280
-0.1250 0.5840 1.9292 -0.6897 0.3547
Merc 280C Ferrari Dino
-1.0453 -1.0080
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 28.409 4.184 6.789 0.00105 **
wt -2.780 1.335 -2.083 0.09176 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.165 on 5 degrees of freedom
Multiple R-squared: 0.4645, Adjusted R-squared: 0.3574
F-statistic: 4.337 on 1 and 5 DF, p-value: 0.09176
$`8`
Call:
lm(formula = mpg ~ wt, data = df)
Residuals:
Min 1Q Median 3Q Max
-2.1491 -1.4664 -0.8458 1.5711 3.7619
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 23.8680 3.0055 7.942 4.05e-06 ***
wt -2.1924 0.7392 -2.966 0.0118 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.024 on 12 degrees of freedom
Multiple R-squared: 0.423, Adjusted R-squared: 0.3749
F-statistic: 8.796 on 1 and 12 DF, p-value: 0.01179
最後に、以下のコードでシリンダー数(cyl)別に作成した線形回帰モデルのサマリーのうち、決定係数のみを取得し、結果を数値ベクトルに格納しています。
mtcars |>
split(mtcars$cyl) |>
map(function(df) lm(mpg ~ wt, data = df)) |>
map(summary) |>
map_dbl("r.squared") 4 6 8
0.5086326 0.4645102 0.4229655