勾配ブースティング

勾配ブースティング（こうばいブースティング、Gradient Boosting）は、回帰や分類などのタスクのための機械学習手法であり、弱い予測モデル weak prediction model（通常は決定木）のアンサンブルの形で予測モデルを生成する^[1]^[2]。決定木が弱い学習者 weak learner である場合、結果として得られる予測器は勾配ブースト木と呼ばれ、通常はランダムフォレストよりも優れている^[3]。他のブースティング手法と同様に段階的にモデルを構築するが、任意の微分可能な損失関数の最適化を可能にすることで一般化している。

歴史

勾配ブースティングのアイデアは、ブースティングが適切なコスト関数に対する最適化アルゴリズムとして解釈できるというレオ・ブライマンの観察に端を発している^[4]。その後、ジェローム・H・フリードマンが回帰勾配ブースティングアルゴリズムを開発し^[5]^[6]、Llew Mason、Jonathan Baxter、Peter Bartlett、MarcusFreanがより一般的な関数型勾配ブースティングの観点から発表した^[7] ^[8]。後者の2つの論文では、ブースティング・アルゴリズムを反復的な関数型勾配降下アルゴリズムとして捉えることが紹介された。すなわち、負の勾配方向を向く関数（弱い仮説 weak hypothesis）を繰り返し選択することにより、関数空間上のコスト関数を最適化するアルゴリズムである。このブースティングの関数型勾配としての見方により、回帰や分類にとどまらず、機械学習や統計学の多くの分野でブースティング・アルゴリズムが開発されている。

簡単な紹介

本節では、Li による勾配ブースティングの説明を紹介する^[9]。

他のブースティング方法と同様に、勾配ブースティングは、弱い学習器を反復的に結合し1つの強い学習器を構成する。最小二乗回帰の設定で説明するのが簡単で、

${\hat {y}}_{i}$ は $F(x_{i})$ の予測値
$y_{i}$ は $F(x_{i})$ の観測値

とする。ここで、 $i$ は訓練集合におけるインデックスであり $n$ は訓練集合のの標本数である。目標は、平均二乗誤差 ${\tfrac {1}{n}}\sum \nolimits _{i}(F(x_{i})-y_{i})^{2}$ を最小化することにより未知の $x$ に対する予測値を ${\hat {y}}=F(x)$ によって得るようなモデル $F$ を訓練することである。

ここで、 $M$ 個のステージがからなる勾配ブースティング・アルゴリズムについて考える。勾配ブースティングの $m$ （ $1\leq m\leq M$ ）ステージ目において、いくつかの不完全なモデル $F_{m}$ を想定する。 $m$ が小さいうちは、このモデルは単にy の平均値を返すだけかもしれない（ ${\hat {y}}_{i}={\bar {y}}$ ）。 $F_{m}$ を改善するために新しい推定量 $h_{m}(x)$ を追加すると、

F_{m+1}(x)=F_{m}(x)+h_{m}(x)=y

または、同等に、

h_{m}(x)=y-F_{m}(x)

したがって、勾配ブースティングは、h を残差 $y-F_{m}(x)$ に適合させる。他のブースティング手法と同様、 $F_{m+1}$ は前任者 $F_{m}$ のエラーを修正しようとする。二乗誤差以外の損失関数や分類・ランク付け問題に一般化すると、モデルの残差 $h_{m}(x)$ は $F(x)$ に関する平均二乗誤差損失関数の負の勾配に比例する。

L_{\rm {MSE}}={\frac {1}{2}}\left(y-F(x)\right)^{2}

h_{m}(x)=-{\frac {\partial L_{\rm {MSE}}}{\partial F}}=y-F(x)

。

したがって、勾配ブースティングは勾配降下アルゴリズムに特化したものであり、これを一般化するには、異なる損失とその勾配を「プラグイン」する必要がある。

アルゴリズム

多くの教師あり学習問題では、出力変数 y と入力変数のベクトル x があり、相互に何らかの確率分布で関連している。目標は、入力変数の値から出力変数を最もよく近似する関数 ${\hat {F}}(x)$ を見つけることである。これは、損失関数 $L(y,F(x))$ の最小化として形式化することができる。

{\hat {F}}={\underset {F}{\arg \min }}\,\mathbb {E} _{x,y}[L(y,F(x))]

。

勾配ブースティング法では、実数 y を仮定し、クラス ${\mathcal {H}}$ の関数 $h_{i}(x)$ （基本学習者 base learners ないし弱い学習者 weak learners）の加重和の形で近似 ${\hat {F}}(x)$ を求める。

{\hat {F}}(x)=\sum _{i=1}^{M}\gamma _{i}h_{i}(x)+{\mbox{const.}}

通常、既知の標本 x に対応する y の値からなるトレーニングセット $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ が提供される。経験的リスク最小化の原則に基づき、トレーニングセットにおける損失関数の平均値を最小化する（経験的リスクを最小化する）近似 ${\hat {F}}(x)$ を探索する。これは定数関数 $F_{0}(x)$ に基づくモデルから開始し、貪欲法で段階的に拡張する。

F_{0}(x)={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L(y_{i},\gamma )}}

F_{m}(x)=F_{m-1}(x)+{\underset {h_{m}\in {\mathcal {H}}}{\operatorname {arg\,min} }}\left[{\sum _{i=1}^{n}{L(y_{i},F_{m-1}(x_{i})+h_{m}(x_{i}))}}\right]

、

ここで、 $h_{m}\in {\mathcal {H}}$ は基本学習関数。

残念ながら、任意損失関数Lに対して各ステップで最適な関数 h を選択することは、一般に計算上実行不可能な最適化問題である。そのため、単純化されたバージョンにアプローチを限定する。

この最小化問題に最急降下法のステップを適用する。

最急降下法の基本的な考え方は、 $F_{m}(x)$ を反復することによって損失関数の極小値を見つけることである。

$F_{m}(x)=F_{m-1}(x)-\gamma \sum _{i=1}^{n}{\nabla _{F_{m-1}}L(y_{i},F_{m-1}(x_{i}))}$

ここで $\gamma >0$ 。これは、次のことを意味する。 $L(y_{i},F_{m}(x_{i}))\leq L(y_{i},F_{m-1}(x_{i}))$ 。

損失関数が最小値を取る $\gamma$ をみつけることで、 $\gamma$ を最適化することができる。

$\gamma _{m}={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L\left(y_{i},F_{m})\right)}}={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L\left(y_{i},F_{m-1}(x_{i})-\gamma \nabla _{F_{m-1}}L(y_{i},F_{m-1}(x_{i}))\right)}},$

連続的な場合、つまり、 ${\mathcal {H}}$ を $\mathbb {R}$ 上の任意の微分可能な関数の集合と考えるト、次の式に従ってモデルを更新する

F_{m}(x)=F_{m-1}(x)+\gamma _{m}h_{m}(x),\quad \gamma _{m}={\underset {\gamma }{\operatorname {arg\,min} }}\sum _{i=1}^{n}L(y_{i},F_{m-1}(x_{i})+\gamma h_{m}(x_{i})).

ここで、関数 $F_{i}$ , $i\in \{1,..,m\}$ を微分する。 $\gamma _{m}$ がステップ長である。離散的な場合、すなわち集合 ${\mathcal {H}}$ が有限の場合、L の勾配に最も近い h を選択する。この候補関数の係数 γ は、上記の方程式の線型探索を使用して計算できる。このアプローチはヒューリスティックであるため、特定の問題に対する正確な解決策ではなく、近似値が得られることに注意。擬似コードでは、一般的な勾配ブースティング方法は次のとおり^[5]^[2]。

Input: training set $\{(x_{i},y_{i})\}_{i=1}^{n},$ a differentiable loss function $L(y,F(x)),$ number of iterations M.

Algorithm:

Initialize model with a constant value:
$F_{0}(x)={\underset {\gamma }{\arg \min }}\sum _{i=1}^{n}L(y_{i},\gamma ).$
For m = 1 to M:
1. Compute so-called pseudo-residuals:
  $r_{im}=-\left[{\frac {\partial L(y_{i},F(x_{i}))}{\partial F(x_{i})}}\right]_{F(x)=F_{m-1}(x)}\quad {\mbox{for }}i=1,\ldots ,n.$
2. Fit a base learner (or weak learner, e.g. tree) $h_{m}(x)$ to pseudo-residuals, i.e. train it using the training set $\{(x_{i},r_{im})\}_{i=1}^{n}$ .
3. Compute multiplier $\gamma _{m}$ by solving the following one-dimensional optimization problem:
  $\gamma _{m}={\underset {\gamma }{\operatorname {arg\,min} }}\sum _{i=1}^{n}L\left(y_{i},F_{m-1}(x_{i})+\gamma h_{m}(x_{i})\right).$
4. Update the model:
  $F_{m}(x)=F_{m-1}(x)+\gamma _{m}h_{m}(x).$
Output $F_{M}(x).$

勾配ツリーブースティング

勾配ブースティングは通常、固定サイズの決定木（特にCART木）を基本学習者として使用する。フリードマンは、この特殊なケースに対して、各基本学習者の適合性を向上させる勾配ブースティング法の修正を提案している。

一般的な勾配ブースティングでは、m 番目のステップにおいて、決定木 $h_{m}(x)$ を疑似残差に適合させる。 $J_{m}$ をその葉の数とする。ツリーは入力空間を $J_{m}$ 個の互いに素な領域 $R_{1m},\ldots ,R_{J_{m}m}$ に分けて各地域の定数値を予測する。入力 x に対する出力 $h_{m}(x)$ を指示関数を使って記述すると

h_{m}(x)=\sum _{j=1}^{J_{m}}b_{jm}\mathbf {1} _{R_{jm}}(x)

ここで、 $b_{jm}$ は領域 $R_{jm}$ における予測値を表す^[10]。

次に、係数 $b_{jm}$ に $\gamma _{m}$ （損失関数を最小化するように線型探索で選択する）を乗じ、モデルは次のように更新される。

F_{m}(x)=F_{m-1}(x)+\sum _{j=1}^{J_{m}}\gamma _{jm}\mathbf {1} _{R_{jm}}(x),\quad \gamma _{jm}={\underset {\gamma }{\operatorname {arg\,min} }}\sum _{x_{i}\in R_{jm}}L(y_{i},F_{m-1}(x_{i})+\gamma ).

フリードマンは、木全体に対する $\gamma _{m}$ ではなく、領域毎に異なる別の最適値 $\gamma _{jm}$ を選択するようにこのアルゴリズムを修正することを提案している。彼は修正されたアルゴリズムを「TreeBoost」と呼んでいる。係数 $b_{jm}$ を破棄して、モデルの更新規則は次のようになる。

F_{m}(x)=F_{m-1}(x)+\nu \cdot \gamma _{m}h_{m}(x),\quad 0<\nu \leq 1,

木のサイズ

$J$ は木の末端ノードの数であり、本手法のパラメータで、手元のデータセットに合わせて調整できる。これは、モデル内の変数間の交互作用の最大許容レベルを制御する。 $J=2$ （決定株）では、変数間の交互作用は許可されていない。また、 $J=3$ では、最大2つの変数の間の交互作用の影響をモデルに含めることができる。

Hastie らは、典型的には $4\leq J\leq 8$ でブースティングが上手くいき、結果は $J$ の選択にあまり影響を受けないが、 $J=2$ では不十分であり、 $J>10$ が必要になることはあまりないと述べている^[2]。

正則化

トレーニングセットをフィットさせすぎると、モデルの汎化能力が低下してしまう。正則化と呼ばれるいくつかの手法は、フィッティング手順を制約することで、このオーバーフィッティングを軽減する。

自然な正則化パラメータの一つに、勾配ブースティングの反復回数 M （すなわち、基本学習者が決定木である場合、モデルに含まれる木の数）がある。 M を増加させると、トレーニングセットのエラーが減少するが、M が大きすぎると、オーバーフィッティングにつながる可能性がある。M の最適な値は、別の検証データセットで予測誤差を監視することによって選択されることが多い。 Mの制御以外にも、いくつかの正則化手法が使用される。

もう1つの正則化パラメータは、木の深さである。この値が大きいほど、モデルがトレーニングデータに過剰適合する可能性が高くなる。

収縮

勾配ブースティング方法の重要な部分は、収縮による正則化であり、更新規則を次のように変更することである。

F_{m}(x)=F_{m-1}(x)+\nu \cdot \gamma _{m}h_{m}(x),\quad 0<\nu \leq 1,

ここでパラメータ $\nu$ は「学習率」と呼ばれる。

経験的には、小さな学習率（例えば $\nu <0.1$ など）を用いると、学習率を下げずに勾配ブースティングを行った場合（ $\nu =1$ ）に比べて、モデルの汎化能力が劇的に向上することが分かっている^[2]。ただし、学習率が低いと反復回数が多くなり、学習時と検索時の計算時間が長くなる。

確率的勾配ブースティング

勾配ブースティングが導入後されて間もない頃、フリードマンは、ブレイマンのブートストラップ・アグリゲーション（バギング）法を参考にして、アルゴリズムのマイナーチェンジを提案した^[6]。具体的には、アルゴリズムの各反復において、置換なしでランダムに抽出されたトレーニングセットのサブサンプルにベース学習器を適合させることを提案した。^[11]。フリードマンは、この変更により、勾配ブースティングの精度が大幅に向上することを確認しました。

サブサンプルはトレーニングセットから一定の割合 $f$ で選ばれる。 $f=1$ のとき、アルゴリズムは決定論的であり、上記のものと同じになる。 $f$ の値が小さいと、アルゴリズムにランダム性を導入し、オーバーフィッティングの防止に役立つ。回帰木は各反復でより小さなデータセットに適合させるため、アルゴリズムも高速になる。フリードマンは小規模および中規模のトレーニングセットのいて $0.5\leq f\leq 0.8$ で良好な結果が得られることを突き止めた^[6]。そのため、 $f$ は通常は0.5に設定される。これは、トレーニングセットの半分が各基本学習者の構築に使用されることを意味する。

また、バギングの場合と同様に、サブサンプリングでは、次の基本学習者の構築に使用されなかった観測値の予測を評価することで、予測性能の向上のアウトオブバッグエラーを定義できる。アウトオブバッグの推定値は、独立した検証データセットの必要性を回避するのに役立つが、実際の性能向上や最適な反復回数を過小評価することがよくある^[12] ^[13]。

葉の観察数

勾配ツリーブースティングの実装では、木の末端ノードでの観測の最小数を制限する正則化もよく使用される。この正則化は、木の構築プロセスにおいて、この数より少ないトレーニングセットインスタンスを含むノードにつながる分割を無視する。

この制限を設けることで、葉での予測のばらつきを抑えることができる。

ツリーの複雑さにペナルティを課す

勾配ブーストツリーのもう1つの有用な正則化手法は、学習したモデルのモデルの複雑さにペナルティを課すことである^[14]。モデルの複雑さは、学習したツリーの葉の数に比例するものとして定義できる。損失とモデルの複雑さの共同最適化は、損失をしきい値で減らすことができない枝を取り除くポストプルーニング・アルゴリズムに対応する。他の正則化の種類としては、 $\ell _{2}$ 正則化を行うことで、オーバーフィッティングを防ぐことができる。

使用法

勾配ブースティングは、ランク付けの学習の分野でも利用されている。商用ウェブ検索エンジンであるYahoo! ^[15]や Yandex ^[16]は、機械学習型のランキングエンジンに勾配ブースティングの変法を使用している。また、高エネルギー物理学の分野でも、データ解析に勾配ブースティングが利用されている。大型ハドロン衝突型加速器（LHC）では、ヒッグス粒子の発見に使用されたデータセットにおいて、勾配ブースティングを用いたディープニューラルネットワーク（DNN）が、機械学習ではない解析方法の結果を再現することに成功した^[17]。

名前

この方法にはさまざまな名前が付けられている。フリードマンは、自分の回帰手法を「Gradient Boosting Machine」（GBM）として紹介した^[5]。メイソン、バクスターらは、一般化された抽象的なクラスのアルゴリズムを「関数的勾配ブースティング」と表現している^[7] ^[8]。フリードマンらは、勾配ブーストモデルを発展させたものを Multiple Additive Regression Trees（MART）と表現し^[18]、Elithらは、そのアプローチを「Boosting Regression Trees」（BRT）として説明する^[19]。

R言語のオープンソースの実装では「Generalized Boosting Model」と呼んでいるが^[12] 、「BRT」を使用している^[20]。また、木ベースの方手法を開発した研究者の1人であるSalford System社のDan Steinbergによる初期の商用実装にちなんで、TreeNet とも呼ばれている^[21]。XGBoostは、2次最適化などの拡張機能を備えた最新の実装として人気がある。

短所

ブースティングは、決定木や線形回帰などの基本学習者の精度を高めることができるが、分かりやすさ intelligibility や解釈のしやすさ interpretability を犠牲にする^[1] ^[22]。また、計算量が多くなるため、実装が難しくなることもある。

脚注

注釈

出典

^ ^a ^b Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-03-01). “Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index” (英語). Journal of Infrastructure Systems 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. ISSN 1943-555X. https://ascelibrary.org/doi/abs/10.1061/%28ASCE%29IS.1943-555X.0000512.
^ ^a ^b ^c ^d Hastie, T.; Tibshirani, R.; Friedman, J. H. (2009). “10. Boosting and Additive Trees”. The Elements of Statistical Learning (2nd ed.). New York: Springer. pp. 337–384. ISBN 978-0-387-84857-0. オリジナルの2009-11-10時点におけるアーカイブ。. http://www-stat.stanford.edu/~tibs/ElemStatLearn/
^ Piryonesi, S. Madeh; El-Diraby, Tamer E. (2021-02-01). “Using Machine Learning to Examine Impact of Type of Performance Indicator on Flexible Pavement Deterioration Modeling” (英語). Journal of Infrastructure Systems 27 (2): 04021005. doi:10.1061/(ASCE)IS.1943-555X.0000602. ISSN 1076-0342. http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602.
^ Breiman, L. (June 1997). “Arcing The Edge”. Technical Report 486 (Statistics Department, University of California, Berkeley). https://statistics.berkeley.edu/sites/default/files/tech-reports/486.pdf.
^ ^a ^b ^c Friedman, J. H. (February 1999). Greedy Function Approximation: A Gradient Boosting Machine. https://statweb.stanford.edu/~jhf/ftp/trebst.pdf.
^ ^a ^b ^c Friedman, J. H. (March 1999). Stochastic Gradient Boosting. https://statweb.stanford.edu/~jhf/ftp/stobst.pdf.
^ ^a ^b Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus (1999). "Boosting Algorithms as Gradient Descent" (PDF). In S.A. Solla and T.K. Leen and K. Müller (ed.). Advances in Neural Information Processing Systems 12. MIT Press. pp. 512–518.
^ ^a ^b Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus (May 1999). Boosting Algorithms as Gradient Descent in Function Space. https://www.maths.dur.ac.uk/~dma6kp/pdf/face_recognition/Boosting/Mason99AnyboostLong.pdf.
^ Cheng Li. “A Gentle Introduction to Gradient Boosting”. 2021年10月6日閲覧。
^ Note: in case of usual CART trees, the trees are fitted using least-squares loss, and so the coefficient $b_{jm}$ for the region $R_{jm}$ is equal to just the value of output variable, averaged over all training instances in $R_{jm}$ .
^ Note that this is different from bagging, which samples with replacement because it uses samples of the same size as the training set.
^ ^a ^b Ridgeway, Greg (2007). Generalized Boosted Models: A guide to the gbm package.
^ Learn Gradient Boosting Algorithm for better predictions (with codes in R)
^ Tianqi Chen. Introduction to Boosted Trees
^ Cossock, David and Zhang, Tong (2008). Statistical Analysis of Bayes Optimal Subset Ranking Archived 2010-08-07 at the Wayback Machine., page 14.
^ Yandex corporate blog entry about new ranking model "Snezhinsk" (in Russian)
^ Lalchand, Vidhi. "Extracting more from boosted decision trees: A high energy physics case study". arXiv:2001.06033 [stat.ML]。
^ Friedman, Jerome (2003). “Multiple Additive Regression Trees with Application in Epidemiology”. Statistics in Medicine 22 (9): 1365–1381. doi:10.1002/sim.1501. PMID 12704603.
^ Elith, Jane (2008). “A working guide to boosted regression trees”. Journal of Animal Ecology 77 (4): 802–813. doi:10.1111/j.1365-2656.2008.01390.x. PMID 18397250.
^ Elith. “Boosted Regression Trees for ecological modeling”. CRAN. CRAN. 2018年8月31日閲覧。
^ https://www.kdnuggets.com/2013/06/exclusive-interview-dan-steinberg-salford-systems-data-mining-solutions-provider.html
^ Wu, Xindong; Kumar, Vipin; Ross Quinlan, J.; Ghosh, Joydeep; Yang, Qiang; Motoda, Hiroshi; McLachlan, Geoffrey J.; Ng, Angus et al. (2008-01-01). “Top 10 algorithms in data mining” (英語). Knowledge and Information Systems 14 (1): 1–37. doi:10.1007/s10115-007-0114-2. ISSN 0219-3116.

参考文献

Boehmke, Bradley; Greenwell, Brandon (2019). “Gradient Boosting”. Hands-On Machine Learning with R. Chapman & Hall. pp. 221–245. ISBN 978-1-138-49568-5

外部リンク

勾配ブースティングを説明する方法
勾配ブースト回帰ツリー
LightGBM

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像