Bagging
套袋算法 (Bagging) 是一种集成学习技术,与 MajorityVoteClassifier
相似,不同之处在于 bagging 不是每次使用相同的训练集来拟合单个分类器,而是对初始训练集进行 bootstrap 抽样。这也是 bagging 称为引导聚合 (Bootstrap Aggregating) 的原因。
基本概念
Bagging 的概念如下图:
为了更具体说明 bagging 分类器如何工作,参见下图中的示例。图中有 n = 7 个训练实例 (以索引 1 - 7 表示),在每轮 bagging 中进行有放回地抽样 k 次,然后使用这 k 次的聚合样本 (允许包含重复的样本) 来拟合分类器。如果聚合样本中的样本数等于实例,则称为 bootstrap 抽样。
bagging 一般使用在较弱的分类器中使用 (如未修剪的决策树),以降低其过拟合的问题。在对每个分类器进行拟合后,通过多数投票方法来对结果进行预测。