【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）_全球讯息

当前位置 :前沿资讯 >

【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）_全球讯息

时间：2022-12-25 19:57:52

本文是中国大学慕课《机器学习》的“集成学习”章节的课后代码。
课程地址：

(资料图)
https://www.icourse163.org/course/WZU-1464096179
课程完整代码：
https://github.com/fengdu78/WZU-machine-learning-course
代码修改并注释：黄海广，haiguang2000@wzu.edu.cn

importwarningswarnings.filterwarnings("ignore")importpandasaspdfromsklearn.model_selectionimporttrain_test_split

生成数据

生成12000行的数据，训练集和测试集按照3:1划分

fromsklearn.datasetsimportmake_hastie_10_2data,target=make_hastie_10_2()

X_train,X_test,y_train,y_test=train_test_split(data,target,random_state=123)X_train.shape,X_test.shape

((9000, 10), (3000, 10))

模型对比

对比六大模型，都使用默认参数

fromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifierfromsklearn.ensembleimportAdaBoostClassifierfromsklearn.ensembleimportGradientBoostingClassifierfromxgboostimportXGBClassifierfromlightgbmimportLGBMClassifierfromsklearn.model_selectionimportcross_val_scoreimporttimeclf1=LogisticRegression()clf2=RandomForestClassifier()clf3=AdaBoostClassifier()clf4=GradientBoostingClassifier()clf5=XGBClassifier()clf6=LGBMClassifier()forclf,labelinzip([clf1,clf2,clf3,clf4,clf5,clf6],["LogisticRegression","RandomForest","AdaBoost","GBDT","XGBoost","LightGBM"]):start=time.time()scores=cross_val_score(clf,X_train,y_train,scoring="accuracy",cv=5)end=time.time()running_time=end-startprint("Accuracy:%0.8f (+/-%0.2f),耗时%0.2f秒。模型名称[%s]"%(scores.mean(),scores.std(),running_time,label))

Accuracy: 0.47488889 (+/- 0.00),耗时0.04秒。模型名称[Logistic Regression]Accuracy: 0.88966667 (+/- 0.01),耗时16.34秒。模型名称[Random Forest]Accuracy: 0.88311111 (+/- 0.00),耗时3.39秒。模型名称[AdaBoost]Accuracy: 0.91388889 (+/- 0.01),耗时13.14秒。模型名称[GBDT]Accuracy: 0.92977778 (+/- 0.00),耗时3.60秒。模型名称[XGBoost]Accuracy: 0.93188889 (+/- 0.01),耗时0.58秒。模型名称[LightGBM]

对比了六大模型，可以看出，逻辑回归速度最快，但准确率最低。而LightGBM，速度快，而且准确率最高，所以，现在处理结构化数据的时候，大部分都是用LightGBM算法。

XGBoost的使用 1.原生XGBoost的使用

importxgboostasxgb#记录程序运行时间importtimestart_time=time.time()#xgb矩阵赋值xgb_train=xgb.DMatrix(X_train,y_train)xgb_test=xgb.DMatrix(X_test,label=y_test)##参数params={"booster":"gbtree",#"silent":1,#设置成1则没有运行信息输出，最好是设置为0.#"nthread":7,#cpu线程数默认最大"eta":0.007,#如同学习率"min_child_weight":3,#这个参数默认是1，是每个叶子里面h的和至少是多少，对正负样本不均衡时的0-1分类而言#，假设 h 在0.01 附近，min_child_weight 为 1 意味着叶子节点中最少需要包含 100个样本。#这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易 overfitting。"max_depth":6,#构建树的深度，越大越容易过拟合"gamma":0.1,#树的叶子节点上作进一步分区所需的最小损失减少,越大越保守，一般0.1、0.2这样子。"subsample":0.7,#随机采样训练样本"colsample_bytree":0.7,#生成树时进行的列采样"lambda":2,#控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。#"alpha":0,#L1正则项参数#"scale_pos_weight":1, #如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛。#"objective":"multi:softmax",#多分类的问题#"num_class":10,#类别数，多分类与multisoftmax并用"seed":1000,#随机种子#"eval_metric":"auc"}plst=list(params.items())num_rounds=500#迭代次数watchlist=[(xgb_train,"train"),(xgb_test,"val")]

#训练模型并保存#early_stopping_rounds当设置的迭代次数较大时，early_stopping_rounds可在一定的迭代次数内准确率没有提升就停止训练model=xgb.train(plst,xgb_train,num_rounds,watchlist,early_stopping_rounds=100,)#model.save_model("./model/xgb.model")#用于存储训练出的模型print("bestbest_ntree_limit",model.best_ntree_limit)y_pred=model.predict(xgb_test,ntree_limit=model.best_ntree_limit)print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))#输出运行时长cost_time=time.time()-start_timeprint("xgboostsuccess!","\n","costtime:",cost_time,"(s)......")

[0]train-rmse:1.11000val-rmse:1.10422[1]train-rmse:1.10734val-rmse:1.10182[2]train-rmse:1.10465val-rmse:1.09932[3]train-rmse:1.10207val-rmse:1.09694

……

[497]train-rmse:0.62135val-rmse:0.68680[498]train-rmse:0.62096val-rmse:0.68650[499]train-rmse:0.62056val-rmse:0.68624best best_ntree_limit 500error=0.826667xgboost success!  cost time: 3.5742645263671875 (s)......

2.使用scikit-learn接口

会改变的函数名是：

eta -> learning_rate

lambda -> reg_lambda

alpha -> reg_alpha

fromsklearn.model_selectionimporttrain_test_splitfromsklearnimportmetricsfromxgboostimportXGBClassifierclf=XGBClassifier(# silent=0, #设置成1则没有运行信息输出，最好是设置为0.是否在运行升级时打印消息。#nthread=4,#cpu线程数默认最大learning_rate=0.3,#如同学习率min_child_weight=1,#这个参数默认是1，是每个叶子里面h的和至少是多少，对正负样本不均衡时的0-1分类而言#，假设 h 在0.01 附近，min_child_weight 为 1 意味着叶子节点中最少需要包含 100个样本。#这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易 overfitting。max_depth=6,#构建树的深度，越大越容易过拟合gamma=0,#树的叶子节点上作进一步分区所需的最小损失减少,越大越保守，一般0.1、0.2这样子。subsample=1,#随机采样训练样本训练实例的子采样比max_delta_step=0,#最大增量步长，我们允许每个树的权重估计。colsample_bytree=1,#生成树时进行的列采样reg_lambda=1,#控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。#reg_alpha=0,#L1正则项参数#scale_pos_weight=1, #如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛。平衡正负权重#objective="multi:softmax",#多分类的问题指定学习任务和相应的学习目标#num_class=10,#类别数，多分类与multisoftmax并用n_estimators=100,#树的个数seed=1000#随机种子#eval_metric="auc")clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.936

LIghtGBM的使用 1.原生接口

importlightgbmaslgbfromsklearn.metricsimportmean_squared_error#加载你的数据#print("Loaddata...")#df_train=pd.read_csv("../regression/regression.train",header=None,sep="\t")#df_test=pd.read_csv("../regression/regression.test",header=None,sep="\t")##y_train=df_train[0].values#y_test=df_test[0].values#X_train=df_train.drop(0,axis=1).values#X_test=df_test.drop(0,axis=1).values#创建成lgb特征的数据集格式lgb_train=lgb.Dataset(X_train,y_train)#将数据保存到LightGBM二进制文件将使加载更快lgb_eval=lgb.Dataset(X_test,y_test,reference=lgb_train)#创建验证数据#将参数写成字典下形式params={"task":"train","boosting_type":"gbdt",#设置提升类型"objective":"regression",#目标函数"metric":{"l2","auc"},#评估函数"num_leaves":31,#叶子节点数"learning_rate":0.05,#学习速率"feature_fraction":0.9,#建树的特征选择比例"bagging_fraction":0.8,#建树的样本采样比例"bagging_freq":5,#k意味着每k次迭代执行bagging"verbose":1#<0显示致命的,=0显示错误(警告),>0显示信息}print("Starttraining...")#训练cvandtraingbm=lgb.train(params,lgb_train,num_boost_round=500,valid_sets=lgb_eval,early_stopping_rounds=5)#训练数据需要参数列表和数据集print("Savemodel...")gbm.save_model("model.txt")#训练后保存模型到文件print("Startpredicting...")#预测数据集y_pred=gbm.predict(X_test,num_iteration=gbm.best_iteration)#如果在训练期间启用了早期停止，可以通过best_iteration方式从最佳迭代中获得预测#评估模型print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))

Start training...[LightGBM] [Warning] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000448 seconds.You can set `force_col_wise=true` to remove the overhead.[LightGBM] [Info] Total Bins 2550[LightGBM] [Info] Number of data points in the train set: 9000, number of used features: 10[LightGBM] [Info] Start training from score 0.012000[1]valid_0"s auc: 0.814399valid_0"s l2: 0.965563Training until validation scores don"t improve for 5 rounds[2]valid_0"s auc: 0.84729valid_0"s l2: 0.934647[3]valid_0"s auc: 0.872805valid_0"s l2: 0.905265[4]valid_0"s auc: 0.884117valid_0"s l2: 0.877875[5]valid_0"s auc: 0.895115valid_0"s l2: 0.852189

……

[191]valid_0"s auc: 0.982783valid_0"s l2: 0.319851[192]valid_0"s auc: 0.982751valid_0"s l2: 0.319971[193]valid_0"s auc: 0.982685valid_0"s l2: 0.320043Early stopping, best iteration is:[188]valid_0"s auc: 0.982794valid_0"s l2: 0.319746Save model...Start predicting...error=0.664000

2.scikit-learn接口

fromsklearnimportmetricsfromlightgbmimportLGBMClassifierclf=LGBMClassifier(boosting_type="gbdt",#提升树的类型gbdt,dart,goss,rfnum_leaves=31,#树的最大叶子数，对比xgboost一般为2^(max_depth)max_depth=-1,#最大树的深度learning_rate=0.1,#学习率n_estimators=100,#拟合的树的棵树，相当于训练轮数subsample_for_bin=200000,objective=None,class_weight=None,min_split_gain=0.0,#最小分割增益min_child_weight=0.001,#分支结点的最小权重min_child_samples=20,subsample=1.0,#训练样本采样率行subsample_freq=0,#子样本频率colsample_bytree=1.0,#训练特征采样率列reg_alpha=0.0,#L1正则化系数reg_lambda=0.0,#L2正则化系数random_state=None,n_jobs=-1,silent=True,)clf.fit(X_train,y_train,eval_metric="auc")#设置验证集合verbose=False不打印过程clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.927

参考

1.https://xgboost.readthedocs.io/

2.https://lightgbm.readthedocs.io/

3.https://blog.csdn.net/q383700092/article/details/53763328?locationNum=9&fps=1

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419，加入微信群请扫码

X 关闭

热门推荐

备案号：粤ICP备18023326号-21

邮箱：855 729 8@qq.com

【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）_全球讯息

每日看点!卓创资讯：供强需弱延续 12月东北猪价跌势难改

冬至阳生春又来！专家提醒：提高机体对寒冷适应性和耐寒能力_环球百事通

世界新资讯：乘联会：上周乘用车市场零售54.2万辆 环比增长44%

省呗贷款逾期17年还不起征信有什么影响

中邮消费金融贷款逾期19年拖欠多久上征信

全球时讯：绑架敲诈勒索罪判多少年？

日常系《小敏家》，唐艺昕演的“小姨”好有代入感，三言两语就有了生活气！|世界快资讯

快报：小崧股份主力资金持续净流入，3日共净流入2589.20万元

快消息！12月20日 7股盘前利好公告速递

【快播报】原创 骁龙8 Gen2被拉到了3000元以内，努比亚 Z50卷到了天边！

鸿日达：公司不存在应披露而未披露信息 全球百事通

关于羊了个羊的一些用药提示（发烧用药）_天天精选

世界观速讯丨许昌东城区：加强重大项目谋划 推动全区经济社会高质量发展

雄鹿7人上双力克公牛 大洛佩兹28+7德罗赞空砍40分 世界微动态

郎平曾阻挡天津女排破纪录！球队引进强援助力李盈莹弥补朱婷离去 天天热文

轻纺城跨境电商监管中心改造提升项目获政府补助资金 前沿热点

本周盘点（12.12-12.16）：昆药集团周跌1.51%，主力资金合计净流入1019.34万元|天天热议

重点聚焦!红旗连锁（002697）12月15日主力资金净卖出1232.07万元

天天看点：六旬太婆寒夜迷路，老伴焦急寻找时接到民警电话

河南郏县：扮靓“生态宜居星” 打造群众“幸福院”_全球即时

倒贷款如何审计 「倒贷款是什么意思」-世界热点评

中国东航(600115.SH)：拟对东航食品增资6.75亿元 环球即时

摸清底子 对症下药 打好大气污染防治攻坚战-世界快资讯

昱能科技（688348）12月13日主力资金净卖出2695.01万元 环球今热点

焦点资讯：四川经济师成绩怎么查询？成绩多久有效？

央行公开市场全额买断7500亿元特别国债 环球速读

天天观点：2022年离婚想取得孩子抚养权应具备哪些条件

伟时电子（605218）12月12日主力资金净卖出91.42万元|天天热点

告别卡塔尔！C罗本届世界杯数据：3首发2替补共290分钟攻入1球|重点聚焦

焦点报道:港股通持股解析|12月9日

Duckhorn Portfolio(NAPA.US)：2023年Q1财报实现营收1.082亿美元 世界独家

股票行情快报：奥来德（688378）12月6日主力资金净买入1296.78万元

港股内房股迎来普涨潮 十余只地产股涨幅超10%

司机诉苦接单难怀疑平台故意“卡单” T3出行回应

包工头成“夹心饼干” 当农民工和做包工头有啥区别？

交钱就能办驾驶证？这个老骗局骗了40多人

多家大型超市下架“康师傅”“统一”老坛酸菜牛肉面

银川市集中开展“提质增效优服务 维权护薪促稳定”活动

齐齐哈尔市龙江县警方破获一涉案200余万元的“帮信”案件

青海自然保护地占全省国土面积38.42%

1月25日6时起，北京丰台区组织第二轮全区核酸检测

西安全市降为低风险地区 城市“烟火气”逐渐回归

香港特区政府实施雇员特别上班安排 部分员工将居家办公

新疆伊犁州：确保管控区域内老幼病残孕等群体应急出行畅

天津：非涉疫地区人员离津持“一证一码”不再查验离津证

云南勐腊已发现4例确诊病例4例无症状感染者 基因测序显

浙江杭州西湖开展节前“洗刷刷” 铜雕等湖面设施换新颜

四川南充：一安保人员献血百余次 总量超过40000毫升

广州南沙港人子弟学校计划今年9月招生

山东聊城密接次密接人员两次核酸检测均为阴性

新疆伊犁州公布霍尔果斯市23日2例无症状感染者流调情况

通讯：渝昆高铁项目工地厨师朱士东的第10个“家”

新疆霍尔果斯疫情应急处置各项工作正在扎实有序推进

天津这些人员持48小时核酸阴性证明和健康码绿码可正常离津

《自然》两篇论文揭示奥密克戎在啮齿动物中致病能力下降

热血一幕！网友：这才是属于中国人的浪漫！

新疆伊犁州全面启动疫情防控工作

西安全域调整为低风险地区 铁路出行迎来春运大考

汕头港广澳港区疏港铁路开工建设

失散48年双胞胎重逢 寻觅亲情20载让“爱”团圆

袁国勇团队新论文解释为何奥密克戎复制效率、致病能力更

四川将发放1170余万元文旅消费券 激活春节文旅消费

新疆克孜勒苏州阿图什市发生3.2级地震 震源深度18千米

封建迷信披上科技外衣 是“算命”还是“算钱”

春节倒计时 牢记这些返乡防疫提示

北京西城：新增无症状感染者实际工作单位不在西城，相关

一场特别的“团圆”：浙江湖州“小海豚”温暖过新年

货车司机雪天被困高速 暖心交警连夜送热水食物

徐州警方捣毁制售假冒伪劣白酒窝点 查获假酒1000余箱

新疆霍尔果斯市24日0时至16时新增确诊病例4例 无症状感

兰州关闭烟花爆竹经营点 三级网格化护春节

“水中活化石”中华秋沙鸭又来重庆栖息越冬了

探访为铁路道岔“洗澡”的“清洁工”

河南新县城区第五轮核酸检测结果均为阴性

云南临沧：戍边民警提前收到“年夜饭”

河南信阳：严禁随意设点层层加码 不得随意对证码查验合

大同警方：已接到关于刘学州被买卖一事的报警，正展开调

湖北公安机关去年立案侦办食药环案1713起

福建宁德文化科技卫生“三下乡”：把温暖送到百姓的心坎

世界新资讯：乘联会：上周乘用车市场零售54.2万辆环比增长44%

【快播报】原创骁龙8 Gen2被拉到了3000元以内，努比亚 Z50卷到了天边！

鸿日达：公司不存在应披露而未披露信息全球百事通

世界观速讯丨许昌东城区：加强重大项目谋划推动全区经济社会高质量发展

雄鹿7人上双力克公牛大洛佩兹28+7德罗赞空砍40分世界微动态

郎平曾阻挡天津女排破纪录！球队引进强援助力李盈莹弥补朱婷离去天天热文

轻纺城跨境电商监管中心改造提升项目获政府补助资金前沿热点

倒贷款如何审计「倒贷款是什么意思」-世界热点评

中国东航(600115.SH)：拟对东航食品增资6.75亿元环球即时

摸清底子对症下药打好大气污染防治攻坚战-世界快资讯

昱能科技（688348）12月13日主力资金净卖出2695.01万元环球今热点

央行公开市场全额买断7500亿元特别国债环球速读

Duckhorn Portfolio(NAPA.US)：2023年Q1财报实现营收1.082亿美元世界独家

港股内房股迎来普涨潮十余只地产股涨幅超10%

银川市集中开展“提质增效优服务维权护薪促稳定”活动

西安全市降为低风险地区城市“烟火气”逐渐回归

香港特区政府实施雇员特别上班安排部分员工将居家办公

云南勐腊已发现4例确诊病例4例无症状感染者基因测序显

四川南充：一安保人员献血百余次总量超过40000毫升

西安全域调整为低风险地区铁路出行迎来春运大考

失散48年双胞胎重逢寻觅亲情20载让“爱”团圆

四川将发放1170余万元文旅消费券激活春节文旅消费

新疆克孜勒苏州阿图什市发生3.2级地震震源深度18千米

封建迷信披上科技外衣是“算命”还是“算钱”

春节倒计时牢记这些返乡防疫提示

货车司机雪天被困高速暖心交警连夜送热水食物

徐州警方捣毁制售假冒伪劣白酒窝点查获假酒1000余箱

新疆霍尔果斯市24日0时至16时新增确诊病例4例无症状感

兰州关闭烟花爆竹经营点三级网格化护春节

河南信阳：严禁随意设点层层加码不得随意对证码查验合

云南瑞丽开展大规模核酸检测结果均为阴性

新一轮强雨雪上线！8省有大到暴雪南方湿冷将持续至春节

中东部地区有大范围雨雪天气北京天津等地有大雾

湖南岳阳17岁男子驾车搭载6人掉入水池致3人死亡

北京：德尔塔变异株关联疫情目前来源明确传播链条基本