如何利用R软件建立决策树模型-千问二六

如何利用R软件建立决策树模型

R软件的决策树主要由程序包rpart中的函数rpart来实现。

rpart(formula, data, weights, subset, na.action = na.rpart, method, model = FALSE, x = FALSE, y = TRUE, parms, control, cost, ...)

formula：模型公式。

data:数据框形式的数据集。

weights:选取权重。

subset:选择数据集中的指定行。

na.action：缺失值处理方式，默认删除y丢失的所有观察值，而那些缺少一个或多个自变量的观测值则保留。

method：默认自动选择最佳的方法。主要方法有：连续性"anova", 泊松型"poisson", 类别"class"和指数型"exp"。

model：是否在结果中保留模型数据框。

x、y:结果中是否显示自变量和因变量。

parms：用来设置三个参数：先验概率 (componentprior),损失矩阵 (componentloss) 和分裂指数 (componentsplit)。

control：对树进行设置的一些参数，包括最小分支节点数（minsplit）；叶节点的最少观测数（minbucket）；复杂度参数，对每一步拆分,模型的整体R^2随着cp提高(cp);树的深度（maxdepth）；交叉验证数（xval）。

cost:成本矩阵。

这里以R中自带的数据集kyphosis为例。根据Age、Number、Start三个变量对kyphosis进行分类。

#程序包

library(rpart)

library(rpart.plot)

library(rattle)

#数据

data(kyphosis)

head(kyphosis)

定义参数并建立模型。

#参数

control <- rpart.control(minsplit=10,

minbucket=5,

xval=10,cp=0.1)

#决策树模型

model<- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis,

method="class",control=control,

parms = list(prior = c(0.6,0.4), split = "information"))

查看模型结果。summary可以查看模型的详细过程。

summary(model)

asRules(model)

绘制决策树图。可以从图中看到每一类的观测数及占总数的比例。

fancyRpartPlot(model)

查看交叉验证结果，并绘图。

model$cptable

plotcp(model)

grid()

可以看到结果中有交叉验证的估计误差（“xerror”），以及标准误差(“xstd”)，平均相对误差=xerror±xstd 。

根据交叉验证结果，找出估计误差最小时的cp值，并重新建立模型。

#选择交叉验证的估计误差最小时对应的cp

xerr <-model$cptable[,"xerror"]

minxerr <- which.min(xerr)

mincp <-model$cptable[minxerr, "CP"]

#新模型

model.prune <- prune(model,cp=mincp)

fancyRpartPlot(model.prune)

如何利用R软件建立决策树模型

热门文章

草字头加个良字念什么

微信如何快速恢复聊天记录

企业微信转正提醒在哪里设置

二年级带问号的句子

微信小程序排名怎么做

成功人士的意思

推荐阅读

怎么合并cad的多线段

忍者神龟4（对战版）游戏技巧1

营养美味的黑花生豆浆

怎么在excel中插入图片

闲鱼app如何修改生日日期

Word文档一二三级标题怎么设置

win10系统如何取消登录密码

如何用WORD画中国象棋棋盘

怎样设置电脑的自启动软件

怎样改变“老好人”形象你中枪了马

如何利用R软件建立决策树模型

相关文章

热门文章

推荐阅读