V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yoggieCDA
V2EX  ›  科技

sklearn 中的决策树

  •  
  •   yoggieCDA · 2019-03-13 12:02:55 +08:00 · 1994 次点击
    这是一个创建于 2116 天前的主题,其中的信息可能已经有所发展或是发生改变。

    小伙伴们大家好~o( ̄▽ ̄)ブ,首先声明一下,我的开发环境是Jupyter lab,所用的库和版本大家参考:

    Python 3.7.1 (你的版本至少要 3.4 以上

    Scikit-learn 0.20.0 (你的版本至少要 0.20

    Graphviz 0.8.4 (没有画不出决策树哦,安装代码 conda install python-graphviz

    Numpy 1.15.3, Pandas 0.23.4, Matplotlib 3.0.1, SciPy 1.1.0

    1. 决策树是如何工作的

    决策树( Decision Tree )是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。

    我们来简单了解一下决策树是如何工作的。决策树算法的本质是一种图结构,我们只需要问一系列问题就可以对数据进行分类了。比如说,来看看下面这组数据集,这是一系列已知物种以及所属类别的数据:

    DT1

    我们现在的目标是,将动物们分为哺乳类和非哺乳类。那根据已经收集到的数据,决策树算法为我们算出了下面的这棵决策树:

    DT2

    假如我们现在发现了一种新物种 Python,它是冷血动物,体表带鳞片,并且不是胎生,我们就可以通过这棵决策树来判断它的所属类别。

    可以看出,在这个决策过程中,我们一直在对记录的特征进行提问。最初的问题所在的地方叫做根节点,在得到结论前的每一个问题都是中间节点,而得到的每一个结论(动物的类别)都叫做叶子节点

    | 关键概念:节点 | | ------------------------------------------------------------ | | 根节点:没有进边,有出边。包含最初的,针对特征的提问。
    中间节点:既有进边也有出边,进边只有一条,出边可以有很多条。都是针对特征的提问。
    叶子节点:有进边,没有出边,每个叶子节点都是一个类别标签
    *子节点和父节点:在两个相连的节点中,更接近根节点的是父节点,另一个是子节点。 |

    2. 决策树算法的核心是什么

    决策树算法的核心是要解决两个问题:

    1 )如何从数据表中找出最佳节点和最佳分枝?

    2 )如何让决策树停止生长,防止过拟合?

    几乎所有决策树有关的模型调整方法,都围绕这两个问题展开。这两个问题背后的原理十分复杂,我会在讲解模型参数和属性的时候为大家简单解释涉及到的部分。在这里,我会尽量避免让大家太过深入到决策树复杂的原理和数学公式中(尽管决策树的原理相比其他高级的算法来说是非常简单了),专注于实践和应用。

    3. sklearn 中的决策树

    • 模块 sklearn.tree

    sklearn 中决策树的类都在” tree “这个模块之下。这个模块总共包含五个类:

    | tree.DecisionTreeClassifier | 分类树 | | ------------------------------ | ----------------------------------------- | | tree.DecisionTreeRegressor | 回归树 | | tree.export_graphviz | 将生成的决策树导出为 DOT 格式,画图专用 | | tree.ExtraTreeClassifier | 高随机版本的分类树 | | tree.ExtraTreeRegressor | 高随机版本的回归树 |

    我们会主要讲解分类树和回归树,并用图像呈现给大家。

    • sklearn 的基本建模流程

    在那之前,我们先来了解一下 sklearn 建模的基本流程。

    DT3

    在这个流程下,分类树对应的代码是:

    from sklearn import tree						#导入需要的模块
    
    clf = tree.DecisionTreeClassifier()     		#实例化
    clf = clf.fit(X_train,y_train)					#用训练集数据训练模型
    result = clf.score(X_test,y_test)				#导入测试集,从接口中调用需要的信息
    

    4. 分类决策树的实现

    classsklearn.tree.DecisionTreeClassifier(criterion=’ gini ’, splitter=’ best ’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

    这里以 SKlearn 自带的红酒数据集为例,画一棵分类决策树。

    #导入需要的算法库和模块
    from sklearn import tree
    from sklearn.datasets import load_wine
    from sklearn.model_selection import train_test_split
    
    #探索数据
    wine = load_wine()  
    wine.data
    wine.data.shape
    wine.target
    wine.target.shape
    
    #如果 wine 是一张表,应该长这样:
    import pandas as pd
    pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1)
    
    wine.feature_names
    wine.target_names
    
    #切分训练集和测试集
    Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
    
    Xtrain.shape
    Xtest.shape
    
    #建立模型
    clf = tree.DecisionTreeClassifier()
    clf = clf.fit(Xtrain, Ytrain)
    score = clf.score(Xtest, Ytest) #返回预测的准确度
    score
    
    #绘制树
    import graphviz
    feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315 稀释葡萄酒','脯氨酸']
    dot_data = tree.export_graphviz(clf
                                    ,out_file=None
                                    ,feature_names= feature_name
                                    ,class_names=["琴酒","雪莉","贝尔摩德"]
                                    ,filled=True
                                    ,rounded=True
                                   )
    graph = graphviz.Source(dot_data)
    graph
    

    最后绘制出来的树就长这个样子:

    决策树

    2 条回复    2021-01-02 13:40:18 +08:00
    wqzjk393
        1
    wqzjk393  
       2019-03-13 12:22:57 +08:00 via iPhone
    记得好像机器学习实战那本书就有使用 matplotlib 画决策树的思路和全部代码…
    IgniteWhite
        2
    IgniteWhite  
       2021-01-02 13:40:18 +08:00 via iPhone
    最近正在用 graphviz,前来点赞
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3839 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:10 · PVG 13:10 · LAX 21:10 · JFK 00:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.