欢迎您来到懒之才-站长的分享平台!   学会偷懒,并懒出境界是提高工作效率最有效的方法!
首页 > 教程文档 > python > Python数据挖掘入门与实践【PDF】【8.72MB】

Python数据挖掘入门与实践【PDF】【8.72MB】

2019-02-14 703 收藏 0 赞一个 0 真差劲 0 去评论 去下载

内容简介

本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和*森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。本书面向愿意学习和尝试数据挖掘的程序员。

作者简介

Robert Layton,计算机科学博士,网络犯罪问题和文本分析方面的专家。多年来一直热衷于Python编程,参与过scikit-learn库等很多开源库的开发,曾担任2014年度“谷歌编程之夏”项目导师。他曾与全球几大数据挖掘公司密切合作,挖掘真实数据并研发相关应用。他的公司dataPipeline为多个行业提供数据挖掘和数据分析解决方案。

目录

第1章  开始数据挖掘之旅  1

1.1  数据挖掘简介  1

1.2  使用Python和IPython Notebook  2

1.2.1  安装Python  2

1.2.2  安装IPython  4

1.2.3  安装scikit-learn库  5

1.3  亲和性分析示例  5

1.3.1  什么是亲和性分析  5

1.3.2  商品推荐  6

1.3.3  在NumPy中加载数据集  6

1.3.4  实现简单的排序规则  8

1.3.5  排序找出最佳规则  10

1.4  分类问题的简单示例  12

1.5  什么是分类  12

1.5.1  准备数据集  13

1.5.2  实现OneR算法  14

1.5.3  测试算法  16

1.6  小结  18

第2章  用scikit-learn估计器分类  19

2.1  scikit-learn估计器  19

2.1.1  近邻算法  20

2.1.2  距离度量  20

2.1.3  加载数据集  22

2.1.4  努力实现流程标准化  24

2.1.5  运行算法  24

2.1.6  设置参数  25

2.2  流水线在预处理中的应用  27

2.2.1  预处理示例  28

2.2.2  标准预处理  28

2.2.3  组装起来  29

2.3  流水线  29

2.4  小结  30

第3章  用决策树预测获胜球队  31

3.1  加载数据集  31

3.1.1  采集数据  31

3.1.2  用pandas加载数据集  32

3.1.3  数据集清洗  33

3.1.4  提取新特征  34

3.2  决策树  35

3.2.1  决策树中的参数  36

3.2.2  使用决策树  37

3.3  NBA比赛结果预测  37

3.4  随机森林  41

3.4.1  决策树的集成效果如何  42

3.4.2  随机森林算法的参数  42

3.4.3  使用随机森林算法  43

3.4.4  创建新特征  44

3.5  小结  45

第4章  用亲和性分析方法推荐电影  46

4.1  亲和性分析  46

4.1.1  亲和性分析算法  47

4.1.2  选择参数  47

4.2  电影推荐问题  48

4.2.1  获取数据集  48

4.2.2  用pandas加载数据  49

4.2.3  稀疏数据格式  49

4.3  Apriori算法的实现  50

4.3.1  Apriori算法  51

4.3.2  实现  52

4.4  抽取关联规则  54

4.5  小结  60

第5章  用转换器抽取特征  62

5.1  特征抽取  62

5.1.1  在模型中表示事实  62

5.1.2  通用的特征创建模式  64

5.1.3  创建好的特征  66

5.2  特征选择  67

5.3  创建特征  71

5.4  创建自己的转换器  75

5.4.1  转换器API  76

5.4.2  实现细节  76

5.4.3  单元测试  77

5.4.4  组装起来  79

5.5  小结  79

第6章  使用朴素贝叶斯进行社会媒体挖掘  80

6.1  消歧  80

6.1.1  从社交网站下载数据  81

6.1.2  加载数据集并对其分类  83

6.1.3  Twitter数据集重建  87

6.2  文本转换器  90

6.2.1  词袋  91

6.2.2  N元语法  92

6.2.3  其他特征  93

6.3  朴素贝叶斯  93

6.3.1  贝叶斯定理  93

6.3.2  朴素贝叶斯算法  94

6.3.3  算法应用示例  95

6.4  应用  96

6.4.1  抽取特征  97

6.4.2  将字典转换为矩阵  98

6.4.3  训练朴素贝叶斯分类器  98

6.4.4  组装起来  98

6.4.5  用F1值评估  99

6.4.6  从模型中获取更多有用的特征  100

6.5  小结  102

第7章  用图挖掘找到感兴趣的人  104

7.1  加载数据集  104

7.1.1  用现有模型进行分类  106

7.1.2  获取Twitter好友信息  107

7.1.3  构建网络  110

7.1.4  创建图  112

7.1.5  创建用户相似度图  114

7.2  寻找子图  117

7.2.1  连通分支  117

7.2.2  优化参数选取准则  119

7.3  小结  123

第8章  用神经网络破解验证码  124

8.1  人工神经网络  124

8.2  创建数据集  127

8.2.1  绘制验证码  127

8.2.2  将图像切分为单个的字母  129

8.2.3  创建训练集  130

8.2.4  根据抽取方法调整训练数据集  131

8.3  训练和分类  132

8.3.1  反向传播算法  134

8.3.2  预测单词  135

8.4  用词典提升正确率  138

8.4.1  寻找最相似的单词  138

8.4.2  组装起来  139

8.5  小结  140

第9章  作者归属问题  142

9.1  为作品找作者  142

9.1.1  相关应用和使用场景  143

9.1.2  作者归属  143

9.1.3  获取数据  144

9.2  功能词  147

9.2.1  统计功能词  148

9.2.2  用功能词进行分类  149

9.3  支持向量机  150

9.3.1  用SVM分类  151

9.3.2  内核  151

9.4  字符N元语法  152

9.5  使用安然公司数据集  153

9.5.1  获取安然数据集  153

9.5.2  创建数据集加载工具  154

9.5.3  组装起来  158

9.5.4  评估  158

9.6  小结  160

第10章  新闻语料分类  161

10.1  获取新闻文章  161

10.1.1  使用Web API获取数据  162

10.1.2  数据资源宝库reddit  164

10.1.3  获取数据  165

10.2  从任意网站抽取文本  167

10.2.1  寻找任意网站网页中的主要内容  167

10.2.2  组装起来  168

10.3  新闻语料聚类  170

10.3.1  k-means算法  171

10.3.2  评估结果  173

10.3.3  从簇中抽取主题信息  175

10.3.4  用聚类算法做转换器  175

10.4  聚类融合  176

10.4.1  证据累积  176

10.4.2  工作原理  179

10.4.3  实现  180

10.5  线上学习  181

10.5.1  线上学习简介  181

10.5.2  实现  182

10.6  小结  184

第11章  用深度学习方法为图像中的物体进行分类  185

11.1  物体分类  185

11.2  应用场景和目标  185

11.3  深度神经网络  189

11.3.1  直观感受  189

11.3.2  实现  189

11.3.3  Theano简介  190

11.3.4  Lasagne简介  191

11.3.5  用nolearn实现神经网络  194

11.4  GPU优化  197

11.4.1  什么时候使用GPU进行

计算  198

11.4.2  用GPU运行代码  198

11.5  环境搭建  199

11.6  应用  201

11.6.1  获取数据  201

11.6.2  创建神经网络  202

11.6.3  组装起来  204

11.7  小结  205

第12章  大数据处理  206

12.1  大数据  206

12.2  大数据应用场景和目标  207

12.3  MapReduce  208

12.3.1  直观理解  209

12.3.2  单词统计示例  210

12.3.3  Hadoop MapReduce  212

12.4  应用  212

12.4.1  获取数据  213

12.4.2  朴素贝叶斯预测  215

12.5  小结  226

附录  接下来的方向  227

文档截图

QQ截图20190214103123.jpg

Python数据挖掘入门与实践【PDF】【8.72MB】

一、推荐使用迅雷或快车等多线程下载软件下载本站资源。

二、未登录会员无法下载,登录后可获得更多便利功能,若未注册,请先注册。

三、如果服务器暂不能下载请稍后重试!总是不能下载,请点我报错 ,谢谢合作!

四、本站大部分资源是网上搜集或私下交流学习之用,任何涉及商业盈利目的均不得使用,否则产生的一切后果将由您自己承担!本站将不对任何资源负法律责任.如果您发现本站有部分资源侵害了您的权益,请速与我们联系,我们将尽快处理.

五、如有其他问题,请加网站设计交流群(点击这里查看交流群 )进行交流。

六、如需转载本站资源,请注明转载来自并附带链接

七、本站部分资源为加密压缩文件,统一解压密码为:www.aizhanzhe.com

下载地址
大家评论