统计思维

出版时间:2013-5  出版社:图灵教育  作者:Allen B.Downey  译者:张建锋,陈钢  
Tag标签:无  

内容概要

代码跑出来的概率统计问题;
程序员的概率统计开心辞典;
开放数据集,全代码攻略。
现实工作中,人们常被要求用数据说话。可是,数据自己是不能说话的,只有对它进行可靠分析和深入挖掘才能找到有价值的信息。概率统计是数据分析的通用语言,是大数据时代预测未来的根基。
站在时代浪尖上的程序员只有具备统计思维才能掌握数据分析的必杀技。本书正是一本概率统计方面的入门图书,但视角极为独特,折射出大数据浪潮的别样风景。作者将基本的概率统计知识融入Python编程,告诉你如何借助编写程序,用计算而非数学的方式实现统计分析。一个趣味实例贯穿全书,生动地讲解了数据分析的全过程:从采集数据和生成统计量,到识别模式和检验假设。一册在手,让你轻松掌握分布、概率论、可视化以及其他工具和概念。
 编写测试代码深入理解概率论和统计学
 运行实验检验统计行为特征,如生成服从各种分布的样本
 通过模拟理解数学上艰涩的概念
 学习贝叶斯估计等实用内容
 用Python导入各种来源的数据
 运用统计推断解决真实数据问题
《统计思维:程序员数学之概率统计》是一本以全新视角讲解概率统计的入门图书。抛开经典的数学分析,Downey 手把手教你用编程理解统计学。概率、分布、假设检验、贝叶斯估计、相关性等,每个主题都充满趣味性,经编程解释后变得更为清晰易懂。
本书研究数据主要来源于美国全国家庭成长调查(NSFG)与行为风险因素监测系统(BRFSS),数据源及解决方案的相关代码全部开放,具体章节列出了大量学习和进阶资料,方便读者参考。
Allen B. Downey是富兰克林欧林工程学院的计算机科学副教授,曾执教于韦尔斯利学院、科尔比学院和加州大学伯克利分校。他先后获麻省理工学院计算机科学硕士学位和加州大学伯克利分校计算机科学博士学位。Downey已出版十余本技术书,内容涉及Java、Python、C++、概率统计等,深受专业读者喜爱。他的最新Think系列书还有Think Complexity: Complexity Science and Computational Modeling、Think Python。

作者简介

Allen B. Downey是富兰克林欧林工程学院的计算机科学副教授,曾执教于韦尔斯利学院、科尔比学院和加州大学伯克利分校。他先后获麻省理工学院计算机科学硕士学位和加州大学伯克利分校计算机科学博士学位。Downey已出版十余本技术书,内容涉及Java、Python、C++、概率统计等,深受专业读者喜爱。他的最新Think系列书还有Think Complexity: Complexity Science and Computational Modeling、Think Python。

书籍目录

前言 xi 第1章 程序员的统计思维 1 1.1 第一个孩子出生晚吗 2 1.2 统计方法 3 1.3 全国家庭成长调查 4 1.4 表和记录 5 1.5 显著性 9 1.6 术语 10 第2章 描述性统计量 13 2.1 均值和平均值 13 2.2 方差 14 2.3 分布 15 2.4 直方图的表示 16 2.5 绘制直方图 17 2.6 表示概率质量函数 19 2.7 绘制概率质量函数 21 2.8 异常值 22 2.9 其他可视化方法 23 2.10 相对风险 24 2.11 条件概率 24 2.12 汇报结果 25 2.13 术语表 26 第3章 累积分布函数 29 3.1 选课人数之谜 29 3.2 PMF的不足 31 3.3 百分位数 33 3.4 累积分布函数 34 3.5 CDF的表示 36 3.6 回到调查数据 37 3.7 条件分布 38 3.8 随机数 39 3.9 汇总统计量小结 40 3.10 术语表 40 第4章 连续分布 43 4.1 指数分布 43 4.2 帕累托分布 47 4.3 正态分布 49 4.4 正态概率图 52 4.5 对数正态分布 54 4.6 为什么需要模型 57 4.7 生成随机数 58 4.8 术语 58 第5章 概率 61 5.1 概率法则 62 5.2 蒙提霍尔问题 65 5.3 庞加莱 67 5.4 其他概率法则 68 5.5 二项分布 69 5.6 连胜和手感 69 5.7 贝叶斯定理 72 5.8 术语 75 第6章 分布的运算 77 6.1 偏度 77 6.2 随机变量 79 6.3 概率密度函数 81 6.4 卷积 82 6.5 正态分布的性质 85 6.6 中心极限定理 86 6.7 分布函数之间的关系框架 88 6.8 术语表 89 第7章 假设检验 91 7.1 均值差异的检验 92 7.2 阈值的选择 94 7.3 效应的定义 96 7.4 解释统计检验结果 96 7.5 交叉验证 98 7.6 报道贝叶斯概率的结果 99 7.7 卡方检验 100 7.8 高效再抽样 102 7.9 功效 103 7.10 术语 104 第8章 估计 107 8.1 关于估计的游戏 107 8.2 方差估计 109 8.3 误差 110 8.4 指数分布 111 8.5 置信区间 111 8.6 贝叶斯估计 112 8.7 贝叶斯估计的实现 114 8.8 删失数据116 8.9 火车头问题 117 8.10 术语 121 第9章 相关性 123 9.1 标准分数 123 9.2 协方差 124 9.3 相关性 125 9.4 用pyplot画散点图 127 9.5 斯皮尔曼秩相关 130 9.6 最小二乘拟合 132 9.7 拟合优度 135 9.8 相关性和因果关系 137 9.9 术语139 作者及封面简介 141 索引 142

章节摘录

版权页:   插图:   习题3—1按照院长的方法构建这些数据的PMF,并计算均值。因为数据是分组的,所以可以用每组的中点值。 然后再从学生的角度来构建选课人数的分布,并计算均值。假设想要得到学校每门课程选课人数的分布情况,但又无法从院长那里得到可信的数据。其中一种解决办法是随机选择一组学生,然后询问他们所选课程的上课人数。然后可以根据调查的结果计算出PMF。这个结果是有偏差的。因为选修人数多的课程会被过采样,所以在估计选课人数真实分布时要对观察到的分布做一个合适的变换。编写一个UnbiasPmf函数,参数是观察值的PMF,返回据此估计出的表示选课人数分布的Pmf对象。 答案可以从http://thinkstats.corn/class—size.PY下载。习题3—2 在大部分的田径比赛中,选手都是同时出发的。如果跑得快,那么在比赛刚开始的时候会超过很多人,但在跑出几英里后你就会发现,周围都是跟你速度差不多的选手。 我第一次参加长跑(209英里)接力时,注意到一个奇怪的现象:当我超过其他选手时,我会跑得更快;当其他选手超过我时,他们通常也会跑得更快。 一开始,我觉得速度的分布是两级分化的:速度快和速度慢的人都很多,但跟我速度差不多的人应该不多。 但随后我发现我的选择是有偏差的。这个比赛有两个特点:分阶段出发,不同的队伍出发时间也不同;此外,同一个队伍中选手的水平也参差不齐。 因此,选手在比赛道路上所处的位置与其速度和名次没有什么关系。在我开始跑时,我周围的参赛选手基本上是随机的。 那这其中的偏差来自何处?在整个比赛过程中,超过其他选手或者是被其他选手超过的概率跟选手间速度差异的大小是有关的。为什么?想想最极端的情况。如果我跟另外一个比赛选手的速度完全一样,那我们就不可能超过对方,也不可能被对方超过。如果某个选手跑得特别快,在我跑的过程中跑完了全程,那这位选手肯定会在某个地方超过我。写一个BiasPmf函数,其参数是表示选手速度实际分布的Pmf和观察者的速度,返回值是一个新的Pmf,表示其他选手相对观察者的速度分布。 用一般的道路比赛(不是接力赛)的数据测试函数。我写了一个程序读取马萨诸塞州Dedham的James Joyce Ramble一万米比赛的数据,并将每个选手的速度单位转换成m/h。可以从http://thinkstats.com/relay.PY下载这个程序。运行该程序,看看速度的PMF。

编辑推荐

大数据革命风起云涌。数据分析成为每个浪尖上的舞者的必杀技。而统计思维是数据分析和数据挖掘的根基。每个程序员都应该具备统计思维,看到统计思维:程序员数学之概率统计你已经比别人先行一步。这是一本极为独特的统计思维入门图书。独特的编程视角。对于主要的概率统计概念,作者都给出了开源的代码示例,其新颖独特的讲解方法绝对可以让程序员对概率统计产生更深刻的认识。幽默风趣的示例。你是否一直无法理解蒙提霍尔问题?庞加莱是怎样发现面包商的企图的?作者援引经典问题,帮你打开统计思维。公共开源数据。拿来美国全国家庭成长调查(NSFG)与行为风险因素监测系统(BRFSS)中的数据,重用参考代码,立即让自己的代码跑起来。

图书封面

图书标签Tags

评论、评分、阅读与下载


    统计思维 PDF格式下载


用户评论 (总计13条)

 
 

  •   比较简单,适合在地铁或者坐车的时候看看。讲述了一些基本概念和小故事。但是,代码和许多细节都需要在线下载程序和登录相应的wiki,因此感觉适合看电子版的,方便随时下载相应代码,以及查阅网页。
  •   一般的书,不好也不差。书很小很薄!
  •   还不错,内容讲得比较浅也比较通俗易懂,没事拿来消遣还是不错
  •   拿着后发现书有点薄,希望看后能有所帮助
  •   o'reilly的动物书质量都是有保证的。这本书将涉及的还是比较广的。例子都是用Python写的
  •   有时间拿来读一读,挺不错的
  •   虽然书挺薄,但是内容很实在,每一点吃头都要花一些实现
  •   按体积来说 感觉价格贵多了~书本就像一本英语背单词的小册子 不过 毕竟知识无价 还是很感激的
  •   和电风扇一起买的, 结果书被电风扇从中间给压折了,电子产品经常会在卓越网上买, 物流比较给力,也有保障, 现在看来有点折扣
  •   感觉一般般,比想象中的薄
  •   还没开始看,就给个喜欢吧。。
  •   挺好的入门,说得虽然不是很详细,但是基本概念说得清楚,不懂的自己google吧
  •   写的像数学教材,但是又不够细,一般吧
 

250万本中文图书简介、评论、评分,PDF格式免费下载。 第一图书网 手机版

京ICP备13047387号-7