如何成为一名数据科学家?

来源:头条 ·2017年11月18日 15:14

如何成为一名数据科学家?

在外界看来,「大数据」和「数据科学」这样的词看起来复杂又神秘。数据科学被称为「21世纪最性感的工作」。所要成为一名数据科学家,要实有际的付出,比如,需要具备成为数据科学家的三项能力,以及为走向数据科学做好一些准备,观看一些有关数据科学的优秀在线课程,阅读不得不读的数据科学经典书籍;如果,你学有所成,也可以找一些好的测试题自我检验一下;而以上,正是本文所要分享的内容,希望对你能有所帮助!


数据科学家需要具备的三项能力


数据科学家」这个词覆盖的角色很广,涵盖了学术、金融和政府等多种产业和组织。然而,有三个重要的能力是每位数据科学家都必须理解的:


1、必须理解数据是有意义的


我们经常忽视一个事实,那就是数据是有含义的,并且理解其中的意义非常重要。如果我们想要在数字中获得有用的洞察,就必须超越数字,理解它们暗藏的内涵。这一点与算法和工程等没有关系。理解数据是一门艺术,真的非常重要。


2、必须理解你需要解决的问题,以及数据与之的联系


此时,你可以打开工具箱,找到正确的分析方法和算法来分析数据。机器学习可以进行技术分析。除了机器学习之外,还有几百种技术可以用数据来解决问题,例如运筹学、决策论、博弈论、控制论等,这些理论都有很长的历史。一旦你理解了数据和你试图解决的问题,下一步就应该选择匹配的算法,来获得有意义的解。


3、必须理解工程问题


第三个能力是理解和运用执行分析任务的设备,就是「如果你在正确的时间和地点没有基础设备来高效精确地运行分析任务,那一切都是白搭。」


做好走向数据科学的准备


1、 最重要的是:无论你想要在目前的工作中学到什么,都要找到方法

找到一个涉及更多编码/数据分析且对你的雇主有帮助的项目。尝试使任何无聊的任务自动化。即使这个过程需要 5 倍的时间(即使这样的任务你只做一次!),但你正是通过这样来学习。

2、分析您拥有的任何数据

比如消费前的研究数据(即决定要购买哪种微波炉),个人健身追踪器的数据,烹饪食谱的营养数据,为孩子调查的学前教育数据。把它变成一个小型的数据分析项目,并写到博客中。例如如果你是研究生,你可以分析所教学生的年级数据。

3、学习最重要的数据科学软件工具

Python's data science stack(pandas / numpy / scipy)是最有用的技术(阅读本书!),紧随其后的是 SQL。在学习其他语言之前我会专注于学习 Python 和 SQL。Python 被广泛使用且非常灵活。如果你决定参与到更多的软件开发工作,或者全面进入机器学习,你会有优势。

4、使用 Kaggle

做教程,参加论坛,参加比赛(不要担心你处于什么水平- 只是专注于每天做得更好一点)。这是学习实用机器技能的最好方法。

5、搜索您所在地区的数据科学和技术会议

随着数据科学在过去几年的激增,如今在全球有各种会议。例如,Google 最近在加利福尼亚州山景城举办了一次 TensorFlow Dev 峰会,但有全世界观众一起观看直播(包括尼日利亚的阿布贾,印度的哥印拜陀和摩洛哥的拉巴特)。


数据科学在线课程


在线课程是一个了不起的资源。你可以在家里舒适地跟随世界上最好的数据科学家学习。通常作业是学习最多的地方,所以不要跳过它们!这里有几个我最喜欢的课程:

  • Andrew Ng 的经典机器学习公开课(虽然没有在 Octave / MATLAB 上花太多时间,但他把算法解释地非常完美),或许用 Python 完成这项工作更好

  • 快速实习深度学习课程。透露:我协助开设了这门课程,我们得到了许多学生的积极反馈。其中唯一的先决条件是一年的编码经验。

  • Udacity 的数据科学系列。

  • Udacity 的 Web 开发课程。如果想成为一个数据科学家在技术上不需要了解这些,但成为一个更好的软件开发人员可以使你成为一个更好的数据科学家,了解如何构建自己的网络应用程序非常有用。

上述强调的问题之一是,在线可用的信息、教程和课程的数量或许巨大的,最大的风险之一是不能持之以恒,不能完成或坚持足够长的时间来学习它。重要的是找到一个「足够好」的课程或项目,然后坚持下去。找到或组建一个见面团队来一起学完在线课程或许对解决这个问题有帮助。

在线课程对获取知识非常有用(做完作业非常重要,这是你学习的方式)。不过,我还没发现获得证书有啥好处。(虽然我知道这是一个新增长的领域)。因为之前雇佣数据科学家时,我面试过很多求职者,而且自己也有这方面的求职经验,都是经验之谈。


数据科学家要读的书籍


作为一位数据科学家、数据工程师或机器学习研究者,面对市面上各种各样的相关书籍一定会感觉难以取舍。这是一份数据驱动的客观书单,希望可以有所帮助:


  1. An Introduction to Statistical Learning: With Applications in R(统计学习导论 : 基于R应用)

价格:英文版 61.36 美元,中文版 63.1 元

品质得分:10/10

这本书在亚马逊上评分非常高,其作者是来自南加利福尼亚大学、斯坦福大学和华盛顿大学的四位教授 Gareth James、Daniela Witten、Trevor Hastie 和 Rob Tibshirani;他们都有统计学背景。这本书比《The Elements of Statistical Learning(统计学习基础)》更为实用,它给出了一些使用 R 语言实现的案例。

2.The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition(统计学习基础:数据挖掘、推理和预测)

价格:英文版 62.0 美元,中文版 45 元

品质得分:9/10

亚马逊上的高分书籍,作者是斯坦福大学的三位统计学教授。第一作者 Trevor Hastie 具有统计学和生物统计学方面的研究背景。关于这本书的一个有趣的事情是作者们以统计学的视角看待机器学习问题。这本书似乎过于关注理论了,所以一些读者可能倾向于略过它。

3.Pattern Recognition and Machine Learning(模式识别与机器学习)

价格:英文版 60.0 美元,无中文版

品质得分:8/10

亚马逊上的高分书籍,作者是著名作家 Christopher M. Bishop,他是微软剑桥研究院的一位杰出科学家,领导微软机器学习与感知研究组。这本书在技术上全面覆盖了各种机器学习主题,包括回归、线性分类、神经网络、核方法和图模型。

4. Machine Learning: A Probabilistic Perspective(机器学习:概率学的观点)

价格:英文版 79.16 美元,无中文版

品质得分: 7/10

Machine Learning: A Probabilistic Perspective 一书提供了可以自动检测数据模式,然后使用得出的模式预测未来数据的方法。该教材基于统一的、概率学的方法对机器学习领域提供了全面的介绍。该书的作者 Kevin Murphy 是谷歌的一位研究人工智能、机器学习、计算机视觉、知识基础建设和自然语言处理的研究科学家。

5. Data Mining: Concepts and Techniques, Third Edition(数据挖掘:概念与技术,第三版)

价格:英文版 50.0 美元,中文版 79.0 元

品质得分: 6/10

Data Mining: Concepts and Techniques, Third Edition 一书的作者是伊利诺伊大学香槟分校计算机科学系的 Jiawei Han(韩家炜)教授。这本书能让你了解、应用从大数据集中发现隐藏模式的理论和实践知识。这本书在亚马逊上获得了较为平均的评价。

6. Data Mining: Practical Machine Learning Tools and Techniques, Third Edition(数据挖掘:实用机器学习工具与技术,第3版)

价格:英文版 37.5 美元,中文版 79.0 元

品质得分: 6/10

这本书在亚马逊上的评价相当不错,其作者为新西兰怀卡托大学的三位计算机科学教授。他们也是基于 Java 的数据挖掘软件 Weka 的主要贡献者。因此,这本书重在数据挖掘领域的具体实现方面,尤其是基于 Weka 软件的工作平台。

7. Probabilistic Graphical Models: Principles and Techniques(概率图模型:原理与技术)

价格:英文版 91.66 美元,中文版 198 元

品质得分: 6/10

Probabilistic Graphical Models: Principles and Techniques 这本独特的书提供了设计自动推理系统的概率图框架。这本书的作者是两位计算机科学教授:来自斯坦福大学人工智能实验室的 Daphne Koller 和来自耶路撒冷希伯来大学的 Nir Friedman。

8. Introduction to Information Retrieval(信息检索导论)

价格:英文版 57.0 美元,中文版 69 元

品质得分: 6/10

Introduction to Information Retrieval 的第一作者是斯坦福计算机科学教授 Christopher Manning。这是讲解网络时代的信息检索的教科书,包括网络搜索,以及与文本分类和文本聚类的基本概念相关的领域。

9. Machine Learning(机器学习)

价格:英文版 211.6 美元,中文版 35 元

品质得分: 5/10

Machine Learning 是机器学习领域一本非常著名的著作,其作者是美国卡内基·梅隆大学计算机科学教授 Tom Mitchell。Tom Mitchell 是世界上第一个机器学习系的第一任系主任。Machine Learning 一书涵盖了机器学习的一些基本领域,包括学习、决策树学习、神经网络、贝叶斯学习、强化学习等。

10. Speech and Language Processing, 2nd Edition(语音和语言处理,第二版)

价格:英文版 78.65 美元,无中文版

品质得分: 5/10

Speech and Language Processing 的作者是斯坦福大学语言学和计算机科学教授 Dan Jurafsky。这是全面覆盖语言技术的第一本书——在所有层次上且包含所有现代技术。基于大型企业使用的应用统计和其它机器学习算法,这本书在语言技术这一主题上使用了实证的方法

11. Introduction to Data Mining(数据挖掘导论)

价格:英文版 118.91 美元,中文版 49.0 元

品质得分: 4/10

这本书在亚马逊上获得了很好的评分,其作者是三位计算机科学教授:密歇根州立大学的 Pang-Ning Tan、明尼苏达大学的 Michael Steinbach 和 Vipin Kumar。这本书涵盖了数据挖掘的不同基本领域,如:分类、关联分析、聚类和异常检测。

12. Neural Networks for Pattern Recognition(用于模式识别的神经网络)

价格:英文版 88.42 美元,无中文版

品质得分: 4/10

Neural Networks for Pattern Recognition 算是一本老书了,但其作者是微软剑桥研究院的杰出科学家 Christopher M. Bishop。

13. Foundations of Statistical Natural Language Processing(统计自然语言处理基础)

价格:英文版 87.27 美元,中文版 55 元

品质得分: 4/10

Foundations of Statistical Natural Language Processing 是亚马逊上评分非常好的一本自然语言处理书籍。用统计方法处理自然语言文本近来已经占据了主导地位。这本书对统计自然语言处理(NLP)进行了全面的介绍,含所有开发 NLP 工具所需的理论和算法。

14. Handbook of Statistical Analysis and Data Mining Applications(统计分析和数据挖掘应用手册)

价格:英文版 72.81 美元,无中文版

品质得分: 4/10

这本书在亚马逊的评分高于平均分,其作者是三位在数据挖掘和统计学领域有行业经验的博士。这本书是一本指导商业分析师、科学家、工程师和研究者的全面的专业参考书,其中包含不同阶段的数据分析、建模和实现。

15. Understanding Machine Learning: From Theory to Algorithms(理解机器学习:从理论到算法)

价格:英文版 52.76 美元,无中文版

品质得分: 4/10

Understanding Machine Learning: From Theory to Algorithms 提供了解释机器学习基本思想的广泛理论和将这些原理转化成实际算法的数学推导。这本书的两位作者是分别来自耶路撒冷希伯来大学和滑铁卢大学的计算机科学教授。

16. Foundations of Machine Learning(机器学习基础)

价格:英文版 96.56 美元,无中文版

品质得分: 3/10

Foundations of Machine Learning 是一本研究生阶段的教科书,介绍了机器学习的基本概念和方法。这本书描述了几种重要的算法,提供了这些算法的理论基础,并阐释了这些算法应用的主要方面。其作者 Mehryar Mohri 是纽约大学库朗数学科学研究所的计算机科学教授。


40 道数据科学测试题(附答案)


如果你是一名数据科学家,那就需要对机器学习很擅长,而不只是三脚猫的功夫。测试包括机器学习、深度学习、时序问题以及概率。数据科学家可以就这些关键技能进行自我评估。算是对以上内容的一个补充。


假定特征 F1 可以取特定值:A、B、C、D、E 和 F,其代表着学生在大学所获得的评分。现在请答题:

1. 在下面说法中哪一项是正确的?

A. 特征 F1 是名义变量(nominal variable)的一个实例。

B. 特征 F1 是有序变量(ordinal variable)的一个实例。

C. 该特征并不属于以上的分类。

D. 以上说法都正确。

答案为(B):有序变量是一种在类别上有某些顺序的变量。例如,等级 A 就要比等级 B 所代表的成绩好一些。

2. 下面哪个选项中哪一项属于确定性算法?

A.PCA

B.K-Means

C. 以上都不是

答案为(A):确定性算法表明在不同运行中,算法输出并不会改变。如果我们再一次运行算法,PCA 会得出相同的结果,而 k-means 不会。

3. 两个变量的 Pearson 相关性系数为零,但这两个变量的值同样可以相关。

A. 正确

B. 错误

答案为(A):Y=X2,请注意他们不仅仅相关联,同时一个还是另一个的函数。尽管如此,他们的相关性系数还是为 0,因为这两个变量的关联是正交的,而相关性系数就是检测这种关联。详情查看:https://en.wikipedia.org/wiki/Anscombe's_quartet

4. 下面哪一项对梯度下降(GD)和随机梯度下降(SGD)的描述是正确的?

  1. 在 GD 和 SGD 中,每一次迭代中都是更新一组参数以最小化损失函数。

  2. 在 SGD 中,每一次迭代都需要遍历训练集中的所有样本以更新一次参数。

  3. 在 GD 中,每一次迭代需要使用整个训练集或子训练集的数据更新一个参数。

A. 只有 1

B. 只有 2

C. 只有 3

D.1 和 2

E.2 和 3

F. 都正确

答案为(A):在随机梯度下降中,每一次迭代选择的批量是由数据集中的随机样本所组成,但在梯度下降,每一次迭代需要使用整个训练数据集。

5. 下面哪个/些超参数的增加可能会造成随机森林数据过拟合?

  1. 树的数量

  2. 树的深度

  3. 学习速率

A. 只有 1

B. 只有 2

C. 只有 3

D.1 和 2

E.2 和 3

F. 都正确

答案为(B):通常情况下,我们增加树的深度有可能会造成模型过拟合。学习速率在随机森林中并不是超参数。增加树的数量可能会造成欠拟合。

6. 假如你在「Analytics Vidhya」工作,并且想开发一个能预测文章评论次数的机器学习算法。你的分析的特征是基于如作者姓名、作者在 Analytics Vidhya 写过的总文章数量等等。那么在这样一个算法中,你会选择哪一个评价度量标准?

  1. 均方误差

  2. 精确度

  3. F1 分数

A. 只有 1

B. 只有 2

C. 只有 3

D. 1 和 3

E. 2 和 3

F. 1 和 2

答案为(A):你可以把文章评论数看作连续型的目标变量,因此该问题可以划分到回归问题。因此均方误差就可以作为损失函数的度量标准。

7. 给定以下三个图表(从上往下依次为1,2,3). 哪一个选项对以这三个图表的描述是正确的?

A. 1 是 tanh,2 是 ReLU,3 是 SIGMOID 激活函数

B. 1 是 SIGMOID,2 是 ReLU,3 是 tanh 激活函数

C. 1 是 ReLU,2 是 tanh,3 是 SIGMOID 激活函数

D. 1 是 tanh,2 是 SIGMOID,3 是 ReLU 激活函数

答案为(D):因为 SIGMOID 函数的取值范围是 [0,1],tanh 函数的取值范围是 [-1,1],RELU 函数的取值范围是 [0,infinity]。

8. 以下是目标变量在训练集上的 8 个实际值 [0,0,0,1,1,1,1,1],目标变量的熵是所少?

A. -(5/8 log(5/8) + 3/8 log(3/8))

B. 5/8 log(5/8) + 3/8 log(3/8)

C. 3/8 log(5/8) + 5/8 log(3/8)

D. 5/8 log(3/8) – 3/8 log(5/8)

答案为(A):信息熵的公式为:

9. 假定你正在处理类属特征,并且没有查看分类变量在测试集中的分布。现在你想将 one hot encoding(OHE)应用到类属特征中。那么在训练集中将 OHE 应用到分类变量可能要面临的困难是什么?

A. 分类变量所有的类别没有全部出现在测试集中

B. 类别的频率分布在训练集和测试集是不同的

C. 训练集和测试集通常会有一样的分布

D. A 和 B 都正确

E. 以上都不正确

答案为(D):A、B 项都正确,如果类别在测试集中出现,但没有在训练集中出现,OHE 将会不能进行编码类别,这将是应用 OHE 的主要困难。选项 B 同样也是正确的,在应用 OHE 时,如果训练集和测试集的频率分布不相同,我们需要多加小心。

10.Skip gram 模型是在 Word2vec 算法中为词嵌入而设计的最优模型。以下哪一项描绘了 Skip gram 模型?

A. A

B. B

C. A 和 B

D. 以上都不是

答案为(B):这两个模型都是在 Word2vec 算法中所使用的。模型 A 代表着 CBOW,模型 B 代表着 Skip gram。

11. 假定你在神经网络中的隐藏层中使用激活函数 X。在特定神经元给定任意输入,你会得到输出「-0.0001」。X 可能是以下哪一个激活函数?

A. ReLU

B. tanh

C. SIGMOID

D. 以上都不是

答案为(B):该激活函数可能是 tanh,因为该函数的取值范围是 (-1,1)。

12. 对数损失度量函数可以取负值。

A. 对

B. 错

答案为(B):对数损失函数不可能取负值。

13. 下面哪个/些对「类型 1(Type-1)」和「类型 2(Type-2)」错误的描述是正确的?

  1. 类型 1 通常称之为假正类,类型 2 通常称之为假负类。

  2. 类型 2 通常称之为假正类,类型 1 通常称之为假负类。

  3. 类型 1 错误通常在其是正确的情况下拒绝假设而出现。

A. 只有 1

B. 只有 2

C. 只有 3

D. 1 和 2

E. 1 和 3

F. 3 和 2

答案为(E):在统计学假设测试中,I 类错误即错误地拒绝了正确的假设(即假正类错误),II 类错误通常指错误地接受了错误的假设(即假负类错误)。

14. 下面在 NLP 项目中哪些是文本预处理的重要步骤?

  1. 词干提取(Stemming)

  2. 移去停止词(Stop word removal)

  3. 目标标准化(Object Standardization)

A. 1 和 2

B. 1 和 3

C. 2 和 3

D. 1、2 和 3

答案为(D):词干提取是剥离后缀(「ing」,「ly」,「es」,「s」等)的基于规则的过程。停止词是与语境不相关的词(is/am/are)。目标标准化也是一种文本预处理的优良方法。

15. 假定你想将高维数据映射到低维数据中,那么最出名的降维算法是 PAC 和 t-SNE。现在你将这两个算法分别应用到数据「X」上,并得到数据集「X_projected_PCA」,「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的?

A. X_projected_PCA 在最近邻空间能得到解释

B. X_projected_tSNE 在最近邻空间能得到解释

C. 两个都在最近邻空间能得到解释

D. 两个都不能在最近邻空间得到解释

答案为(B):t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后,所降的维可以在最近邻空间得到解释。但 PCA 不能。

16-17 题的背景:给定下面两个特征的三个散点图(从左到右依次为图 1、2、3)。

16. 在上面的图像中,哪一个是多元共线(multi-collinear)特征?

A. 图 1 中的特征

B. 图 2 中的特征

C. 图 3 中的特征

D. 图 1、2 中的特征

E. 图 2、3 中的特征

F. 图 1、3 中的特征

答案为(D):在图 1 中,特征之间有高度正相关,图 2 中特征有高度负相关。所以这两个图的特征是多元共线特征。

17. 在先前问题中,假定你已经鉴别了多元共线特征。那么下一步你可能的操作是什么?

  1. 移除两个共线变量

  2. 不移除两个变量,而是移除一个

  3. 移除相关变量可能会导致信息损失。为了保留这些变量,我们可以使用带罚项的回归模型(如 ridge 或 lasso regression)。

A. 只有 1

B. 只有 2

C. 只有 3

D. 1 或 3

E. 1 或 2

答案为(E):因为移除两个变量会损失一切信息,所以我们只能移除一个特征,或者也可以使用正则化算法(如 L1 和 L2)。

18. 给线性回归模型添加一个不重要的特征可能会造成:

  1. 增加 R-square

  2. 减少 R-square

A. 只有 1 是对的

B. 只有 2 是对的

C. 1 或 2 是对的

D. 都不对

答案为(A):在给特征空间添加了一个特征后,不论特征是重要还是不重要,R-square 通常会增加。

19. 假设给定三个变量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2(即 X+2),Y 的全部值减 2(即 Y-2),Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么?

A. D1= C1, D2 < C2, D3 > C3

B. D1 = C1, D2 > C2, D3 > C3

C. D1 = C1, D2 > C2, D3 < C3

D. D1 = C1, D2 < C2, D3 < C3

E. D1 = C1, D2 = C2, D3 = C3

F. 无法确定

答案为(E):特征之间的相关性系数不会因为特征加或减去一个数而改变。

20. 假定你现在解决一个有着非常不平衡类别的分类问题,即主要类别占据了训练数据的 99%。现在你的模型在测试集上表现为 99% 的准确度。那么下面哪一项表述是正确的?

  1. 准确度并不适合于衡量不平衡类别问题

  2. 准确度适合于衡量不平衡类别问题

  3. 精确率和召回率适合于衡量不平衡类别问题

  4. 精确率和召回率不适合于衡量不平衡类别问题

A. 1 and 3

B. 1 and 4

C. 2 and 3

D. 2 and 4

答案为(A):参考问题 4 的解答。

21. 在集成学习中,模型集成了弱学习者的预测,所以这些模型的集成将比使用单个模型预测效果更好。下面哪个/些选项对集成学习模型中的弱学习者描述正确?

  1. 他们经常不会过拟合

  2. 他们通常带有高偏差,所以其并不能解决复杂学习问题

  3. 他们通常会过拟合

A. 1 和 2

B. 1 和 3

C. 2 和 3

D. 只有 1

E. 只有 2

F. 以上都不对

答案为(A):弱学习者是问题的特定部分。所以他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。

22. 下面哪个/些选项对 K 折交叉验证的描述是正确的

  1. 增大 K 将导致交叉验证结果时需要更多的时间

  2. 更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心

  3. 如果 K=N,那么其称为留一交叉验证,其中 N 为验证集中的样本数量

A. 1 和 2

B. 2 和 3

C. 1 和 3

D. 1、2 和 3

答案为(D):大 K 值意味着对过高估计真实预期误差(训练的折数将更接近于整个验证集样本数)拥有更小的偏差和更多的运行时间(并随着越来越接近极限情况:留一交叉验证)。我们同样在选择 K 值时需要考虑 K 折准确度和方差间的均衡。

23 题至 24 题的背景:交叉验证在机器学习超参数微调中是十分重要的步骤。假定你需要为 GBM 通过选择 10 个不同的深度值(该值大于 2)而调整超参数「max_depth」,该树型模型使用 5 折交叉验证。 4 折训练验证算法(模型 max_depth 为 2)的时间为 10 秒,在剩下的 1 折中预测为 2 秒。

23. 哪一项描述拥有 10 个「max_depth」不同值的 5 折交叉验证整体执行时间是正确的?

A. 少于 100 秒

B. 100-300 秒

C. 300-600 秒

D. 大于等于 600 秒

E. 无法估计

答案为(D):因为深度为 2 的 5 折交叉验证每一次迭代需要训练 10 秒和测试 2 秒。因此五折验证需要 12*5 = 60 秒,又因为我们需要搜索 10 个深度值,所以算法需要 60*10 = 600。

24. 在先前的答案中,如果你训练同样的算法调整 2 个超参数,假设是 max_depth 和 learning_rate。你想要选择正确的值对抗 max_depth(从给定的 10 个深度值中)和学习率(从 5 个不同的学习率做选择)。在此情况下,整体时间是下面的哪个?

A.1000-1500 秒

B.1500-3000 秒

C. 多于或等于 3000 Second

D. 都不是

答案为(D):和 23 题一样。

25. 下表是机器学习算法 M1 的训练错误率 TE 和验证错误率 VE,基于 TE 和 VE 你想要选择一个超参数(H)。

基于上表,你会选择哪个 H 值?

A.1

B.2

C.3

D.4

E.5

答案为(D):看这个表,D 选项看起来是最好的。

26. 为了得到和 SVD 一样的投射(projection),你需要在 PCA 中怎样做?

A. 将数据转换成零均值

B. 将数据转换成零中位数

C. 无法做到

D. 以上方法不行

答案为(A):当数据有一个 0 均值向量时,PCA 有与 SVD 一样的投射,否则在使用 SVD 之前,你必须将数据均值归 0。

问题 27-28 的背景:假设存在一个黑箱算法,其输入为有多个观察(t1, t2, t3,…….. tn)的训练数据和一个新的观察(q1)。该黑箱算法输出 q1 的最近邻 ti 及其对应的类别标签 ci。你可以将这个黑箱算法看作是一个 1-NN(1-最近邻)

27. 能够仅基于该黑箱算法而构建一个 k-NN 分类算法?注:相对于 k 而言,n(训练观察的数量)非常大。

A. 可以

B. 不行

答案为(A):在第一步,你在这个黑箱算法中传递一个观察样本 q1,使该算法返回一个最近邻的观察样本及其类别,在第二步,你在训练数据中找出最近观察样本,然后再一次输入这个观察样本(q1)。该黑箱算法将再一次返回一个最近邻的观察样本及其类别。你需要将这个流程重复 k 次。

28. 我们不使用 1-NN 黑箱,而是使用 j-NN(j>1) 算法作为黑箱。为了使用 j-NN 寻找 k-NN,下面哪个选项是正确的?

A. j 必须是 k 的一个合适的因子

B. j>k

C. 不能办到

答案为(C):原因和 27 题一样

29. 有以下 7 副散点图(从左到右分别编号为 1-7),你需要比较每个散点图的变量之间的皮尔逊相关系数。下面正确的比较顺序是?

  1. 1<2<3<4

  2. 1>2>3 > 4

  3. 7<6<5<4

  4. 7>6>5>4

A. 1 和 3

B. 2 和 3

C. 1 和 4

D. 2 和 4

30. 你可以使用不同的标准评估二元分类问题的表现,例如准确率、log-loss、F-Score。让我们假设你使用 log-loss 函数作为评估标准。下面这些选项,哪个/些是对作为评估标准的 log-loss 的正确解释。

  1. 如果一个分类器对不正确的分类很自信,log-loss 会严重的批评它。

  2. 对一个特别的观察而言,分类器为正确的类别分配非常小的概率,然后对 log-loss 的相应分布会非常大。

  3. 3.log-loss 越低,模型越好。

A.1 和 3

B.2 和 3

C.1 和 2

D.1、2、3

答案为(D):答案无需解释。

问题 31-32 背景:下面是数据集给出的 5 个样本。

注意:图像中点之间的视觉距离代表实际距离。

31. 下面哪个是 3-NN(3-最近邻)的留一法交叉验证准确率?

A.0

B.0.4

C.0.8

D.1

答案为(C):留一法交叉验证,我们将选择(n-1) 观察值作为训练,以及验证的 1 观察值。把每个点作为交叉验证点,然后找到 3 个最近邻点。所以,如果你在每个点上重复该步骤,你会为上图中给出的所有正类找到正确的分类,而错误分类负类。因此,得到 80% 的准确率。

32. 下面哪个 K 值将会有最低的差一法(leave-one-out)交叉验证精确度?

A. 1NN

B. 3NN

C. 4NN

D. 以上所有具有相同的差一法错误

答案(A):在 1-NN 中,被错误分类的每一个点都意味着你将得到 0% 的精确度。

33. 假设你被给到以下数据,你想要在给定的两个类别中使用 logistic 回归模型对它进行分类。你正在使用带有 L1 正则化的 logistic 回归,其中 C 是正则化参数,w1 和 w2 是 x1 和 x2 的系数。当你把 C 值从 0 增加至非常大的值时,下面哪个选项是正确的?

A. 第一个 w2 成了 0,接着 w1 也成了 0

B. 第一个 w1 成了 0,接着 w2 也成了 0

C. w1 和 w2 同时成了 0

D. 即使在 C 成为大值之后,w1 和 w2 都不能成 0

答案(B):通过观察图像我们发现,即使只使用 x2,我们也能高效执行分类。因此一开始 w1 将成 0;当正则化参数不断增加时,w2 也会越来越接近 0。

34. 假设我们有一个数据集,在一个深度为 6 的决策树的帮助下,它可以使用 100% 的精确度被训练。现在考虑一下两点,并基于这两点选择正确的选项。

注意:所有其他超参数是相同的,所有其他因子不受影响。

  1. 深度为 4 时将有高偏差和低方差

  2. 深度为 4 时将有低偏差和低方差

A. 只有 1

B. 只有 2

C. 1 和 2

D. 没有一个

答案(A):如果在这样的数据中你拟合深度为 4 的决策树,这意味着其更有可能与数据欠拟合。因此,在欠拟合的情况下,你将获得高偏差和低方差。

35. 在 k-均值算法中,以下哪个选项可用于获得全局最小?

  1. 尝试为不同的质心(centroid)初始化运行算法

  2. 调整迭代的次数

  3. 找到集群的最佳数量

A. 2 和 3

B. 1 和 3

C. 1 和 2

D. 以上所有

答案(D):所有都可以用来调试以找到全局最小。

36. 假设你正在做一个项目,它是一个二元分类问题。你在数据集上训练一个模型,并在验证数据集上得到混淆矩阵。基于上述混淆矩阵,下面哪个选项会给你正确的预测。

  1. 精确度是~0.91

  2. 错误分类率是~0.91

  3. 假正率(False correct classification)是~0.95

  4. 真正率(True positive rate)是~0.95

A. 1 和 3

B. 2 和 4

C. 1 和 4

D. 2 和 3

答案(C):精确度(正确分类)是 (50+100)/165,约等于 0.91。真正率是你正确预测正分类的次数,因此真正率将是 100/105 = 0.95,也被称作敏感度或召回。

37. 对于下面的超参数来说,更高的值对于决策树算法更好吗?

  1. 用于拆分的样本量

  2. 树深

  3. 树叶样本

A. 1 和 2

B. 2 和 3

C. 1 和 3

D. 1、2 和 3

E. 无法分辨

答案(E):对于选项 A、B、C 来说,如果你增加参数的值,性能并不一定会提升。例如,如果我们有一个非常高的树深值,结果树可能会过拟合数据,并且也不会泛化。另一方面,如果我们有一个非常低的值,结果树也许与数据欠拟合。因此我们不能确定更高的值对于决策树算法就更好。

38-39 题背景 :想象一下,你有一个 28x28 的图片,并使用输入深度为 3 和输出深度为 8 在上面运行一个 3x3 的卷积神经网络。注意,步幅是 1,你正在使用相同的填充(padding)。

38. 当使用给定的参数时,输出特征图的尺寸是多少?

A. 28 宽、28 高、8 深

B. 13 宽、13 高、8 深

C. 28 宽、13 高、8 深

D. 13 宽、28 高、8 深

答案(A):计算输出尺寸的公式是:输出尺寸=(N – F)/S + 1。其中,N 是输入尺寸,F 是过滤器尺寸,S 是步幅。阅读这篇文章(链接:https://www.analyticsvidhya.com/blog/2016/04/deep-learning-computer-vision-introduction-convolution-neural-networks/)获得更多了解。

39. 当使用以下参数时,输出特征图的尺寸是多少?

A. 28 宽、28 高、8 深

B. 13 宽、13 高、8 深

C. 28 宽、13 高、8 深

D. 13 宽、28 高、8 深

答案 (B):同上

40. 假设,我们正在 SVM 算法中为 C(惩罚参数)的不同值进行视觉化绘图。由于某些原因,我们忘记了使用视觉化标注 C 值。这个时候,下面的哪个选项在 rbf 内核的情况下最好地解释了下图(1、2、3 从左到右,图 1 的 C 值 是 C 1,图 2 的 C 值 是 C 2,图 3 的 C 值 是 C 3)中的 C 值。

A. C1 = C2 = C3

B. C1 > C2 > C3

C. C1 < C2 < C3

D. 没有一个

答案 (C):错误项的惩罚参数 C。它也控制平滑决策边界和训练点正确分类之间的权衡。对于 C 的大值,优化会选择一个较小边距的超平面。

展开全部

  • 要想成为一名数据科学家,先了解一下2017年数据领域的趋势,以及数据科学家在其中发挥的作用。

  • 本文来自头条号“造就”的文章《2017年的数据策略,会有哪些大趋势?》希望对您有帮助,更多关于数据科学的内容敬请关注头条号“造就”。

数据不只是企业的一项业务,而是关系到整个公司的命运——它是燃料,是饲料,是动力。在过去一年里,这一事实越来越得到众人的认可。因此,积极制定改善企业数据策略的必要性应该引起重视。关于数据策略在过去一年的情况和未来一年的趋势,我们请多位数据专家和思想领袖谈了他们的看法。

受访者包括:美国威斯康星大学麦迪逊分校首席数据官杰森·费希贝恩(Jason Fishbain);First San Francisco Partners公司总裁约翰·拉德利(John Ladley);被誉为“数据医生”的Data Quality Solutions公司总裁托马斯·雷德曼(Thomas C. Redman);Nationwide公司首席数据官吉姆·泰约(Jim Tyo)。

他们的看法应该有助于企业反思已经采取的措施,并思索在新的一年里应该采取哪些措施,让数据策略能够与数据价值相符。

回顾2016年

受访者指出,在过去的一年里,数据策略取得了巨大进步,但也存在美中不足之处。

越来越多的企业将设立首席数据官(CDO)岗位,这是大多数受访者都认同的一个趋势。拉德利说,CDO的涌现表明,企业已经开始认识到数据资产的重要性。

据预测,到2020年,近九成的财富500强企业将设立首席数据官或同等职位。泰约觉得这是件值得庆贺的好事,因为:

“这一职务不断涌现的好处在于,CDO越多,我们可以参考和仿效的商业模式就越多,数据界的成功机会就越多。”

泰约说,早期的CDO们“克服最初的艰难困苦,制定出正确的策略,如今将可在利用数据推动业务发展方面处于非常有利的地位”。在Nationwide公司,每一位业务主管都说数据很重要,这与几年前形成鲜明对比。他说:“现在,复杂棘手的下一个问题在于,我们如何利用数据来获得竞争优势?”

拉德利认为,这是很多企业将在2017年面对的一个数据策略问题,因为各行各业不同规模的公司都越来越重视数据的货币化。他说:“把数据视为具有可替代价值的资产,这种想法如今在影响着企业战略甚至愿景的设定。”

另一方面,并不是所有公司都充分意识到了数据资产的价值。例如,拉德利指出,某些公司的CDO流动率很高,说明这一岗位的职责还不够明确,企业还不习惯领导层中的这个新角色。这方面的“不安定”可能与某些企业文化问题有关。数据驱动企业必须靠有力的数据策略来推动,而这些问题的存在仍在拖慢它们进步的脚步。

泰约说,有些企业认为,建立数据驱动的文化就是“企图取代曾使企业功成名就的伟大传承和文化”。事实并非如此。他说,使命和价值驱动的文化会令企业变得很伟大,“而CDO只是试图引入基于事实、洞察驱动的方法,好让这种文化与客户更加契合。”

拉德利说,真正意义上的数据驱动将大幅改变企业的商业模式,影响到管理、架构和运营。按照雷德曼的说法,不能只从字面上去理解“数据驱动的文化”,可惜这种事情常常发生。

展望2017年(及以后)

受访者谈到了哪些将是企业数据策略的优先事项。

雷德曼的回答是继续朝向真正的数据驱动文化迈进。他说,成为数据驱动型企业意味着做出意义深远的改变,包括:制定积极的计划来照料数据(主要涉及质量和安全);落实这一计划,并及时制定和执行以获取市场竞争优势为目标的数据策略;推进管理体系建设,充分发挥数据的特殊属性。此外,还需要“一份积极主动的计划,获取更多的数据,并以越来越有效的方式将数据和直觉结合起来,使个人和团队作出更好的决策”。

他还说,看到他提出的“数据煽动者”概念引起了很多人的共鸣,这让他非常高兴。“数据煽动者”是指一个人意识到有更好的方法来处理部门的数据问题并肩负起这个挑战,从而成为公司其他部门的榜样。

他说:“我希望在2017年及以后,数据煽动者的概念会继续引起关注,有越来越多的人来扮演这个角色。”另外,他认为,最具前瞻性的企业已经开始意识到利用专有数据获取竞争优势的重要性。

拉德利把改进商业智能(BI)和数据报告作为优先事项,因为他说:“传统的报告和BI架构大多已经过时”。加强数据的报告分析基础也在泰约的清单上,原因是“和我交谈过的十位企业高管中,有九位都把简洁快速的报告和分析列为他们在数据方面的优先事项”。他认为,这在很大程度上源于数据办公室的“酷因素”正在拓展到大数据、物联网、机器学习、人工智能等方面,但中小型数据、运营报告和更传统的分析与建模需求同样重要。

“获取(恰当数据的)能力不足将催生出影子企业或以外包优先的数据策略。”泰约说。为了避免这种问题,数据策略应该包括建立“一个专门的办公室,为处于数据成熟度不同阶段的业务提供不同选择”。

泰约还认为,利用数据来实现客户体验差异化和规范性建模(就特定结果提供建议)将引起关注。而拉德利认为,所有企业都将热烈拥抱预测分析,不管他们需不需要。预测分析提供基于数据的可执行见解。“每位CEO都想获得新的见解,哪怕他们现在连准确的运营报告都还拿不到。”他说。

拉德利还说,数据治理(仍然是重要的企业活动,常常作为主数据管理或者大数据等工作的一部分)将从IT或IM转移到合规或风险管理领域。“IT内部的数据治理不管用。这种看法将继续蔓延。”他说。

从纵向角度来看(这里是指高等教育),费希贝恩认为,数据策略将围绕着收集和利用新的数据来源展开,以便改善教学。“降低学生入学费、提高毕业率的压力很大。”他说,“数据策略必须与这种压力相适应。”

提到数据策略,应该对哪些方面多加注意?

费希贝恩认为,应该更加注意理解数据背后的语境:数据是如何收集的?利用已有数据可以作出什么决定?还可利用哪些数据源切实看清局势发展,从而作出更明智的决定?“如果只看数据而忽略语境,还能算是数据驱动型文化吗?”他如此发问。

拉德利说,元数据必不可少,也是最基本的要素,他希望看到更多的企业“认真务实地部署一些出色的元数据设施”。他并不介意企业的数据策略将重心更多地放在数据使用方面的协作上。他说,大部分企业就连数据使用方面的配合都做不到:

“真正的协作需要企业抛弃过时的卓越中心概念,转而把数据视为跨越各座孤岛的大一统因素,就像财务和预算那样。”

说到孤岛,“我希望看到传统的孤岛型企业能以有实质意义的方式,更好地接纳数据可视化。”泰约说,“利用企业的工具与设施,更多地聚合数据源,将会加强整个计划的效果,加速实现CDO的很多战略目标。”

在雷德曼看来,他到目前为止看到的种种数据策略“亮点”尚未有效叠加成有实际意义的模式。他仍然担心,企业不会从以前犯下的数据质量和数据架构错误中吸取教训,比如寻求短期的缓解而放过更深层次的原因。此外,“我认为很多企业的行动不够快,整个行业的行动也不够快。”他说。

他认为,现在是进入数据领域的最好时机。但“如果行动不够快,那么发生另一场危机的可能性就会提高。”雷德曼说,“经济大萧条与坏数据有很深的渊源——而我们承受不起第二次。”

翻译:于波

来源:Dataversity

造就:剧院式的线下演讲平台,发现最有创造力的思想

2008~2017 家电新闻网 Inc. All rights reserved.