复习 | 2017 知识点总结测验

2018 年 2 月 21 日 数说工作室 数说工作室


2018 伊始,以题目形式总结了 2017 年的知识点,供大家复习回顾,答案就附在文末:


1、TF-IDF 常被用来抽取文本中的关键词,它综合考虑了词的“存在感”和“代表性”,其中被用来衡量词的“存在感”的值是:

(A) TF值   (B) IDF值   (C) UDF值   (D) IF值 


2、由谷歌研发、专门用于机器学习,并且用于 AlphaGo 的处理器为:

(A) GPU   (B) CPU   (C) SPU   (D) TPU


3、下列哪一个是我国的经济领土

(A) 驻上海的波兰使领馆   (B) 设在北京的亚投行   

(C) 中国驻美国大使馆   (D) 设立在美国的国际货币基金组织


4、Python 函数式编程中,被称为匿名函数的是:

(A) map函数   (B) lambda表达式   (C) Reduce函数   (D) 没有这个函数


5、朴素贝叶斯中,“朴素”是指:

(A) 贝叶斯本人作风简朴,冠以“朴素”以纪念学习 

(B) 属性之间不存在依赖关系,属性值互相条件独立   

(C) 贝叶斯定理的一个简化版本  (D) 形容贝叶斯定理很简单直白


6、下列哪一个不是哈希函数的特征:

(A) 单向性   (B) 唯一性   (C) 碰撞   (D) 高灵敏度


7、Twitter 开发的d第二代流处理系统是:

(A) storm   (B) Spark streaming   (C) Flink   (D) Heron


8、核算一个国家经济指标,世界上曾有过两大方法体系,分别是:                 


9、有 list = [2, 4, 6, 7, 8],用一行代码生成一个new_list,每个元素是原来的平方:

                    


10、谷歌最新研发出来一种训练 AI 的新模式,可以直接在用户的手机上训练并改进 AI 算法,多台手机之间还能进行协作训练,共享预测模型,这种模式叫做:          


11、请写出曼哈顿距离的表达式。有x=[1,1,0,1] 和 y=[1,0,1,0] 两个向量,请用 Python 计算他们的曼哈顿距离(用现成的库)


12、请用 Python 写一个类human,有属性 name,并实例化这个类,生成一个具体的 Jim,其属性name为Jim。


13、简述流式计算的特点


14、有如下表格中,想计算 engine size >=3 的数据数,请问用什么 SQL 语句?



15、想对table1表做如下自关联,相同对只出现一次,如有a-b,就不需要b-a了,请问 SQL 语句应该怎么写?


16、写出一句你最想对数说君说的话:              




解析:

1、A

TF-IDF(Term Frequency–Inverse Document Frequency),综合考虑了词的存在感和代表性,由两个部分相乘得到:TF × IDF,其中

用来量化词的存在感,TF值越大,词的存在感越强。

知识链接:治啰嗦利器~TF-IDF!| 文本分析


2、D

TPU 全称 Tensor Processing Unit 张量处理器,是谷歌自己研发、专门用于提高机器学习的运算效率的处理器,其处理速度比当前GPU和CPU快15~30倍(对比的分别是英伟达的Tesla K80和英特尔的至强E5-2699 v3)。


CPU、GPU 以及 TPU 的具体介绍、以及区别,可以见知识点链接:

懂点硬件 | AlphaGo、图像搜索、街景......背后都有它的影子:TPU


3、C

是指一国政府 控制 或 拥有 的地理领土。请注意(敲黑板!),一国的经济领土,除了本国的地理范围,还应包括该国驻外使领馆、新闻机构、科研站和援助机构等,并相应地扣除外国驻本国的上述机构。

知识链接:达康书记的GDP,是怎么算出来的?


4、C

lambda表达式,又叫匿名函数,它用来创建一个函数,取代def这个功能。

知识链接:循环、分支...都可以在Python中用函数实现! | 函数式编程,打开另一个世界的大门


5、B

如果用三个属性值X1、X2、X3,来推测类别C=?,那么假定:

P(X1,X2,X3|C=i)= P(X1|C=i)*P(X2|C=i)*P(X3|C=i)

即属性间相互独立,不存在依赖关系。这一假定是为了简化所需计算,也因此该算法被冠“朴素的”定语。


6、B

哈希函数是一种单项密码体制,具有单向性;哈希之后的取值,其范围是有限的,因此不是唯一的,存在冲突或碰撞的可能。且哈希之后的取值,是固定长度,当一个输入发生变化时,输出会有很大变化,具有高灵敏度。

知识链接:哈希函数的套路 | 文本分析:大规模文本处理(1)


7、D

知识链接:什么是流式计算 | 另一个世界系列


8、MPSSNA

  • 物质产品平衡表体系,简称MPS(System of Material Product Balances),发源于前苏联和东欧社会主义国家,是计划经济国家的核算体系。

  • 国民经济账户体系,简称SNA(System of National Accounts),是根据欧美发达国家的核算理论和实践制定出来的方法体系。它的核算内容全面、核算方法系统,是目前世界上主流的经济核算体系。

知识链接:达康书记的GDP,是怎么算出来的?


9、new_list=map(lambda a: a*a, [2, 4, 6, 7, 8])

Map函数,是用函数的方式来实现一个循环运算,类似for的功能:

new_list = Map(func, list),将list中每个元素都进行一个func函数的计算,生成一个新的list。

知识链接:循环、分支...都可以在Python中用函数实现! | 函数式编程,打开另一个世界的大门


10、Federated Learning,联盟学习

知识链接:手机里跑个 AI 模型 | 谷歌 Federated Learning 联盟学习


11、曼哈顿距离:

有x=[1,1,0,1] 和 y=[1,0,1,0] 两个向量,对应的 Python距离距离计算方式为:


a=[x,y]

pairwise_distances(a,metric='manhattan')


知识链接:文本分析 | 常用距离/相似度 一览

文中列举了主流的几种距离计算公式,以及 Python 用 pairwise_distances 的实现。


12、Python代码如下:

class human():

    def __init__(self, name):

          self.name=name


Jim = human('Jim')


使用 __init__初始化参数,知识链接:class 类—老司机的必修课 | 统计师的Python日记 第11课


13、流式计算是对数据流进行实时计算,其三个特点是:

① 实时、低延迟

② 无界,数据是不断无终止的

③ 连续,计算持续进行,计算完之后数据即丢弃

知识链接:什么是流式计算 | 另一个世界系列


14、sum(case when Engine>=3 then 1 else 0 end)

15、只需要在关联的时候加上条件 where a.id<b.id 即可相同重复对只出现一次。

知识链接:小明的 SQL 问题解决日志(1)


16、请大家畅所欲言。新的一年,数说君会努力写更多的实用好文章给大家,也请大家多提意见,祝大家新年快乐,2018事业蒸蒸日上!




更多 SQL 连载、Python 连载、SAS 教程 请关注 数说工作室


【统计师的 Python 系列】连载

  • 第1天:谁来给我讲讲Python?

  • 第2天:再接着介绍一下Python呗

  • 第3天:Numpy你好

  • 第4天:欢迎光临Pandas

  • 第5天:Pandas,露两手

  • 第6天:数据合并

  • 第7天:数据清洗(1)

  • 第8天:数据清洗(2)文本处理

  • 第9天:正则表达式

  • 第10天:数据聚合

  • 第11天:class-类


【文本挖掘系列】连载

  • 1、文本相似度思想

  • 2、词频与余弦相似度算法

  • 3、TF-IDF 治啰嗦利器

  • 4、常用相似度一览

  • 5、哈希函数的套路


【分类战车SVM】系列

  • 开题话

  • 线性分类

  • 最大间隔分类器

  • 拉格朗日对偶问题

  • 核函数

  • SMO算法

  • 用Python做SVM模型


SAS系列,包括 【SAS IML系列】、【SAS 正则表达式系列】、【SAS 基础系列】

金融数据挖掘系列、量化投资系列、生物大数据系列 等等更多干货......

登录查看更多
0

相关内容

最新《自动微分手册》77页pdf
专知会员服务
102+阅读 · 2020年6月6日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
194+阅读 · 2020年3月12日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
358+阅读 · 2020年2月15日
谷歌机器学习速成课程中文版pdf
专知会员服务
146+阅读 · 2019年12月4日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
96+阅读 · 2019年12月4日
资源 | 李航老师《统计学习方法》(第2版)课件下载
专知会员服务
253+阅读 · 2019年11月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
《AI 算法手册》目录 | 机器学习知识点系统性梳理!
数说工作室
22+阅读 · 2019年5月28日
干货 | 一文总结机器学习类面试问题与思路
THU数据派
3+阅读 · 2018年7月15日
基础|Word2vec的原理介绍
全球人工智能
10+阅读 · 2018年1月4日
机器学习、深度学习 知识点总结及面试题
全球人工智能
17+阅读 · 2018年1月4日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
深度学习知识总结(一)
深度学习探索
8+阅读 · 2017年7月18日
Arxiv
102+阅读 · 2020年3月4日
Embedding Logical Queries on Knowledge Graphs
Arxiv
3+阅读 · 2019年2月19日
Arxiv
3+阅读 · 2018年3月28日
VIP会员
相关VIP内容
最新《自动微分手册》77页pdf
专知会员服务
102+阅读 · 2020年6月6日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
194+阅读 · 2020年3月12日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
358+阅读 · 2020年2月15日
谷歌机器学习速成课程中文版pdf
专知会员服务
146+阅读 · 2019年12月4日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
96+阅读 · 2019年12月4日
资源 | 李航老师《统计学习方法》(第2版)课件下载
专知会员服务
253+阅读 · 2019年11月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
相关资讯
《AI 算法手册》目录 | 机器学习知识点系统性梳理!
数说工作室
22+阅读 · 2019年5月28日
干货 | 一文总结机器学习类面试问题与思路
THU数据派
3+阅读 · 2018年7月15日
基础|Word2vec的原理介绍
全球人工智能
10+阅读 · 2018年1月4日
机器学习、深度学习 知识点总结及面试题
全球人工智能
17+阅读 · 2018年1月4日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
深度学习知识总结(一)
深度学习探索
8+阅读 · 2017年7月18日
Top
微信扫码咨询专知VIP会员