2018 伊始,以题目形式总结了 2017 年的知识点,供大家复习回顾,答案就附在文末:
1、TF-IDF 常被用来抽取文本中的关键词,它综合考虑了词的“存在感”和“代表性”,其中被用来衡量词的“存在感”的值是:
(A) TF值 (B) IDF值 (C) UDF值 (D) IF值
2、由谷歌研发、专门用于机器学习,并且用于 AlphaGo 的处理器为:
(A) GPU (B) CPU (C) SPU (D) TPU
3、下列哪一个是我国的经济领土
(A) 驻上海的波兰使领馆 (B) 设在北京的亚投行
(C) 中国驻美国大使馆 (D) 设立在美国的国际货币基金组织
4、Python 函数式编程中,被称为匿名函数的是:
(A) map函数 (B) lambda表达式 (C) Reduce函数 (D) 没有这个函数
5、朴素贝叶斯中,“朴素”是指:
(A) 贝叶斯本人作风简朴,冠以“朴素”以纪念学习
(B) 属性之间不存在依赖关系,属性值互相条件独立
(C) 贝叶斯定理的一个简化版本 (D) 形容贝叶斯定理很简单直白
6、下列哪一个不是哈希函数的特征:
(A) 单向性 (B) 唯一性 (C) 碰撞 (D) 高灵敏度
7、Twitter 开发的d第二代流处理系统是:
(A) storm (B) Spark streaming (C) Flink (D) Heron
8、核算一个国家经济指标,世界上曾有过两大方法体系,分别是: 和
9、有 list = [2, 4, 6, 7, 8],用一行代码生成一个new_list,每个元素是原来的平方:
10、谷歌最新研发出来一种训练 AI 的新模式,可以直接在用户的手机上训练并改进 AI 算法,多台手机之间还能进行协作训练,共享预测模型,这种模式叫做:
11、请写出曼哈顿距离的表达式。有x=[1,1,0,1] 和 y=[1,0,1,0] 两个向量,请用 Python 计算他们的曼哈顿距离(用现成的库)
12、请用 Python 写一个类human,有属性 name,并实例化这个类,生成一个具体的 Jim,其属性name为Jim。
13、简述流式计算的特点
14、有如下表格中,想计算 engine size >=3 的数据数,请问用什么 SQL 语句?
15、想对table1表做如下自关联,相同对只出现一次,如有a-b,就不需要b-a了,请问 SQL 语句应该怎么写?
16、写出一句你最想对数说君说的话:
解析:
1、A
TF-IDF(Term Frequency–Inverse Document Frequency),综合考虑了词的存在感和代表性,由两个部分相乘得到:TF × IDF,其中
用来量化词的存在感,TF值越大,词的存在感越强。
知识链接:治啰嗦利器~TF-IDF!| 文本分析
2、D
TPU 全称 Tensor Processing Unit 张量处理器,是谷歌自己研发、专门用于提高机器学习的运算效率的处理器,其处理速度比当前GPU和CPU快15~30倍(对比的分别是英伟达的Tesla K80和英特尔的至强E5-2699 v3)。
CPU、GPU 以及 TPU 的具体介绍、以及区别,可以见知识点链接:
懂点硬件 | AlphaGo、图像搜索、街景......背后都有它的影子:TPU
3、C
是指一国政府 控制 或 拥有 的地理领土。请注意(敲黑板!),一国的经济领土,除了本国的地理范围,还应包括该国驻外使领馆、新闻机构、科研站和援助机构等,并相应地扣除外国驻本国的上述机构。
知识链接:达康书记的GDP,是怎么算出来的?
4、C
lambda表达式,又叫匿名函数,它用来创建一个函数,取代def这个功能。
知识链接:循环、分支...都可以在Python中用函数实现! | 函数式编程,打开另一个世界的大门
5、B
如果用三个属性值X1、X2、X3,来推测类别C=?,那么假定:
P(X1,X2,X3|C=i)= P(X1|C=i)*P(X2|C=i)*P(X3|C=i)
即属性间相互独立,不存在依赖关系。这一假定是为了简化所需计算,也因此该算法被冠以“朴素的”定语。
6、B
哈希函数是一种单项密码体制,具有单向性;哈希之后的取值,其范围是有限的,因此不是唯一的,存在冲突或碰撞的可能。且哈希之后的取值,是固定长度,当一个输入发生变化时,输出会有很大变化,具有高灵敏度。
知识链接:哈希函数的套路 | 文本分析:大规模文本处理(1)
7、D
知识链接:什么是流式计算 | 另一个世界系列
8、MPS和SNA
物质产品平衡表体系,简称MPS(System of Material Product Balances),发源于前苏联和东欧社会主义国家,是计划经济国家的核算体系。
国民经济账户体系,简称SNA(System of National Accounts),是根据欧美发达国家的核算理论和实践制定出来的方法体系。它的核算内容全面、核算方法系统,是目前世界上主流的经济核算体系。
知识链接:达康书记的GDP,是怎么算出来的?
9、new_list=map(lambda a: a*a, [2, 4, 6, 7, 8])
Map函数,是用函数的方式来实现一个循环运算,类似for的功能:
new_list = Map(func, list),将list中每个元素都进行一个func函数的计算,生成一个新的list。
知识链接:循环、分支...都可以在Python中用函数实现! | 函数式编程,打开另一个世界的大门
10、Federated Learning,联盟学习
知识链接:手机里跑个 AI 模型 | 谷歌 Federated Learning 联盟学习
11、曼哈顿距离:
有x=[1,1,0,1] 和 y=[1,0,1,0] 两个向量,对应的 Python距离距离计算方式为:
a=[x,y]
pairwise_distances(a,metric='manhattan')
知识链接:文本分析 | 常用距离/相似度 一览
文中列举了主流的几种距离计算公式,以及 Python 用 pairwise_distances 的实现。
12、Python代码如下:
class human():
def __init__(self, name):
self.name=name
Jim = human('Jim')
使用 __init__初始化参数,知识链接:class 类—老司机的必修课 | 统计师的Python日记 第11课
13、流式计算是对数据流进行实时计算,其三个特点是:
① 实时、低延迟
② 无界,数据是不断无终止的
③ 连续,计算持续进行,计算完之后数据即丢弃
知识链接:什么是流式计算 | 另一个世界系列
14、sum(case when Engine>=3 then 1 else 0 end)
15、只需要在关联的时候加上条件 where a.id<b.id 即可相同重复对只出现一次。
知识链接:小明的 SQL 问题解决日志(1)
16、请大家畅所欲言。新的一年,数说君会努力写更多的实用好文章给大家,也请大家多提意见,祝大家新年快乐,2018事业蒸蒸日上!
更多 SQL 连载、Python 连载、SAS 教程 请关注 数说工作室
【统计师的 Python 系列】连载
第1天:谁来给我讲讲Python?
第2天:再接着介绍一下Python呗
第3天:Numpy你好
第4天:欢迎光临Pandas
第5天:Pandas,露两手
第6天:数据合并
第7天:数据清洗(1)
第8天:数据清洗(2)文本处理
第9天:正则表达式
第10天:数据聚合
第11天:class-类
【文本挖掘系列】连载
1、文本相似度思想
2、词频与余弦相似度算法
3、TF-IDF 治啰嗦利器
4、常用相似度一览
5、哈希函数的套路
【分类战车SVM】系列
开题话
线性分类
最大间隔分类器
拉格朗日对偶问题
核函数
SMO算法
用Python做SVM模型
SAS系列,包括 【SAS IML系列】、【SAS 正则表达式系列】、【SAS 基础系列】
金融数据挖掘系列、量化投资系列、生物大数据系列 等等更多干货......