2017年十本必读的大数据&人工智能领域书籍,你都读过吗?

2018 年 1 月 24 日 数据猿 abby

【数据猿导读】年关将至,回顾2017,小编记得自己曾在年初的时候给自己定下一个小目标——就是读30本书。然而随着春节的临近,小目标却成了遥不可及的梦。不知道在过去的一年中,你是否也制定过相似的目标,又是否一一实现了呢?没做到没关系,但目标还是要有的,万一实现了呢。因此,贴心的小编就从2017年的【每周一本书】栏目里为大家挑选了十本“最受欢迎”的书籍,希望能给对大数据或是人工智能感兴趣的朋友带来一些帮助。


编辑 | abby

官网 | www.datayuan.cn

微信公众号ID | datayuancn


part 1:工具篇


一、《机器学习之路——Caffe、Keras、scikit-learn实战》


该书从内容方面共包含两部分内容:机器学习篇和深度学习篇


机器学习篇(1~3 章):主要从零开始,介绍什么是数据特征,什么是机器学习模型,如何训练模型、调试模型,以及如何评估模型的成绩。通过一些简单的任务例子,讲解在使用模型时如何分析并处理任务数据的特征,如何组合多个模型共同完成任务,并在第3章初步尝试将机器学习技术运用到股票交易中,重复熟悉这些技术的同时,感受机器学习技术在落地到专业领域时常犯的错误。


深度学习篇(4~9 章):则主要介绍了一些很基础的深度学习模型,如DNN、CNN等,简单涵盖了一些RNN 的概念描述。我们更关注模型的直观原理和背后的生物学设计理念,希望读者能够带着这些理解,直接上手应用深度学习框架。


作者介绍:


阿布,高四维,从2007年一直从事移动相关研发,曾就职奇虎360,百度等互联网公司,擅长安全领域,数据挖掘,机器学习,移动客户端等技术。个人开发软件“i美股”、“中国好声音”等在各个市场可下载。


胥嘉幸,从北京大学研究生阶段开始接触机器学习领域,有很深的理论及数学方面独特的见解与认知,后在百度从事数据发掘分析等工作。


二、《深度学习原理与TensorFlow实践》

本书主要介绍了深度学习的基础原理和TensorFlow系统基本使用方法。TensorFlow是目前机器学习、深度学习领域最优秀的计算系统之一,《深度学习原理与TensorFlow实践》结合实例介绍了使用TensorFlow开发机器学习应用的详细方法和步骤。同时,《深度学习原理与TensorFlow实践》着重讲解了用于图像识别的卷积神经网络和用于自然语言处理的循环神经网络的理论知识及其TensorFlow实现方法,并结合实际场景和例子描述了深度学习技术的应用范围与效果。


本书从内容上共分为7个章节:


第1章:介绍了深度学习的由来以及发展趋势,简要说明了人工智能、机器学习、深度学习等名词概念之间的联系。


第2章:主要介绍了TensorFlow系统的基础知识和一些重要概念。


第3章:通过对Kaggle竞赛平台上的Titanic问题的求解实例,介绍了TensorFlow系统的基本用法,并简要介绍了机器学习问题中的一些常用的处理技巧。


第4章:介绍了CNN的基本原理和多个经典网络结构,并通过图像风格化的实例展示了CNN在更多场景下应用的可能性。


第5章:介绍了RNN、LSTM以及它们的多种变种结构,并通过实例介绍了如何构建实用的语言模型和对话机器人。


第6章:介绍了卷积神经网络与循环神经网络的结合,通过图像检测和图像摘要两个问题介绍了CNN+LSTM相结合的威力。


第7章:介绍了机器学习中非常重要的损失函数与优化算法在TensorFlow中的实现,对实际使用深度学习解决问题都有极大帮助。


作者简介:


喻俨,百纳信息(海豚浏览器)研发副总裁。2007年加入微软亚洲工程院,2011年加入百纳信息负责海外业务线,从0到1做过多个项目,现致力于AI和大数据产品的研究与应用。


莫瑜,先后任职于微软和海豚浏览器,从事搜索引擎、音乐检索/哼唱搜索、内容分发推荐算法和对话机器人技术研发。长期以来持续关注和实践大规模数据算法性能优化、搜索引擎、推荐系统和人工智能技术。


王琛,英国爱丁堡大学人工智能专业硕士,现为百纳信息技术有限公司人工智能方向负责人。


胡振邦,拥有博士学位,百纳信息技术有限公司高级算法研究员,毕业于中国地质大学计算机学院地学信息工程专业。毕业以来,一直从事图像识别方面的算法研发工作,主要方向包括目标检测、图文检索、图像分类与验证等,在图像处理、计算机视觉等方面都有深厚的积累和经验。


高杰,毕业于扬州中学特招班,1998年入学华中科技大学机械系,兼修管理、会计,自学计算机,2003年考入南京大学软件学院,曾任德国西门子内部SAP咨询师,还在中银国际TMT投行、金山软件集团投资部任过职,2015年与合伙人联合创立了图灵科技集团。


三、《Keras快速上手:基于Python的深度学习实战》

《Keras快速上手:基于Python的深度学习实战》从如何准备深度学习的环境开始,手把手地教读者如何采集数据,如何运用一些最常用,也是目前被认为最有效的一些深度学习算法来解决实际问题。覆盖的领域包括推荐系统、图像识别、自然语言情感分析、文字生成、时间序列、智能物联网等。


本书以实际应用为导向,强调概念的认知和实用性,对理论的介绍深入浅出,对读者的数学水平要求较低,读者在学习完毕后能使用案例程序举一反三地应用到其具体场景中。


从内容方面本书共分为10个章节:


第1章:介绍搭建深度学习环境,是整本书的基础。


第2章:介绍如何用网络爬虫技术收集数据并使用ElasticSearch 存储数据。因为在很多应用中,数据需要读者自行从网上爬取和并加以处理和存储。


第3章:介绍深度学习模型的基本概念。


第4章:介绍深度学习框架 Keras 的用法。


第 5~9 章:是5个深度学习的经典应用。我们会依次介绍深度学习在推荐系统、图像识别、自然语言处理、文字生成和时间序列的具体应用。在介绍这些应用的过程中会穿插各种深度学习模型和代码,并和读者分享我们对于这些模型的原理和应用场景的体会。


第10章:抛砖引玉地提出物联网概念。


作者介绍:


谢梁,现任微软云计算核心存储部门首席数据科学家,主持运用机器学习和人工智能方法优化大规模高可用性并行存储系统的运行效率和改进其运维方式。具有十余年机器学习应用经验。


鲁颖,现任谷歌硅谷总部数据科学家,为谷歌应用商城提供核心数据决策分析,利用机器学习和深度学习技术建立用户行为预测模型,为产品优化提供核心数据支持。曾在亚马逊、微软和迪士尼美国总部担任机器学习研究科学家,有着多年使用机器学习和深度学习算法研发为业务提供解决方案的经验。


劳虹岚,现任微软研究院研究工程师,是早期智能硬件项目上视觉和语音研发的核心团队成员,对企业用户和消费者需求体验与AI技术的结合有深刻的理解和丰富的经验。曾在Azure和Office 365负责处理大流量高并发的后台云端研究和开发,精通一系列系统架构设计和性能优化方面的解决方案。


四、《全栈数据之门》

《全栈数据之门》以数据分析领域最热的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,使用了可视化环境Orange 3来理解算法的一些细节。对于机器学习,既有常用算法kNN与Kmeans的应用,决策树与随机森林的实战,还涉及常用特征工程与深度学习中的自动编程器。在大数据Hadoop与Hive环境的基础之上,使用Spark的ML/MLlib库集成了前面的各部分内容,让分布式机器学习更容易。大量的工具与技能实战的介绍将各部分融合成一个全栈的数据科学内容。


本书从内容上共分为8个章节:


第1、2、3 章:内容比较单一,涉及基础的Linux、Python 与Hadoop 知识。如果对这三章中的某些知识不熟悉,建议先阅读。


第4章:本章比较特殊,其内容也是数据科学中比较重要的,不仅需要前3章的知识,也需要部分Spark的知识,因为Spark的特殊性,单独放到机器学习之后了。


第5、6 章:涉及数据科学中最重要的主题:机器学习与算法,介绍了机器学习的常用环境、概念、方法以及几个典型的算法应用。这两章是本书的难点,如果不熟悉,必须单独攻克。


第7章:Spark 本身就是一个全栈框架,无论是在分布式计算还是在机器学习领域,都大有用处。因此最好有前面章节的基础知识,方能更好地理解本章的内容,尤其是MLlib/ML 库,必须有机器学习算法的知识。


最后一章:第8章反而是最简单的,因为基本不涉及技术细节,但对整个数据科学的理解,以及技术积累都是非常重要的。


作者介绍:


任柳江,一直工作在数据处理与数据挖掘的第一线,具有丰富的理论知识和实践经验,且精通多种数据挖掘与分析的工具的使用。


五、《Druid实时大数据分析原理与实践》

注:Druid是一个支持在大型数据集上进行实时查询而设计的开源数据分析和存储系统,提供了低成本、高性能、高可靠性的解决方案,整个系统支持水平扩展,管理方便。


《Druid实时大数据分析原理与实践》就是旨在帮助技术人员更好地深入理解Druid 技术、大数据分析技术选型、Druid 的安装和使用、高级特性的使用,也包括一些源代码的解析,以及一些常见问题的快速回答。


本书从内容上共分为11个章节:


第1章:介绍Druid的初级概念;


第2章:对行业中不同的数据分析软件进行介绍和对比,包括一些时序数据库;


第3章:Druid的设计理念和架构介绍;


第4章:Druid的安装和配置;


第5章:Druid的数据摄入;


第6章:查询详解;


第7章:介绍Druid的一些高级特性,包括正在积极完善的一些功能;


第8章;核心代码的导读和分析;


第9章:集群管理中的安全和监控;


第10章:介绍几个公司的Druid最佳实践;


第11章:Druid的生态介绍和展望;


附录A:简要回答了一些常见的问题;


附录B:列出了各个服务模块的参数含义和建议值,方便系统管理。


作者介绍:


欧阳辰,小米商业产品部研发总监,负责广告架构和数据分析平台,擅长数据挖掘,大数据分析和广告搜索架构。


刘麒赟,现任Testin云测公司技术总监,全面负责领导团队完成数据分析产品的研发。作为资深数据技术专家,曾为多个著名开源项目(Hadoop/Sqoop/Oozie/Druid)贡献源代码,在互联网大数据分析、机器学习和统计学应用等方面拥有丰富的实战经验和相关专利。


张海雷,资深工程师。目前在优酷土豆广告技术团队负责Druid集群的维护。活跃在Druid中国用户组,Druid、Redis和Storm的开源项目代码贡献者。


高振源,热爱技术,爱智求真的后台开发和数据工程师。先后负责过广告DSP产品、QQ公众号精准投放平台、数据分析产品等研发工作。目前在腾讯SNG企业产品部,负责企点产品的数据平台工作。


许哲,腾讯后台开发高级工程师,先后参与了公司企业产品消息服务后台、QQ公众号后台、QQ公众号精准投放平台等研发,目前在腾讯SNG企业产品部,负责腾讯企点的后台和数据平台开发工作。


六、《大数据时代小数据分析》

《大数据时代小数据分析》不仅介绍Excel而且介绍使用其他工具软件进行数据分析,可用来拓展互联网公司、传统企业、电商企业、管理咨询公司等各行各业从事数据分析工作的分析师和管理者对数据分析的认知,也适合初中级数据分析师或者想进入数据分析行业的有志之士参考阅读。


本书从内容上共分为5个章节:


第1章:知己知彼,百战不殆——风险与预测分析


第2章:运筹帷幄,决胜千里——效益最大化


第3章:图个明白,精彩展现——JMP精彩图表


第4章:抽丝剥茧,明察秋毫——相关分析


第5章:要里子,也要面子——数据展现的艺术


作者简介:


屈泽中,化工专业,数据分析爱好者,爱好使用工具探索数据背后的秘密,略懂Excel、LINGO、Crystal Ball、JMP、Minitab、Xcelsius,工作十余年,一直从事将数据分析与各类业务相结合的研究和学习。


七、《深度学习入门与实践》

深度学习就是人工智能的一个重要实现方法,在语音识别、图像识别、自然语言处理和搜索广告预估等领域都取得了惊人的成果,连声名显赫的AlphaGo都是以他为基础的。


《深度学习入门与实践》的作者以通俗易懂的语言和生动的比喻介绍了回归、人工神经网络等人工智能基本概念。并将TensorFlow比喻成神雕大侠杨过手中的玄铁重剑,将Caffe的基础CNN比喻成令狐少侠的独孤九剑,读来毫无违和感。


从内容方面该书共分为六个章节:


第一章:通俗的讲解深度学习的常用概念及概念之间的关系,如回归、分类、聚类;监督学习、非监督学习、强化学习;感知机、神经网络等。随后介绍了深度学习的发展历程及前辈学者们对深度学习领域所做出的贡献。最后列出了深度学习及相关领域的著名国际会议、期刊、赛事和学术团队,以方便读者获取学习资料和进行学术研究。


第二章:介绍了深度学习的原理、线性回归、逻辑回归的概念。以生物学家Galton所研究的父子身高问题为例介绍了线性回归的基本原理,讲述了线性回归的两种求解方法:梯度下降法和正规方程法,并用R、MATLAB和Python三种工具求解了父子身高问题。随后以学生考试问题为例介绍了逻辑回归的基本原理,给出了逻辑回归问题求解的过程,并用R、MATLAB和Python三种工具解决了学生考试问题,并赋源码及解释。


第三章:介绍了感知机和人工神经网络的工作流程。阐述了神经网络的基本单元Rosenblatt感知机的工作原理和训练方法,并以一个二维空间中线性可分的点集为例验证了感知机的训练方法。随后简要介绍了人工神经网络的由来、网络架构和训练方法。最后用Pybrain实现了一个三层神经网络,借助实例初步展现了人工神经网络的神奇功能。


第四章:详细介绍了Caffe的基本架构和使用方法。阐述了Caffe架构中Blob、Layer、Net和Solver等几个基本类的作用,并以一个车型识别为例使用Caffe完成项目开发。最后介绍了目标检测的基本原理和几个当前最流行的算法:Faster R-CNN、YOLO和SSD等,并用开源的Caffe实例验证了Faster R-CNN和SSD算法的性能。


第五章:介绍了TensorFlow的工作原理和使用方法。阐述了TensorFlow架构中图、张量、运算和会话等概念和用法,使用TensorFlow实现父子身高问题的线性回归实例。


第六章:阐述了AlphaGo、强化学习、策略网络、强化学习策略网络和估值网络工作原理。以一个九宫棋为例讲述了强化学习的基本算法:Q学习算法。随后介绍了AlphaGo的架构,其赖以常胜不败的监督学习策略网络、强化学习策略网络和估值网络等组件的工作原理。最后介绍了深度学习的一个有趣应用:画风迁移,以飨读者。


作者介绍:


龙飞,高级工程师,本科毕业于南京大学,博士毕业于清华大学,香港科技大学博士后。曾供职于中国电子科技集团公司第五十四研究所。现任中国搜索创新研发部总监。负责公司互联网创新产品和人工智能、大数据相关项目的研发。主持并参与了国搜识图、国搜学术、国搜图书等平台和频道的研发与上线。主要研究方向为网络路由、无线网状网络,近年涉足深度学习、数据挖掘领域。


part 2 :行业篇


一、《人之彼岸》


郝景芳继《北京折叠》后全新科幻作品——《人之彼岸》。该书首度从文学跨度到科普。书里不仅包括最新创作的六篇中短篇小说,还包括两篇解读人工智能的文章。故事围绕人与人工智能的纠葛展开,其设定的场景既包括离我们很近的人工智能产品,也包括预设的地球被万神殿操控的宏大场面。


郝景芳构思的六个科幻故事,它们的主角无疑都是人与AI。人与AI隔岸而望,作为理性的AI,是否一定能把人类非理性的一套心理表征学个差不多?在物理环境变成了智能产品的天下之后,人又该如何自处?六篇科幻故事之后,郝景芳用两篇非科幻思考回答了我们关于AI的所有困惑。


人工智能会不会毁灭人类,以及人工智能会取代多少人的就业,实际上是有关人工智能讨论的最热话题。郝景芳认为,人工智能会变得非常强大,但并不意味着它们会毁灭人类。它们的威胁性其实和原子弹一样:能毁灭所有人,但按钮掌握在人类手里。


作者介绍:


郝景芳,1984年生,小说作家,经济研究员。2002年进入清华大学物理系学习,2013年获得清华经济学博士学位。2016年8月,在第74届世界科幻大会上,凭借短篇小说《北京折叠》斩获雨果奖最佳中短篇小说奖。曾出版长篇小说《流浪苍穹》《生于一九八四》,短篇小说集《去远方》《孤独深处》,文化散文集《时光里的欧洲》。创立儿童通识教育项目“童行计划”。


二、《黑箱社会:控制金钱和信息的数据法则》

隐秘的算法可以塑造(或破坏)信誉,也可以决定企业家的命运,甚至是摧毁整个经济体。这本书深入探讨了Google、亚马逊、Facebook、苹果等硅谷和华尔街的公司是如何运用这些运算法则的,以及作为我们个人应该如何在这个信息经济社会保护我们的隐私,以及确保我们的个人信息安全。


这本书最可取之处,是脱离了以往那些空谈隐私保护的话题,而是时不时给出了问题的症结和可能的解决方案。早期的隐私专家只是强调信息威力的力量失衡对社会造成的后果,那些所谓的经典补救措施也就是要求个人知情同意。问题是,只要告诉如何使用这些数据,只要他们同意,隐私就得到了维护吗?作者认为这远远不够。


对待信息的角力,作者在书中强调了三个关键词:信誉、搜索和金融。信誉是被他人认识的结果,搜索为了认识他人,金融则是帮助人们做出经济决策。


作者介绍:


弗兰克•帕斯奎尔,马里兰大学教授,耶鲁大学法学院信息社会项目成员以及大数据、道德和社会理事会的成员。他是普林斯顿大学信息技术中心的访问研究员,并在耶鲁大学法学院和卡多佐法学院担任客座教授。他还曾在牛津大学获得马歇尔学者的称号。帕斯夸莱曾在众议院的司法委员会上作证,并与Google、微软和雅虎的法律总顾问对峙。


三、《赤裸裸的未来》

《赤裸裸的未来》主题聚焦于未知与未来,但论述绝非建立在想象之上的空中楼阁,其间穿插着大量事例,或基于客观现实,或依据科学推测,生动有趣。塔克尔通过大量的访谈和调查,约见各领域的权威人士,积累了极为丰富的素材,提取了他们有关现实的观点和对未来的预期,为我们展开了有关未来社会各领域的翔实可信的图景,讲述的虽是前沿科技主题,内容却平实亲和。


就个人而言,我们生活在一个“超级透明”的世界,我们泄露出去的海量信息无处不在。若将这些信息收集起来,加以分析,就能勾勒出每一个人的真实性格、内心偏好,乃至可以预测每个人的命运。


就时代而言,作者大胆预言:“大数据时代”只不过是一朵小浪花,终将会被更新、更前沿的“物联网时代”取代,并以灾难预测、流行病预防、犯罪防治、潜能开发、情绪管理、恋爱情感、个性化学习、娱乐私人定制等领域为例,描绘了一个富有激情的美好未来。


作者介绍:


帕特里克·塔克尔(Patrick Tucker),美国《未来主义者》(The Futurist)杂志副主编,世界未来主义大会(World Future Society)负责人,世界著名未来学学者、小说家,曾获“巴里·汉纳短篇小说奖”和“尤金·沃尔特小说奖”。



更多“大数据24小时”,可加作者Abby微信:wmh4178(请注明姓名、公司)交流


金猿榜往期的获奖名单,将会在峰会现场隆重发布,期待我们的见面👇



登录查看更多
4

相关内容

专知会员服务
123+阅读 · 2020年3月26日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
338+阅读 · 2020年3月17日
台湾大学林轩田机器学习书籍《从数据中学习》,216页pdf
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
198+阅读 · 2020年2月11日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
163+阅读 · 2019年10月28日
神经网络与深度学习,复旦大学邱锡鹏老师
专知会员服务
118+阅读 · 2019年9月24日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
从入门到头秃,2018年机器学习图书TOP10
新智元
15+阅读 · 2018年12月8日
荐书丨深度学习框架PyTorch:入门与实践
程序人生
11+阅读 · 2018年1月19日
【每周一本书】之《深度学习入门与实践》
数据猿
5+阅读 · 2018年1月9日
荐书丨机器学习——Python实践(留言送书)
程序人生
7+阅读 · 2018年1月5日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
专知会员服务
123+阅读 · 2020年3月26日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
338+阅读 · 2020年3月17日
台湾大学林轩田机器学习书籍《从数据中学习》,216页pdf
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
198+阅读 · 2020年2月11日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
163+阅读 · 2019年10月28日
神经网络与深度学习,复旦大学邱锡鹏老师
专知会员服务
118+阅读 · 2019年9月24日
Top
微信扫码咨询专知VIP会员