http://dblab.xmu.edu.cn/post/bigdatapractice2/#xiazaizhuanqu

本教程是林子雨编著《大数据技术原理与应用(第3版)》教材的配套实验指导书。《大数据技术原理与应用》侧重于大数据知识框架和理论介绍,而本教程侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了大量实验和案例。由于大数据软件都是开源软件,安装过程一般比较复杂,也很耗费时间。为了尽量减少读者搭建大数据实验环境时的障碍,笔者在本教程中详细写出了各种大数据软件的详细安装过程,可以确保读者顺利完成大数据实验环境搭建。

本书以大数据分析全流程为主线,介绍了数据采集、数据存储与管理、数据处理与分析、数据可视化等环节典型软件的安装、使用和基础编程方法,内容涵盖了操作系统(Linux和Windows)、开发工具(Eclipse)以及大数据相关技术、软件(Kafaka、Hadoop、HDFS、MapReduce、HBase、Hive、Spark、MySQL、MongoDB、Redis、R、D3、ECharts)等。同时,提供了丰富的课程实验和综合案例以及大量免费的在线教学资源,可以较好地满足高等院校大数据教学实际需求。

《大数据基础编程、实验和案例教程(第2版)》前言

《大数据基础编程、实验和案例教程》第1版于2017年7月出版,在过去的两年多时间里,大数据技术又获得了新的发展,开源流计算框架Flink迅速崛起,在市场上和Spark展开了激烈的角逐。与此同时,Hadoop和Spark的版本也在不断更新升级,一些编程接口发生了变化。因此,为了适应大数据技术的新发展,继续保持本书的先进性和实用性,我们及时对第1版内容进行了补充和修订。

这里对第1版教材的修改做一些简要说明。在“第2章 Linux系统的安装和使用”部分,对VirtualBox软件进行了版本升级,并修改了在Linux系统中安装Eclipse的方法。在“第3章 Hadoop的安装和使用”部分,修改了Hadoop版本的介绍,修改了Java环境的安装方法,把Hadoop版本升级到了3.1.3,同时,删除了“使用Docker搭建Hadoop分布式集群”这部分内容,因为该内容在教学中很少被使用。在“第4章 HDFS操作方法和基础编程”部分,把Hadoop版本升级到了3.1.3,并根据最新版本的特点对HDFS相关内容作了修改,同时对HDFS编程实践的内容进行重新撰写。在“第5章 HBase的安装和基础编程”部分,把HBase版本升级到了2.2.2,版本升级以后,HBase的安装配置方法和相关的编程接口也发生了变化,因此,对编程接口和实例代码进行了大量修改。在“第6章 典型NoSQL数据库的安装和使用”部分,把Redis升级到了较新的5.0.5版本,并对由于版本升级而发生变化的内容做了修改。在“第7章 MapReduce基础编程”部分,把Hadoop版本升级到了3.1.3,并对由于版本升级而发生变化的相关内容做了修改。在“第8章 数据仓库Hive的安装和使用”,把Hive版本升级到了3.1.2,并对由于版本升级而发生变化的相关内容做了修改。在“第9章 Spark的安装和基础编程”部分,把Spark版本升级到了2.4.0,并对由于版本升级而发生变化的相关内容做了修改。新增“第10章 Flink的安装和基础编程”,以反映当前新兴的大数据处理技术,并介绍了Flink的安装和基础编程方法。在“第11章 典型可视化工具的使用方法”部分,删除了一些教学环节不太方便开展实践的内容,包括Easel.ly、Tableau和魔镜等,因为这些技术产品存在官网无法访问、需要用户注册才能使用等问题。在“第12章 数据采集工具的安装和使用”,删除了Flume的内容,因为,Flume的内容比较孤立,学习以后没有和其他章节的内容进行有效结合,同时删除了Sqoop的内容,因为Sqoop没有提供对最新版Hadoop和Hive等软件的支持。在“第13章 大数据课程综合实验案例”部分,把各个大数据软件的版本都进行了升级,并删除了和Sqoop相关的操作实践,因为Sqoop不支持新版的Hadoop和Hive,同时,增加了使用Java程序把Hive中的数据导入MySQL。在“第14章 实验”部分,把实验中相关软件升级到了较新的版本,并新增了3个实验,从而帮助读者更好实践Hive、Spark和Flink等大数据技术。

本书第1版是《大数据技术原理与应用(第2版)》的“姊妹书”,前者可以作为后者的课程配套实验手册。由于《大数据技术原理与应用(第2版)》已经在全国高校得到了广泛的使用,大量高校采用该教材开设了大数据课程,因此,这也带动了本书第1版在高校的大量使用。在使用过程中,一些高校老师积极反馈了很多宝贵的意见和建议,为我们团队进行本书第2版的创作提供了很好的方向指引。同时,笔者也在厦门大学开设了大数据课程,并把本书第1版积极应用在实践教学中,让教材在教学实践中经受检验。现在,《大数据技术原理与应用(第2版)》已经改版到了第3版,作为配套“姊妹书”,本书也及时从第1版升级到了第2版,也就是说,在今后的教学过程中,本书第2版是和《大数据技术原理与应用(第3版)》配套使用的。当然,通过过去全国高校老师的反馈信息,我们也了解到,不少高校会直接把本书作为单独的课程教材(而不是配套的实验手册)来使用,因此,本书第2版也是可以作为独立教材来使用的。

本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生程璐、林哲、郑宛玉、陈杰祥、陈绍纬、周伟敬等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。

本书官方网站是http://dblab.xmu.edu.cn/post/bigdatapractice2/,免费提供了全部配套资源的在线浏览和下载,并接受错误反馈和发布勘误信息。时,在学习大数据课程的过程中,欢迎读者访问厦门大学数据库实验室建设的国内高校首个大数据课程公共服务平台(http://dblab.xmu.edu.cn/post/bigdata-teaching-platform/),该平台为教师教学和学生学习大数据课程提供讲义PPT、学习指南、备课指南、上机习题、技术资料、授课视频等全方位、一站式免费服务。

大数据技术处于快速发展变革之中,我们厦门大学数据库实验室团队会持续跟踪大数据技术发展趋势,努力保持本书内容的新颖性,并把一些较新的教学内容及时发布到本书官网。由于笔者能力有限,书中难免存在不足之处,望广大读者不吝赐教。

林子雨 厦门大学计算机科学系数据库实验室

2020年3月

第1章-大数据技术概述 第2章-Linux系统的安装和使用 第3章-Hadoop的安装和使用 第4章-HDFS操作方法和基础编程 第5章-HBase的安装和基础编程 第6章-典型NoSQL数据库的安装和使用 第7章-MapReduce基础编程 第8章-数据仓库Hive的安装和使用 第9章-Spark的安装和基础编程 第10章-Flink的安装和基础编程 第11章-典型的可视化工具的使用方法 第12章-数据采集工具的安装和使用 第13章-大数据课程综合实验案例

成为VIP会员查看完整内容
0
33

相关内容

自然语言处理中的预训练模型

论文:【复旦大学】最新《预训练语言模型》2020综述论文大全,50+PTMs分类体系,25页pdf205篇参考文献

目前预训练模型在自然语言处理领域取得了广泛的成功。本报告的内容主要涵盖以下4部分内容:1)预训练模型的原理介绍,包括模型结构、学习准则、发展历程等;2)预训练模型的迁移方法:包括如何通过任务转换、多步迁移、改进精调等方法来进一步提高预训练模型在下游任务上的性能;3)预训练模型的改进模型:包括知识嵌入模型、多模态模型、多语言模型、语言特定模型、领域特定模型和模型压缩等;4)对预训练模型及其未来发展趋势进行展望。

视频: https://hub.baai.ac.cn/view/3868

成为VIP会员查看完整内容
0
66

作者:王东,利节,许莎 出版社:清华大学 出版时间:2019-10 ISBN: 978-7-302-53187-6 最新消息:本书配套课件免费公开,详见链接。 地址:

http://cslt.riit.tsinghua.edu.cn/news.php?title=News-2020-02-09

作者序 2016年以来,几乎所有人都在谈论人工智能,上至专家巨富,下至平民百姓。然而, 究竟什么是人工智能?人工智能与传统科学有何区别和联系?人工智能的历史沿革和 未来方向?这些问题在很多人脑海里还是模糊的。唯一可以确定的是,人工智能 技术必然会对我们的生活产生深远的影响,这种影响会象蒸汽机、电、计算机的出现对我们的影 响一样,成为我们未来生活的一部分。

我是学计算机出身,自1998年以来主要从事语音和语言信号处理工作。这个领域 当然是人工智能的一部分,但绝大多数时候研究者们很少提到AI。原因有很多, 对我而言也许是对归类法的执着,AI的范围太广了,当面带微笑和别人说` 我是做 AI的'总会有一种心虚的感觉。这种感觉应该是很多一线研究者的潜意识。

仅管对AI这个头衔有天然排斥,我们和这个古老而年轻的领域依然脱不了干系, 因此当然希望更多年轻人加入到AI研究队伍中来,特别是从方法论的角度去理解AI, 避免概念上的炒作和空洞化。

基于这一思路,我用了将近两年时间完成了一本题为《现代机器学习技术导论》的学习笔记[link], 恰好被利节老师看到。她提出建议:这本书应该让更多年轻人看到,但当前这个版本是不行的, 需要更通俗和直观的表达。这个建议得到重庆巴蜀中学许莎老师的赞同,她觉得 应该有一本通俗的读物,让高中生甚至初中生理解人工智能,在不增加日常学习 压力的前提下,满足他们对新知识的渴求,从一开始就树立一个正确的概念体系 和科学根基,为以后从事这方面的工作打下基础。

于是有了这本书。我们的目的只有一个:用浅显的的语言向年轻人 介绍什么是人工智能,包括:人工智能有哪些主流技术,这些技术从何处来,到哪里去。特别重要的是, 我们希望提供一系列小实验,让学生可以自己动手实现一些有趣的人工智能系统, 培养出这一方面的兴趣,那就很好了。

在本书的成书过程中,众多老师和学生提供了热心帮助。清华大学的朱小燕老师对全书进行了审读, 周强老师、刘华平老师分别对第四章和第五章进行了审读。清华大学语音语言实验室 的蔡云麒博士参与了校订工作,实习生杜文强、张阳、吴嘉瑶、齐诏娣、于嘉威、 姜修齐、刘逸博、汪洋等参与了实验样例设计。最后,清华出版社的刘翰鹏老师在本 书出版过程中付出了大量心血,在此一并致谢!

成为VIP会员查看完整内容
0
76

本白皮书分为四大部分:

  • 第一部分介绍了数据资产管理的概述及变革中的数据资产管理呈现出来的特征趋势;
  • 第二部分从实践角度出发阐述了数据资产管理的主要内容;
  • 第三部分重点介绍了数据资产管理的实施步骤、实践模式、技术工具和成功要素;
  • 最后结合实践经验,介绍了电信、金融、政务、医疗和工业等相关领域的数据资产管理案例。

本白皮书在《数据资产管理实践白皮书3.0》的基础上,以全面盘点数据资产、不断提升数据质量、实现数据互联互通、提高数据获取效率、保障数据安全合规、数据价值持续释放等角度,通过权威数据和典型事件,生动剖析了数据资产管理的重点内容和目标。在原有管理职能的介绍下,尝试说明数据资产化管理的关键活动步骤,并在实施步骤方面,增加了各实施阶段的具体输出物,并增加了“数据价值管理工具”和“数据服务管理工具”,更好的指导企业搭建数据资产管理平台,开展数据资产管理相关工作。

成为VIP会员查看完整内容
0
9
小贴士
相关资讯
【CPS】CPS应用案例集
产业智能官
30+阅读 · 2019年8月9日
【资源】这本开放书籍帮你扫清通往ML的数学绊脚石
机器学习算法与Python学习
44+阅读 · 2018年10月28日
【免费下载】迁移学习简明手册
新智元
18+阅读 · 2018年4月13日
荐书丨Python数据分析从入门到精通
程序人生
7+阅读 · 2018年3月31日
送你一份深度学习资源&教程!
THU数据派
11+阅读 · 2017年11月30日
相关论文
EvoSpex: An Evolutionary Algorithm for Learning Postconditions
Facundo Molina,Pablo Ponzio,Nazareno Aguirre,Marcelo Frias
0+阅读 · 3月1日
Justin K. Terry,Benjamin Black,Mario Jayakumar,Ananth Hari,Ryan Sullivan,Luis Santos,Clemens Dieffendahl,Niall L. Williams,Yashas Lokesh,Caroline Horsch,Praveen Ravi
0+阅读 · 2月25日
Justin K Terry,Nathaniel Grammel
0+阅读 · 2月25日
Akshat Gupta,Sai Krishna Rallabandi,Alan Black
0+阅读 · 2月24日
Mouna Labiadh,Christian Obrecht,Catarina Ferreira da Silva,Parisa Ghodous
0+阅读 · 2月23日
Torsten Hoefler,Dan Alistarh,Tal Ben-Nun,Nikoli Dryden,Alexandra Peste
11+阅读 · 1月31日
Yukuo Cen,Jianwei Zhang,Xu Zou,Chang Zhou,Hongxia Yang,Jie Tang
17+阅读 · 2020年8月3日
Seeing What a GAN Cannot Generate
David Bau,Jun-Yan Zhu,Jonas Wulff,William Peebles,Hendrik Strobelt,Bolei Zhou,Antonio Torralba
6+阅读 · 2019年10月24日
Pan Li,Alexander Tuzhilin
5+阅读 · 2019年10月11日
Peng Tang,Chunyu Wang,Xinggang Wang,Wenyu Liu,Wenjun Zeng,Jingdong Wang
3+阅读 · 2019年4月8日
Top