R语言和表数据分析 - 专知

会员服务 ·

0

R语言和表数据分析

2017 年 7 月 23 日 数萃大数据 史春奇

【数萃大数据】公众号又开办了一个新栏目，之后我们每周末会为大家分享各种趣闻趣事名人好书。

我们将连续转载史春奇老师高品质的推文。感谢史春奇老师的授权以及对数萃大数据学院的大力支持！

R语言发展之快，已经连续几年夺取数据分析第一把交椅！

最近几年，对于表数据分析有一些常见的问题，譬如：缺失值（Missing），奇异值（Outlier）（参考 “一个奇异值的江湖 -- 经典统计观” 和 “一个奇异值的江湖 -- 机器学习观”），非平衡数据（Imbalanced）（参考 “非均衡数据处理--如何学习？” 和 “非均衡数据处理--如何评价？”），数据转换(Transformation) （参考 “数据变换”），特征选择（Feature Selection）（参考 “特征选择，经典三刀”）等等。

如何利用R语言，把这些数据处理，分析，可视化的流程结合起来，建立一个交互式数据分析平台？为什么要一个交互式数据分析平台呢? 具体可以参考前面的讲述 “Shiny： R语言来建立开源交互式数据分析微服务的神器” ！

那么在整个过程中的每个步骤，有哪些R语言包可以应用呢？

R语言包

缺失值（Missing）

主要强调了常见方法的同时，要注重缺失值的可视化！这在对哪些缺失值，和说服采集更多数据的时候特别有用。

奇异值（Outlier）

特别强调统计的ESD方法，或者说Grubbs' test的尝试。当然分组数据的异常要利用Dixon‘ Q Test。

数据转换(Transformation)

强调一个经验公式，根据数据频率分布和转换函数的对称性（y=x对称）选择处理函数。

非平衡数据（Imbalanced）

强调样本方法和Cost-Sensitive算法同时尝试！

特征选择（Feature Selection）

强调三刀都要砍一砍！

训练和评价（Training & Evaluation）

强调大数据之大，不光光是数据量大，也可能是计算量大，如何利用好平行来提速， CPU并行和GPU并行，解决计算量大的问题！

可视化和解释（Visualization & Interpretation）

强调利用一些基于javascript的交互式可视化，可以做到重点突出和层次感！

交互服务（Interactive Service）

基于Shiny可以创建一个交互式服务！从前台到后台，一应俱全~

快的交互！

最后强调，基于Shingy 交互的目的之一就是快（容易理解），天下武功，无坚不摧，唯快不破！

更为详细的解释（50页PPT）请点击下方 “阅读原文”

小结，给出了一个表数据分析的流程中可以选择的R语言包，让你快速的构建一个数据分析微服务。让老板觉得你的快，就是他的钱！

欢迎参加【杭州站】Python大数据分析培训

8月18日-22日

扫描下方二维码了解更多

登录查看更多

0

相关内容

R语言

【2020新书】实战R语言4，323页pdf

【2020新书】实战R语言4，323页pdf

专知会员服务

102+阅读 · 2020年7月1日

【2020新书】从Excel中学习数据挖掘，223页pdf

【2020新书】从Excel中学习数据挖掘，223页pdf

专知会员服务

93+阅读 · 2020年6月28日

【干货书】Python机器学习导论，340页pdf数据科学家指南

专知会员服务

175+阅读 · 2020年6月4日

商业数据分析，39页ppt

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

【干货书】R语言书: 编程和统计的第一课程，

【干货书】R语言书: 编程和统计的第一课程，

专知会员服务

118+阅读 · 2020年5月9日

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

专知会员服务

60+阅读 · 2020年4月15日

【经典书】Python数据数据分析第二版，541页pdf

【经典书】Python数据数据分析第二版，541页pdf

专知会员服务

197+阅读 · 2020年3月12日

【经典书】精通机器学习特征工程，中文版，178页pdf

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

【干货】面向机器学习和数据分析的特征工程，附新书419页pdf

【干货】面向机器学习和数据分析的特征工程，附新书419页pdf

专知会员服务

157+阅读 · 2019年11月26日

新书《面向机器学习和数据分析的特征工程》，419页pdf

新书《面向机器学习和数据分析的特征工程》，419页pdf

专知会员服务

144+阅读 · 2019年10月10日

一文看懂怎么用 Python 做数据分析

一文看懂怎么用 Python 做数据分析

大数据技术

24+阅读 · 2019年5月5日

R语言自然语言处理：情感分析

R语言自然语言处理：情感分析

R语言中文社区

16+阅读 · 2019年4月16日

R语言数据挖掘利器：Rattle包

R语言数据挖掘利器：Rattle包

R语言中文社区

21+阅读 · 2018年11月17日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

文本数据分析（二）：文本数据预处理的方法

文本数据分析（二）：文本数据预处理的方法

论智

16+阅读 · 2018年4月10日

Xgboost算法——Kaggle案例

Xgboost算法——Kaggle案例

R语言中文社区

13+阅读 · 2018年3月13日

【入门】数据分析六部曲

【入门】数据分析六部曲

36大数据

18+阅读 · 2017年12月6日

【数据分析】数据分析就不用掌握Python了？看看这位数据分析师给的最全资料！

【数据分析】数据分析就不用掌握Python了？看看这位数据分析师给的最全资料！

产业智能官

9+阅读 · 2017年10月16日

用 Scikit-Learn 和 Pandas 学习线性回归

用 Scikit-Learn 和 Pandas 学习线性回归

Python开发者

9+阅读 · 2017年9月26日

如何七周成为数据分析师

如何七周成为数据分析师

R语言中文社区

4+阅读 · 2017年7月19日

ASLFeat: Learning Local Features of Accurate Shape and Localization

Arxiv

6+阅读 · 2020年3月23日

A XGBoost risk model via feature selection and Bayesian hyper-parameter optimization

Arxiv

5+阅读 · 2019年1月24日

Adaptive Neural Trees

Adaptive Neural Trees

Arxiv

4+阅读 · 2018年12月10日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

Accelerated Randomized Coordinate Descent Algorithms for Stochastic Optimization and Online Learning

Arxiv

9+阅读 · 2018年7月16日

A Tour of Reinforcement Learning: The View from Continuous Control

Arxiv

6+阅读 · 2018年6月25日

Object Tracking in Satellite Videos Based on a Multi-Frame Optical Flow Tracker

Arxiv

5+阅读 · 2018年4月25日

Simplicial Closure and Higher-order Link Prediction

Arxiv

3+阅读 · 2018年2月20日

HONE: Higher-Order Network Embeddings

Arxiv

12+阅读 · 2018年1月28日

Experience-driven Networking: A Deep Reinforcement Learning based Approach

Arxiv

9+阅读 · 2018年1月17日

VIP会员

相关主题

相关VIP内容

【2020新书】实战R语言4，323页pdf

【2020新书】实战R语言4，323页pdf

专知会员服务

102+阅读 · 2020年7月1日

【2020新书】从Excel中学习数据挖掘，223页pdf

【2020新书】从Excel中学习数据挖掘，223页pdf

专知会员服务

93+阅读 · 2020年6月28日

【干货书】Python机器学习导论，340页pdf数据科学家指南

专知会员服务

175+阅读 · 2020年6月4日

商业数据分析，39页ppt

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

【干货书】R语言书: 编程和统计的第一课程，

【干货书】R语言书: 编程和统计的第一课程，

专知会员服务

118+阅读 · 2020年5月9日

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

专知会员服务

60+阅读 · 2020年4月15日

【经典书】Python数据数据分析第二版，541页pdf

【经典书】Python数据数据分析第二版，541页pdf

专知会员服务

197+阅读 · 2020年3月12日

【经典书】精通机器学习特征工程，中文版，178页pdf

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

【干货】面向机器学习和数据分析的特征工程，附新书419页pdf

【干货】面向机器学习和数据分析的特征工程，附新书419页pdf

专知会员服务

157+阅读 · 2019年11月26日

新书《面向机器学习和数据分析的特征工程》，419页pdf

新书《面向机器学习和数据分析的特征工程》，419页pdf

专知会员服务

144+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

美军“泰坦（TITAN）地面站目标系统”：是颠覆还是一场可预见的军事进步？

美空军指挥参谋学院 · 联合空中作战规划课程介绍（2025年） | 22页

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

北约第十七届（2025年）网络冲突国际会议论文集 | 272页

相关资讯

一文看懂怎么用 Python 做数据分析

一文看懂怎么用 Python 做数据分析

大数据技术

24+阅读 · 2019年5月5日

R语言自然语言处理：情感分析

R语言自然语言处理：情感分析

R语言中文社区

16+阅读 · 2019年4月16日

R语言数据挖掘利器：Rattle包

R语言数据挖掘利器：Rattle包

R语言中文社区

21+阅读 · 2018年11月17日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

文本数据分析（二）：文本数据预处理的方法

文本数据分析（二）：文本数据预处理的方法

论智

16+阅读 · 2018年4月10日

Xgboost算法——Kaggle案例

Xgboost算法——Kaggle案例

R语言中文社区

13+阅读 · 2018年3月13日

【入门】数据分析六部曲

【入门】数据分析六部曲

36大数据

18+阅读 · 2017年12月6日

【数据分析】数据分析就不用掌握Python了？看看这位数据分析师给的最全资料！

【数据分析】数据分析就不用掌握Python了？看看这位数据分析师给的最全资料！

产业智能官

9+阅读 · 2017年10月16日

用 Scikit-Learn 和 Pandas 学习线性回归

用 Scikit-Learn 和 Pandas 学习线性回归

Python开发者

9+阅读 · 2017年9月26日

如何七周成为数据分析师

如何七周成为数据分析师

R语言中文社区

4+阅读 · 2017年7月19日

相关论文

ASLFeat: Learning Local Features of Accurate Shape and Localization

Arxiv

6+阅读 · 2020年3月23日

A XGBoost risk model via feature selection and Bayesian hyper-parameter optimization

Arxiv

5+阅读 · 2019年1月24日

Adaptive Neural Trees

Adaptive Neural Trees

Arxiv

4+阅读 · 2018年12月10日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

Accelerated Randomized Coordinate Descent Algorithms for Stochastic Optimization and Online Learning

Arxiv

9+阅读 · 2018年7月16日

A Tour of Reinforcement Learning: The View from Continuous Control

Arxiv

6+阅读 · 2018年6月25日

Object Tracking in Satellite Videos Based on a Multi-Frame Optical Flow Tracker

Arxiv

5+阅读 · 2018年4月25日

Simplicial Closure and Higher-order Link Prediction

Arxiv

3+阅读 · 2018年2月20日

HONE: Higher-Order Network Embeddings

Arxiv

12+阅读 · 2018年1月28日

Experience-driven Networking: A Deep Reinforcement Learning based Approach

Arxiv

9+阅读 · 2018年1月17日

大家都在搜

国防科技创新

2025最新文献

NTU博士论文

朱克爱德华兹家族

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员