作者:Joseph Rickert
翻译:黄小伟,先后从事游戏、社交及金融数据研究及应用,目前就职网易杭州
2018年2月份,共有171个R新包收录于CRAN,本篇选摘了其中40个新包加以功能简述,主要包括以下几个类别:计算方法、数据、金融、科学、统计、时间序列和工具。
一. 计算方法
1. adnuts : 针对ADMB和TMB模型,提供了Hoffman和Gelman(2014)NUTS算法的实现.
2. CholWishart : 提供了针对几种分布的抽样函数,如威沙特分布(Wishart)随机变量的斯基(Cholesky)因式分解、反威沙特分布(Wishart)和反威沙特分布随机变量的斯基(Cholesky)分解.
3. particles : 基于particles库的实现方法,提供模拟2D空间中粒子运动的功能.
4. rosqp : 支持与OSQP求解程序绑定,来解决稀疏凸二次规划问题.
5. SolveLS : 实现包括Jacobi、Gauss-Seidel、连续过度松弛、SSOR和非平稳Krylov子空间在内的一些方法.
二. 数据
1. Cluster.OBeu : 对于OpenBudgets数据可视化问题,提供部分函数用于估计和返回其所需的相关参数.
2. photobiologySun : 提供外星太阳光谱辐照度、地平面太阳光谱辐照度的数据.
3. SympluR : 通过访问Symplur接口,提供了对医疗社会图(Healthcare Social Graph)进行数据分析的功能.
4. totalcensus : 允许用户从美国人口普查局( Census Bureau)下载摘要文件,并支持从人口普查和美国社区调查数据库(1年和5年)中获取数据.
三. 金融
1. estudy2 : 实现了事件研究模型,包括收益率估计和其他经典模型.
四. 机器学习
1. DALEX : 提供各种解释器,帮助理解机器学习模型中输入变量与模型输出之间的关联关系.
2. forestControl : 借助Konukoglu和Ganz(2015)所提供的方法,在随机森林的频率选择中控制假阳性率.
3. kmed : 基于Park和Jun(2009)的方法,实现了基于距离的k-medoids聚类算法,并通过重新排序矩阵算法生成热图来验证聚类簇.
4. lolR : 在进行监督学习技术时,对于维度超过样本大小的情况,实现了最佳低秩投影算法,从而获得数据的较低维表示.
5. projpred : 提供了为广义线性模型进行投影预测特征选择的方法(Piironen and Vehtari (2017)),该包与rstanarm兼容.
6.RGF : 提供了Python包-Regularized Greedy Forest的封装,并提供了该方法的一个多核实现算法FastRGF.
五. 科学
1. cRegulome : 提供方法来构建预计算的转录因子或microRNA(基因相关)的SQLite数据库文件,数据源于Cistrome和miRCancerdb数据库.
2. CENFA : 提供针对空间数据气候和生态因素分析的工具,包括对气候变化引起的物种敏感性、暴露、脆弱性等变化的空间数据可视化.
3. detectRUNS : 提供滑动窗口(Purcell等(2007))和连续运行(Marras等(2015))等方法,检测二倍体基因组中纯合性和杂合性的运行.
六. 统计
1. cosa : 提供广义约束最优样本分配框架,实现了两组多水平回归间断研究和连续结果的多层随机试验.
2. DirectEffects : 在将潜在介体固定到特定值时,提供函数来估计受控治疗的直接效应,从而实现连续的g-estimation估计器(Vansteelandt (2009) 和 Acharya et al (2016).
3. dnr : 针对建立在指数随机图模型(ERGM)框架上的动态网络,提供了适合时滞模型的函数.
4. geozoning : 提供用于评估分区质量的分区方法和数字标准.
5. GpGp : 提供对高斯过程进行预测和条件模拟的功能,并提供对于欧几里德域和球体空间的空间数据、时空数据的协方差函数.
6. idealstan : 提供项目响应理论(IRT)的概念点扩展及维度缩减方法.
7. kdensity : 提供使用参数初值和不对称内核进行单变量非参数密度估计的方法.
8. NetLogoR : 在NetLogo框架下,提供基于agent-based模型的函数.
9. riskyr : 提供以概率或频率来表达风险相关信息的功能,使风险读写的教学和培训更加透明.
10. rsimsum : 提供汇总模拟结果的功能,并用于计算蒙特卡罗标准误差.
11. SimCorrMix : 提供生成具有特定相关矩阵的连续(正态、非正态或混合分布)、二元、有序变量的方法,或具有混合分布的连续变量的方法.
12. tree.bins : 允许用户通过从函数:rpart()(rpart包)派生的决策树方法,对因子变量进行重新分类( Hastie et al (2009)).
七. 时间序列
1. segclust2d : 为二元时间序列的分割、联合分割/聚类提供了两种方法,分割方法是Lavielle’s方法的二元扩展(Lavielle (1999) 和Lavielle (2005)).
2. tstools : 支持绘制官方统计时间序列,可以便捷的增加图例、高亮窗口、带有正负贡献的堆积条形图及其他选项.
八. 工具
1. codemetar : 支持自动生成、解析和修改codemeta.json文件.
2. knitrProgressBar : 提供一个类似于dplyr的进度条,支持将进程写出到各种位置,包括stdout()、stderr()等.
3. msgpack : 对messagepack数据格式提供了基于C的编码器和流式解码器.
4. pmatch : 实现类型构造和模式匹配.
5. shinyalert : 提供了在Shiny中创建漂亮的弹出消息(模态)的功能,这些消息可能包含文本、图像、确定/取消按钮,用于获取用户响应的输入,同时还可支持更多自定义选项.
6. trackr : 提供部分函数,以支持自动注释带有相关性描述和出处相关的R对象,并提供用于组织、检索和询问这些对象的系统.
课程推荐
《kaggle十大案例精讲课程》提供R代码+数据集+详细代码注释+老师讲解PPT!综合性的提高你的数据能力,数据处理+数据可视化+建模一气呵成!
公众号后台回复关键字即可学习
回复 R R语言快速入门及数据挖掘
回复 Kaggle案例 Kaggle十大案例精讲(连载中)
回复 文本挖掘 手把手教你做文本挖掘
回复 可视化 R语言可视化在商务场景中的应用
回复 大数据 大数据系列免费视频教程
回复 量化投资 张丹教你如何用R语言量化投资
回复 用户画像 京东大数据,揭秘用户画像
回复 数据挖掘 常用数据挖掘算法原理解释与应用
回复 机器学习 人工智能系列之机器学习与实践
回复 爬虫 R语言爬虫实战案例分享