作者:Joseph Rickert
翻译:黄小伟,先后从事游戏、社交及金融数据研究及应用,目前就职杭州有赞,欢迎有兴趣的同学加入有赞分析团队
2018年10月份,共有185个R新包收录于CRAN(环比增长46.8%)。本期选摘了其中40个R新包,针对其主要功能做简单介绍,便于大家学习。主要包含八个类别:计算方法、数据、机器学习、医药、科学、统计学、工具和可视化.
1. compboost : 提供组件式增强的C++实现,用于获得高运行时的性能与内存控制.
2. RcppEnsmallen: 提供基于C++的EnMalLeN数学优化库的接口,支持进行目标函数编写与优化.
3. SAMpack: 实现随机逼近蒙特卡罗(SAMC)采样器,能够从多模态或Doubly-intractable分布进行数据采样.
1. crimedata: 针对犯罪开放数据库(Crime Open Database),支持对美国大城市警方公开记录的犯罪数据的访问.
2. nasapower: 提供POWER(全球能源预测)、NASA全球气象、地面太阳能和气候数据的API接口.
3. wikisourcer: 提供对Wikisource公共领域作品的访问,Wikisource是维基媒体基金会项目的免费图书馆.
三. 机器学习
1. gcForest: 针对Deep Forest的Python实现,提供了API接口,这是Deep Learning的替代方法. 详情参见Zhou and Feng (2017).
2. galgo: 允许用户从大数据集构建多变量预测模型,该数据集相较样本集而言具有更多特征,例如基因组数据集.
3. MachineShop: 对机器学习模型拟合、预测、性能评估和结果表示提供通用接口.
4.mlflow: 为MLflow提供接口,它是一个开源平台,用于完整的机器学习生命周期,支持安装、跟踪实验、运行项目和保存模型.
5. sboost: 提供基于C ++快速实现的Adaptive Boosting(AdaBoost)算法(Freund和Schapire),并包括分类器评估、预测和交叉验证.
1. CoRpower: 在临床疗效试验中,提供活性治疗组中评估中间生物标志物反应功率的计算功能,参见Gilbert et al. (2016).
2. radtools: 提供一组用于以DICOM和NIfTI格式操作医学图像数据的实用程序,允许将图像元数据简单地转换为熟悉的R数据结构,例如列表、数据帧.
3. rpact: 提供设计和分析具有连续、二元和生存终点的适应性临床试验的功能,参见Wassmer and Brannath (2016).
1. ClimProjDiags: 提供计算气候分析的度量和指数、模型比较以及将它们进行组合的功能.
2. DEVis: 提供基于Bio.or DESeq2包的数据集合、可视化分析、探索性分析和项目管理的综合工具集.
3. epimdr: 提供流行病研究的相关模型,包括S(E)IR模型、时间序列SIR和链二项随机模型、催化疾病模型和耦合映射格子模型.
4. firebehavior: 实现了火灾行为预测模型,包括Scott & Reinhardt(2001)、Alexander等人记录的相关模型(2006).
5. lorentz: 提供在特殊相对论中使用洛伦兹变换与陀螺组结构的功能.
6. pubchunks: 提供从学术文章中提取XML模块的功能.
1. BayesMallows: 实现Mayes秩模型的贝叶斯版本.(http://jmlr.org/papers/v18/15-481.html).
2. contextual: 支持模拟和评估与无上下文和上下文多臂强盗策略、算法,以简化现有和新的多臂强盗算法和策略的实现、评估和传播.
3. coxrt: 实现右截断数据的Cox比例风险回归.
4. crossrun: 在一系列独立的伯努利试验中估计交叉次数的联合分布、最长运行时间.
5. logisticRR: 假设相对风险通常与公共卫生有关,该包提供了在潜在混杂因素下从逻辑回归模型返回调整后的相对风险函数.
6. lognorm: 估计分布参数并计算矩及对数正态分布的其他基本统计量,并且还提供了对数正态分布变量之和的分布的估计.
7. lolog: 提供用于估计Latent Order Logistic (LOLOG)模型的功能,还提供了视觉诊断、拟合优度度量.
8. matrixNormal: 提供计算矩阵正态分布的密度、概率和随机偏差的函数.
9. outcomerate: 实施标准化调查结果率函数,包括响应率、联系率、合作率和拒绝率,使研究人员能够使用美国公众舆论研究协会发布的标准来衡量调查数据的质量.
10. parmsurvfit: 将右删失的数据拟合到给定的参数分布,并生成汇总统计、危险、累积危险和概率图,以及Anderson-Darling检验统计.
11. ppgmmga: 实现基于高斯混合模型的投影寻踪降维算法.
12. RcppDist: 提供可在使用Rcpp、RcppArmadillo编写代码时从C ++调用的统计分布.
13. simstandard: 支持从具有标准化加载的结构方程模型创建模拟数据的功能.
七. 工具
1. carrier: 支持用户创建与环境隔离的函数,这些独立的函数(也称为板条箱)可在控制台上打印它们的总大小,并且在被发送到远程之前可以容易地在本地进行测试.
2. carbonate: 实现到carbon.js的接口,它允许开发人员创建源代码的图像.
3. generics: 为了减少潜在的R包的依赖性和冲突,该包提供了许多常用的S3泛型.
4. REPLesentR: 允许用户创建演示文稿,并在R REPL(控制台)中显示它们.
5. stationery: 提供用于在LaTeX和R markdown中编写文档的模板、指南和脚本,用以生成指南、幻灯片和报告.
1. balance: 提供用于平衡可视化(用于成分数据分析)的替代方案,以及用于主平衡分析的方法,如Quinn(2018)中所描述.
2. trelliscopejs: 提供便于为TrelliscopeJS创建Trelliscope显示规范的方法,包括用于在dplyr、ggplot2工作流中创建显示的高级函数.
说明:限于个人水平,错误之处难免,烦请批评指正,共同交流~