作者:Joseph Rickert
译者:黄小伟,先后从事游戏、社交及金融数据研究及应用相关工作,目前就职网易杭州,期待多交流
2018年1月份,CRAN收录了200个R新包,本文节选了40个R包做以简单功能介绍,其余包可登录CRAN自行查看,包括类别:数据、数据科学、科学、统计学、时间序列、工具和可视化等。目前,CRAN正在成为一个实用的、来之不易的科学知识库。(ps:部分包在CRAN收录后会存在下架的可能,大家在使用时可以稍加注意)
一. 数据
1. cancensus : 使用CensusMapper API 为加拿大人口普查和地理数据提供访问接口。
2. elevatr : 提供多个针对海拔数据服务的访问权限,并且返回空间点数据框(SpatialPointsDataFrame)或者栅格对象。目前支持访问Mapzen Elevation Service, Mapzen Terrain Service, Amazon Web Services Terrain Tiles和 USGS Elevation Point Query Service等服务商。
3. fabricatr : 提供模拟分层和相关数据的函数。
4. getTBinR : 支持世界卫生组织结核病数据的快速导入,并为探索性数据分析提供可视化功能。
5. homologene : 美国国家生物技术信息中心为同源基因数据库提供了一个包装,允许跨物种搜索基因同系物。
6. photobiologyFilters : 纯数据包,包含频谱“透射率”数据,用于频繁使用的过滤器和材料,包括塑料片、薄膜、光学玻璃和普通玻璃以及一些实验室器皿。
7. tfdatasets : 为TensorFlow数据集提供访问接口,支持从简单的、可重用块构建复杂的输入管道。
8. washdata : 支持获取城市供水和卫生调查数据,该数据由城市贫民清洁水处理联盟机构(WSUP)提供。
二. 数据科学
1. CRPClustering : 提供一种使用中国餐馆过程Pitman(1995)的聚类方法,该方法不需要事先确定聚类数量,同时提供相关函数计算类的模糊性作为熵值Yngvason (1999)。
2. kerasformula : 为Keras神经网络提供一个高级数据接口。
3. multiROC : 通过微观和宏观平均计算ROC曲线下面积,提供工具来解决多个类别的分类问题。
4.reinforcelearn : 实现强化学习环境和算法 Sutton&Barto(1998)。
5. stranger : 提供一个解决框架,针对无监督异常检测问题。
6. tidypredict : 提供函数用于解析R模型对象,并返回一个SQL查询结果。
三. 科学
1. annovarR : 提供功能和数据库资源,为基因组、转录组数据中的遗传变异注释提供整合框架,该包装函数统一了许多已发布的注释工具的接口,如VEP, ANNOVAR, vcfanno, 和 AnnotationDbi等。
2. pubh : 提供一个工具箱,使流行病学和公共卫生相关学科的学生和专业人员更容易使用R功能。
3. trajr : 提供一个工具箱,用于对二维动物轨迹进行统计分析。
四. 统计
1. dalmatian : 提供一个有效的功能,借助JAGS自动拟合GLM模型。
2. dirichletprocess : 允许创建Dirichlet过程对象,这些对象可以用作无限混合模型。包括密度估计、泊松过程强度推理、分层建模和聚类等。
3. detpack : 提供部分功能,用于对大数据集进行密度估计,同时使用分布元素树生成条件/无条件随机数。
4. gnorm : 提供获得广义正态/指数功率分布概率、分位数、密度和随机偏差的函数。
5. IROmiss : 提供一种通用算法,即插值正则化优化(IRO)算法,用于处理高维缺失数据问题。
6. KRIG : 提供Kriging模型和空间统计的各种方法的功能,包括使用再生核希尔伯特空间的多元敏感性分析和Sobol指数的计算。
7. natural : 在高维线性模型中,实现两种误差方差估计方法。
8. OpVar : 使用最大似然估计和贝叶斯方法,提供用于针对操作风险建模的函数。
9. netrankr : 实施网络中心性相关分析的方法,主要是通过由邻域包含或位置优势获得的部分排名进行评估。
10. palmtree : 实现PALM树算法,这是MOB算法(partykit包)的扩展,其中一些参数在所有组中都是固定的。
11. PMCMRplus : 提供函数来计算许多不同类型的成对多重比较测试。
12. seminr : 实施用于构建PLS结构方程模型的领域特定语言,兼顾一致性PLS的最新估算方法Dijkstra & Henseler (2015)、交互调整Henseler & Chin (2010)等内容。
五. 时间序列
1. santaR : 为短时间序列分析提供了一个图形化的自动化流水线功能,旨在适应异步时间采样、个体间变异性、噪声测量和变量较多等问题。
2. TSrepr : 提供时间序列的表示方法(如:降维、预处理、特征提取等)。
3. TSstudio : 提供一组交互式可视化工具,支持ts、mts、zoo和xts对象的时间序列分析,包括用于预测模型性能、时间序列交互式图表和季节性图表的可视化函数等。
六. 工具
1. arrangements : 为排列、组合和分区提供快速生成器和迭代器,使用户能够以节省内存的方式生成排列。
2. fs : 在libuv C库之上,实现文件系统操作的跨平台接口。
3. googlePolylines : 提供使用Google折线编码算法对简单要素(sf)对象和坐标进行编码的功能。
4. prrd : 对于给定的R包,提供反向排队函数,支持多个工作人员进行并行测试。
5. rquery : 基于Edgar F. Codd的关系代数和运算符名称实现查询生成器,其目的在于增强在大数据量级下使用“SQL”的体验。
6. tsibble : 提供一个tbl_ts类,用于存储和管理以数据为中心格式的时间维度数据。
七. 可视化
1. breakDown : 实现分解图,显示模型中的每个变量的贡献。
2. sigmaNet : 借助Sigma.js,提供创建交互式图形可视化的功能。
说明:限于个人水平,错误之处,恳请批评指正,欢迎多交流~
原文地址:https://rviews.rstudio.com/2018/02/22/jan-2018-top-40-new-package-picks/