项目名称: 实时流数据变系数多分类模型研究

项目编号: No.61472475

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 其他

项目作者: 吕晓玲

作者单位: 中国人民大学

项目金额: 58万元

中文摘要: 在当前的大数据时代背景下,很多领域产生了一种新的数据形态:实时流数据。它是一个海量、高维、稀疏、实时、无限、连续、有序的数据序列。针对实时流数据的研究成为近年来机器学习与知识发现领域的热点问题。数理统计学中的变系数模型是研究该数据类型的一个很好的工具,能够详细刻画协变量与时间变量的相互关系,解释事物随时间演化的规律。但现有的研究成果还基本上局限在小数据/小世界的理论和算法,不能真正满足大数据分析的需要。本项目将在梳理传统变系数模型研究成果的基础上,主要针对实时流数据的多分类问题,从基础模型的构建、模型的稳定性、模型的在线学习与分布式实时算法开发等角度研究大数据时代背景下的数理统计学与信息科学相融合的分析实时流数据的变系数多分类模型的全新理论。并结合两个大数据应用实例提出高效、具有广泛社会应用前景与价值的操作流程。

中文关键词: 多分类模型;稀疏模型;高维数据;特征选择;正则化

英文摘要: In the age of big data, a new type of data is emerging: realtime streaming data. It's a big, high dimensional, sparse, realtime, unlimited, continuous, ordered data sequence. Study on such kind of data has become a hot topic in the area of data mining and machine learning. Varying coefficient model in mathematical statistics is a very good tool to study such kind of data. It can describe the relationship between covariates and time, expplain things' evolution patterns. Current research results are limited to theories and algorithms in small data/small world. It can't meet the need of big data. Dased on the traditional study on the varying coefficient model,this project will study on the multicategory classification methods for realtime streaming data. The new theoretical framework is a combination of mathematical statistics and information science. It include the fundamental model, stability analysis, online learning and distributed realtime computing. Finally, we will give the empirical data analyses for two real world big data.

英文关键词: Multicategy Classification;Sparse Model;High Dimensional Data;Feature Selection;Regularization

成为VIP会员查看完整内容
1

相关内容

逆优化: 理论与应用
专知会员服务
36+阅读 · 2021年9月13日
专知会员服务
44+阅读 · 2021年8月5日
专知会员服务
24+阅读 · 2021年7月22日
【经典书】机器学习统计学,476页pdf
专知会员服务
120+阅读 · 2021年7月19日
【2021新书】Python流数据实用机器学习,127页pdf
专知会员服务
73+阅读 · 2021年5月23日
专知会员服务
18+阅读 · 2021年5月16日
专知会员服务
23+阅读 · 2021年1月30日
深度学习目标检测方法综述
专知会员服务
274+阅读 · 2020年8月1日
神经网络,凉了?
CVer
2+阅读 · 2022年3月16日
面向B端算法实时业务支撑的工程实践
阿里技术
0+阅读 · 2022年2月10日
作业帮基于Flink的实时计算平台实践
AI前线
0+阅读 · 2022年1月27日
工商银行实时大数据平台建设历程及展望
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
从模型到应用,一文读懂因子分解机
AI100
10+阅读 · 2019年9月6日
YOLO算法的原理与实现
机器学习研究会
43+阅读 · 2018年1月19日
手把手教你用LDA特征选择
AI研习社
12+阅读 · 2017年8月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Generalized Out-of-Distribution Detection: A Survey
Arxiv
15+阅读 · 2021年10月21日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
45+阅读 · 2019年12月20日
Arxiv
18+阅读 · 2019年1月16日
小贴士
相关VIP内容
逆优化: 理论与应用
专知会员服务
36+阅读 · 2021年9月13日
专知会员服务
44+阅读 · 2021年8月5日
专知会员服务
24+阅读 · 2021年7月22日
【经典书】机器学习统计学,476页pdf
专知会员服务
120+阅读 · 2021年7月19日
【2021新书】Python流数据实用机器学习,127页pdf
专知会员服务
73+阅读 · 2021年5月23日
专知会员服务
18+阅读 · 2021年5月16日
专知会员服务
23+阅读 · 2021年1月30日
深度学习目标检测方法综述
专知会员服务
274+阅读 · 2020年8月1日
相关资讯
神经网络,凉了?
CVer
2+阅读 · 2022年3月16日
面向B端算法实时业务支撑的工程实践
阿里技术
0+阅读 · 2022年2月10日
作业帮基于Flink的实时计算平台实践
AI前线
0+阅读 · 2022年1月27日
工商银行实时大数据平台建设历程及展望
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
从模型到应用,一文读懂因子分解机
AI100
10+阅读 · 2019年9月6日
YOLO算法的原理与实现
机器学习研究会
43+阅读 · 2018年1月19日
手把手教你用LDA特征选择
AI研习社
12+阅读 · 2017年8月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Generalized Out-of-Distribution Detection: A Survey
Arxiv
15+阅读 · 2021年10月21日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
45+阅读 · 2019年12月20日
Arxiv
18+阅读 · 2019年1月16日
微信扫码咨询专知VIP会员