11 月 10 日(周六)下午,PaperWeekly 携手清华大学计算机系推出了计算未来轻沙龙第三期线下活动——大规模数据存储与挖掘。来自清华大学计算机系的 8 位博士生和硕士生,系统而深入地分享了他们各自在自动机器学习领域的最新研究进展。
本文将独家分享本期活动的嘉宾课件下载。
张凯 / SmartX 联合创始人 & CTO
张凯,毕业于清华大学计算机系高性能所,SmartX 联合创始人 & CTO。
存储技术热点和趋势总结
近年来,存储技术的发展成为了热门话题,无论在存储硬件、存储协议、还是存储软件架构等领域,都出现了新的产品和技术。例如 NVMe SSD,NVM over Fabric,Persistent Memory,Software Defined Storage 等等。此外,也产生了一些新的应用场景,例如虚拟化、容器等等。
在本次报告中,我们将对近年来学术界和工业界的存储技术热点和趋势进行总结,并介绍软件定义存储产品面临的挑战。
李开宇 / 清华大学计算机系博士生
李开宇,清华大学计算机系,硕转博四年级在读博士生,主要研究方向为数据库下的近似查询、众包数据管理和时空数据库,在国际会议 ACM SIGMOD、国际期刊 IEEE TKDE、国际期刊 CSE,均有一作文章发表。
众包数据库中基于rating-ranking的Top-k查询
在这个 talk 中,我将会展示如何在众包数据库与中,基于概率模型 rating-ranking 推理给出 n 个实体的 Top-k 查询结果。并展示如何优化算法和节约查询代价。
李秀星 / 清华大学计算机系博士生
李秀星,博士在读,主要研究方向为数据库上的数据管理,相似度匹配与查询。硕士期间曾经在国际顶级会议 ICDE 上有论文发表。
An Efficient Framework for Exact Set Similarity Search Using Tree Structure Indexes
在这个 talk 里,我将会讨论现代数据库中的一个关键技术:相似集合查询。即给定一个集合,找到数据库中所有与其相近的记录。我提出了一种树状结构对其进行索引并且应用哈希算法对其过滤操作进行优化。进一步地,我提出了一种基于数据分块的多索引结构对查询过程进行了优化。
袁海涛 /清华大学计算机系硕士生
袁海涛,硕士在读,本科毕业于北京航空航天大学,研究方向为时空大数据管理(包含轨迹大数据的管理与查询),硕士期间曾在国际顶级会议 ICDE 上发表文章。
基于路网的出行轨迹大数据相似性查询与连接
在这个 talk 中,我们将讨论如何在时空数据库当中,基于路网提高出行轨迹数据在相似性查询和链接的效率。具体来说,我们重新定义了时空数据中基于路网的轨迹表达以及轨迹相似性的计算方式,然后设计相应的索引和查询算法。最后,我们将介绍如何在 Spark 上实现相应的分布式查询框架。
孙佶 / 清华大学计算机系博士生
孙佶,博士在读,本科毕业于北京邮电大学计算机学院,研究领域为可扩展数据融合。博士期间曾经在顶级会议 VLDB 发表文章。
分布式可扩展字符串相似查询系统
本次报告,我将介绍一个易部署可扩展分布式字符串查询系统的设计原理以及其在实际数据融合、查询推荐中的应用。
骆昱宇 / 清华大学计算机系硕士生
骆昱宇,硕士在读,研究领域为数据可视化和数据清洗。曾经在 SIGMOD、ICDE、EDBT 发表文章。
Towards Automatic Data Visualization
This talk mainly introduces the key techniques of automatic data visualization. (I) Visualization Recognition: given a visualization, is it "good" or "bad"? (II) Visualization Ranking: given two visualizations, which one is better? (III) Visualization Selection: given a dataset, how to recommend top-k visualizations?
秦雪迪 / 清华大学计算机系博士生
秦雪迪,博士在读,本科毕业于哈尔滨工业大学计算机科学与技术系,主要研究数据库管理中如何高效的进行数据可视化。博士期间曾经在 EDBT、BIG DATA MINING AND ANALYTICS 发表文章。
Visualizing Your Data by Keyword Search
在这个 talk 中,我们会讨论如何使用关键字搜索来为用户推荐感兴趣的可视化图。并讨论在用户得到感兴趣的可视化图之后,如何进行进一步的数据探索,来发现更多有意义的信息。
刘宁 / 清华大学计算机系博士生
刘宁,清华大学计算机系在读博士生,研究领域为知识库管理及数据挖掘技术。
知识驱动的基于文本的病人死亡预测
在这个 talk 中,我们将介绍实体知识在医疗文本分类的一些应用,以及如何更好地利用现有的知识库中的实体提高预测系统的性能。
冉晨伟 / 清华大学计算机系博士生
冉晨伟,博士在读,本科毕业于清华大学计算机系,研究兴趣围绕知识图谱的扩充与推理。博士期间曾经在顶级会议 WWW、ICDM 发表文章。
针对微博实体链接的注意力因子图模型
在这次报告中,我们将关注微博中的实体链接问题。我们将介绍如何将因子图应用于该任务,并通过引入注意力机制,使模型拥有更高的效率。
1 / 扫码关注
长按识别二维码,关注PaperWeekly
2 / 回复暗号
在PaperWeekly微信公众号后台
回复暗号181110
即可获取嘉宾课件下载链接
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 获取最新论文推荐