We present the first full description of Media Cloud, an open source platform based on crawling hyperlink structure in operation for over 10 years, that for many uses will be the best way to collect data for studying the media ecosystem on the open web. We document the key choices behind what data Media Cloud collects and stores, how it processes and organizes these data, and open API access as well as user-facing tools. We also highlight the strengths and limitations of the Media Cloud collection strategy compared to relevant alternatives. We give an overview two sample datasets generated using Media Cloud and discuss how researchers can use the platform to create their own datasets.


翻译:我们首先完整地描述媒体云,这是一个基于超链接结构的开放源平台,运作了10多年,许多用途都是收集用于在开放的网络上研究媒体生态系统的数据的最佳方法。 我们记录了媒体云收集和储存哪些数据、这些数据如何处理和组织、开放的API访问以及用户定位工具背后的关键选择。 我们还强调了媒体云收集战略相对于相关替代工具的长处和局限性。 我们概述了使用媒体云生成的两个抽样数据集,并讨论了研究人员如何利用该平台创建自己的数据集。

0
下载
关闭预览

相关内容

这个新版本的工具会议系列恢复了从1989年到2012年的50个会议的传统。工具最初是“面向对象语言和系统的技术”,后来发展到包括软件技术的所有创新方面。今天许多最重要的软件概念都是在这里首次引入的。2019年TOOLS 50+1在俄罗斯喀山附近举行,以同样的创新精神、对所有与软件相关的事物的热情、科学稳健性和行业适用性的结合以及欢迎该领域所有趋势和社区的开放态度,延续了该系列。 官网链接:http://tools2019.innopolis.ru/
专知会员服务
41+阅读 · 2020年9月6日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
105+阅读 · 2020年3月22日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
开发者应当了解的18套机器学习平台
深度学习世界
5+阅读 · 2018年8月14日
R文本分类之RTextTools
R语言中文社区
4+阅读 · 2018年1月17日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
【学习】CVPR 2017 Tutorial:如何从图像来构建3D模型
机器学习研究会
6+阅读 · 2017年8月8日
Arxiv
0+阅读 · 2021年5月27日
Arxiv
35+阅读 · 2019年11月7日
Arxiv
6+阅读 · 2016年1月15日
VIP会员
相关资讯
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
开发者应当了解的18套机器学习平台
深度学习世界
5+阅读 · 2018年8月14日
R文本分类之RTextTools
R语言中文社区
4+阅读 · 2018年1月17日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
【学习】CVPR 2017 Tutorial:如何从图像来构建3D模型
机器学习研究会
6+阅读 · 2017年8月8日
Top
微信扫码咨询专知VIP会员