In a perfect world, all articles consistently contain sufficient metadata to describe the resource. We know this is not the reality, so we are motivated to investigate the evolution of the metadata that is present when authors and publishers supply their own. Because applying metadata takes time, we recognize that each news article author has a limited metadata budget with which to spend their time and effort. How are they spending this budget? What are the top metadata categories in use? How did they grow over time? What purpose do they serve? We also recognize that not all metadata fields are used equally. What is the growth of individual fields over time? Which fields experienced the fastest adoption? In this paper, we review 227,726 HTML news articles from 29 outlets captured by the Internet Archive between 1998 and 2016. Upon reviewing the metadata fields in each article, we discovered that 2010 began a metadata renaissance as publishers embraced metadata for improved search engine ranking, search engine tracking, social media tracking, and social media sharing. When analyzing individual fields, we find that one application of metadata stands out above all others: social cards -- the cards generated by platforms like Twitter when one shares a URL. Once a metadata standard was established for cards in 2010, its fields were adopted by 20% of articles in the first year and reached more than 95% adoption by 2016. This rate of adoption surpasses efforts like Schema.org and Dublin Core by a fair margin. When confronted with these results on how news publishers spend their metadata budget, we must conclude that it is all about the cards.


翻译:在一个完美的世界中, 所有文章都始终包含足够的元数据来描述资源。 我们知道这不是现实, 因此我们有动力来调查当作者和出版商自己供应时出现的元数据的演变。 因为应用元数据需要时间, 我们认识到每个新闻文章作者都有有限的元数据预算来花时间和精力。 他们是如何使用这一预算的? 使用哪些最高元数据类别? 它们是如何增长的? 它们的作用是什么? 它们是如何随着时间增长的? 我们还认识到并非所有元数据字段都得到同等使用。 单个域的增长是多少? 哪个域是采用得最快的? 哪个域? 在本文中,我们审查了1998年至2016年期间由因特网档案馆获取的29个单位提供的227 726 HTML新闻文章。 在审查每篇文章中的元数据领域后,我们发现2010年开始元数据复兴是因为出版商采用了元数据,用于改进搜索引擎排名、搜索引擎跟踪、社交媒体跟踪以及社交媒体共享。 当分析单个域时,我们发现一个应用元数据字段比其他所有领域都要多的时候, 我们发现一个应用的是社交卡 -- 平台生成的卡, 当一个共享一个URL时, 第一次使用时, URL 。 一旦在2010年的元数据标准中, 其核心数据标准在2010年被建立到2010年的域中, 将超过95 。

0
下载
关闭预览

相关内容

超文本标记语言(英文:HyperText Markup Language,HTML)是为“网页创建和其它可在网页浏览器中看到的信息”设计的一种标记语言。
最新《Transformers模型》教程,64页ppt
专知会员服务
311+阅读 · 2020年11月26日
专知会员服务
18+阅读 · 2020年9月6日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
专知会员服务
61+阅读 · 2020年3月19日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
93+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
老铁,邀请你来免费学习人工智能!!!
量化投资与机器学习
4+阅读 · 2017年11月14日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Algorithmic Monoculture and Social Welfare
Arxiv
0+阅读 · 2021年6月1日
Arxiv
0+阅读 · 2021年6月1日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
311+阅读 · 2020年11月26日
专知会员服务
18+阅读 · 2020年9月6日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
专知会员服务
61+阅读 · 2020年3月19日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
93+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
相关资讯
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
老铁,邀请你来免费学习人工智能!!!
量化投资与机器学习
4+阅读 · 2017年11月14日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员