Automated analysis of privacy policies has proved a fruitful research direction, with developments such as automated policy summarization, question answering systems, and compliance detection. Prior research has been limited to analysis of privacy policies from a single point in time or from short spans of time, as researchers did not have access to a large-scale, longitudinal, curated dataset. To address this gap, we developed a crawler that discovers, downloads, and extracts archived privacy policies from the Internet Archive's Wayback Machine. Using the crawler and following a series of validation and quality control steps, we curated a dataset of 1,071,488 English language privacy policies, spanning over two decades and over 130,000 distinct websites. Our analyses of the data paint a troubling picture of the transparency and accessibility of privacy policies. By comparing the occurrence of tracking-related terminology in our dataset to prior web privacy measurements, we find that privacy policies have consistently failed to disclose the presence of common tracking technologies and third parties. We also find that over the last twenty years privacy policies have become even more difficult to read, doubling in length and increasing a full grade in the median reading level. Our data indicate that self-regulation for first-party websites has stagnated, while self-regulation for third parties has increased but is dominated by online advertising trade associations. Finally, we contribute to the literature on privacy regulation by demonstrating the historic impact of the GDPR on privacy policies.


翻译:对隐私政策进行自动化分析已证明是一个富有成果的研究方向,其发展动态包括自动化政策总结、问答系统和合规检测等。先前的研究仅限于从一个时间点或短时间段分析隐私政策,因为研究人员无法获得大规模、纵向和经整理的数据集。为弥补这一差距,我们开发了一个爬行器,从因特网档案的“回路机器”中发现、下载和提取存档隐私政策。利用爬行器和一系列验证和质量控制步骤,我们整理了一套1,071,488个英语隐私政策,涵盖20多年和130多个不同网站。我们的数据分析描绘了隐私政策透明度和可获取性方面令人不安的图景。通过将我们数据集中与跟踪有关的术语的出现与先前的网络隐私测量进行比较,我们发现隐私政策一直未能披露共同跟踪技术和第三方的存在。我们还发现,在过去二十年中层隐私政策变得更加难以阅读,其长度翻了一番,并在中位读文献中位增加了整整1,300多个不同网站。我们的数据分析描绘了隐私政策的透明度和可获取性图象。最后,通过在线监管,我们数据库的自我监管增加了在线监管,从而展示了公司内部监管,从而提高了自我监管。

0
下载
关闭预览

相关内容

Automator是苹果公司为他们的Mac OS X系统开发的一款软件。 只要通过点击拖拽鼠标等操作就可以将一系列动作组合成一个工作流,从而帮助你自动的(可重复的)完成一些复杂的工作。Automator还能横跨很多不同种类的程序,包括:查找器、Safari网络浏览器、iCal、地址簿或者其他的一些程序。它还能和一些第三方的程序一起工作,如微软的Office、Adobe公司的Photoshop或者Pixelmator等。
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
41+阅读 · 2020年7月27日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
150+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【电子书推荐】Data Science with Python and Dask
专知会员服务
43+阅读 · 2019年6月1日
已删除
将门创投
18+阅读 · 2019年2月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关资讯
已删除
将门创投
18+阅读 · 2019年2月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Top
微信扫码咨询专知VIP会员