Palantir的新专利曝光:挖掘和整合全世界的数据

2018 年 3 月 30 日 炼数成金订阅号

Palantir是世界上最神秘莫测、最有影响力的数据公司之一。由于Facebook的数据隐私丑闻让媒体将关注的焦点转向了个人数据如何用于商业及其他领域,我们深入探究了Palantir的专利。

 

Palantir Technologies是一家私人拥有的硅谷科技公司,销售一整套用于整合、可视化和分析全世界数据的软件。


外界对于Palantir的技术或产品知之甚少。最近有报道传出,Palantir的一名员工在2014年帮助Cambridge Analytica挖掘了数百万份Facebook用户资料,这可能会加大针对Palantir的审查力度。


考虑到这家公司的秘密性,只要能深入了解该公司的方法,对于它如何为客户挖掘数据,并从中获取价值都大有助益。


一系列最近公示的专利申请(光上周就有两项)表明:

Palantir希望能够分析电子邮件多达上万亿封这么庞大的数据集。

它希望使用收入和其他信号等普通数据来预测消费者未来的行为,比如取消订阅服务。

在一项非常类似《少数派报告》的专利中,Palantir还希望使用与个人有关的数据点来预测未来的犯罪活动。


Palantir的专利申请共同帮助我们窥视该公司的企业产品战略和创新,以及较先进的人口数据和分析技术往哪个方向发展。虽然单项专利可能只是潜在产品的草图,但综合起来,多项专利方面的活动就能揭示战略方向和优先事项。


值得注意的是,Palantir的产品和服务已经部署在军队、情报、执法和金融领域,以打击犯罪。


事实上,Palantir的部分种子基金正是由美国中情局(CIA)的风险投资部门In-Q-Tel提供的。Palantir刚拿下了一份价值8.76亿美元的合同,为美国军队提供数据管理软件、


另外请注意,在过去的几年,Palantir已在以下领域获得了专利。然而,我们在下面调查的专利申请详细介绍了那些设计方案的版本。


挖掘和整合全世界的数据:

用于调查大量数据的系统和方法

专利申请公示日期:2018年3月22日



Palantir正在开发挖掘和分析数PB数据的技术。这是海量数据。不妨参考一下,神经学家估计人类大脑存储记忆的能力相当于约2.5PB。Facebook总共存储了约300PB的数据。 Palantir可以挖掘来自网上的结构化数据和非结构化数据,并将第三方数据库整合到其系统中。


“输入数据可能包括常见于企业、组织、政府机构、学校、大学和医院等实体中的电子邮件信息池、事务日志和通话数据记录等。”


该专利申请中概述的发明能够“摄取来自不同异构数据源的数据,并存入到单一数据存储库”。专利申请特别指出,输入数据可能包括银行的交易日志、通话数据记录、计算机网络访问日志、公司企业的电子邮件,或可能包含多达数十亿条、乃至数万亿条记录的其他大批量数据。


Palantir的总体目标是,拿来这些数据后,能够高效地识别感兴趣的信息。借助该工具,“分析员可以调查自上而下的趋势、行为和活动,或者进行自下而上的以目标为中心的分析。”


以家庭为单位预测未来

确定实体采取指定行动的倾向的系统和方法

专利申请公示日期:2018年3月22日



Palantir的预测技术立足于这个口号:过去的行为可最准确地预测未来的行为。具体来说,描述的这种技术可以获取某个对象的数据,为该对象的行为建立记录,并将过去的行为推广到刻画对象行为的“特征”,然后使用该数据来训练预测模型,因而得出该对象在将来采取具体行动的可能性。


该专利申请中详述的预测行为的例子包括获取平均家庭收入、汽车数量和支付账单方面的数据。这些信息让分析员可以明白该家庭是否有可能在下个月取消订阅服务。在下面的草图中,被分析的这篇家庭被认为有“中等”的流失倾向。


不难明白为什么这种类型的技术对于像电信和媒体公司这些采用企业对消费者(B2C)订阅商业模式的公司来说很有价值。

 

犯罪还未发生就打击犯罪

犯罪风险预测

专利授予日期:2017年12月5日



Palantir已切实运用其预测性警务技术。据称该公司在2012年与新奥尔良警察局签了合同,帮助该警察局确定哪些人可能是有暴力倾向的司机。据称,由于有很大的争议,新奥尔良市没有续签合同。Palantir与洛杉矶和纽约的执法机构仍然签有类似的合同,不过那些合同状况方面的细节秘而不宣。


Palantir对于其犯罪风险预测技术的初衷是,帮助警方“知道未来犯罪最可能何时发生、发生在哪里。”犯罪预测算法得益于机器学习方面的进步。这种算法让警察能够“有效评估加大的犯罪威胁和可能持续的时间。”警方可以针对特定的地区和时间范围,甚至针对特定的犯罪活动来预测犯罪。


文章来源:云头条

《机器读心术之文本挖掘与自然语言处理》课程在全国的独有性,以及将艰难知识通俗化讲授的能力,学完将熟悉文本挖掘与自然语言处理技术,懂得怎样运用到自己的实际工作,将数据挖掘能力从有限的结构化数据延伸到非结构化的海量文字材料。点击下方二维码报名课程

登录查看更多
11

相关内容

【干货书】现代数据平台架构,636页pdf
专知会员服务
256+阅读 · 2020年6月15日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
68+阅读 · 2020年3月5日
智能交通大数据最新论文综述-附PDF下载
专知会员服务
105+阅读 · 2019年12月25日
清华大学张敏老师,个性化推荐的基础与趋势,145页ppt
专知会员服务
87+阅读 · 2019年11月27日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
爱奇艺路演PPT曝光:下周在纳斯达克上市
腾讯科技
3+阅读 · 2018年3月19日
日媒羡慕中国或成AI领域第一大国:日本或落后一代人
人工智能机器人联盟
3+阅读 · 2018年1月21日
一个人的企业安全建设之路
FreeBuf
5+阅读 · 2017年7月7日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
14+阅读 · 2018年4月18日
Arxiv
7+阅读 · 2018年4月11日
Arxiv
25+阅读 · 2018年1月24日
VIP会员
Top
微信扫码咨询专知VIP会员