节省AI开发90%的时间,彭博让你获得直接可用的数据

2019 年 3 月 23 日 机器之心

机器之心原创

作者:李泽南


与大多数人的想象不同,在机器学习领域里,处理数据所耗费的精力占据着最多比例。通常情况下,每购买 1 美元的数据,我们需要花费 5-7 美元来清理,才能让它用于机器学习模型的训练与推理。在这个过程中,数据科学家要耗费整个开发流程 80-90% 的时间。


如果可供使用的数据标准化且直接可用,成本和效率的提升就会让科技公司获得前所未有的优势。在这一方面,彭博是业内领先的数据服务提供商。


数据服务并不止于交易数据,今年 2 月 21 日,彭博宣布推出「另类数据」服务,其中包括 20 余种新类型数据,如基于人工智能和大数据处理得到的人流、社交媒体情绪数据,它们可以帮助投资者在瞬息万变的市场中带来先机。今天,作为人工智能大潮的一部分,数据服务正在迈向全新的阶段。


彭博为众多金融机构提供多种数据类别及服务,涵盖实时数据、参考数据、定价数据和监管数据等。近日,我们与彭博企业数据全球负责人 Gerard Francis 进行了一番交流,他向我们介绍了彭博数据业务的发展,以及他对于在投资领域应用 AI 的看法。


Gerard Francis


「在金融领域里,我们是全球最大的数据供应商。」Gerard Francis 表示。彭博现在的数据提供平台中已拥有实时数据、参考数据、另类数据、衍生数据等种类的数据集,且提供数据的方式多种多样:从 API 到数据接入网站皆可以获取。用户可以在数据的基础上使用自己的程序进行处理。


彭博企业级数据业务始于 1997 年,至今已有 22 年历史了。目前,全球最大的金融机构都在依赖彭博的数据开展自己的业务。


彭博最近的方向是提供各种类型的「另类数据」:从卫星图像到博客内容中收集的情绪信息,再到 APP 的下载趋势。在彭博数据接入网站 Bloomberg Enterprise Access Point 上,我们可以找到很多不同类型的数据。彭博称,目前该网站可提供 2700 余种参考数据集,200 余种估值数据集,400 余种另类数据集以及近 600 余种监管数据集等。


比起技术人员常使用的 GitHub,使用这个平台更像是在浏览亚马逊购物网站——你可以在其上浏览各种产品,并购买其中想要的。


Gerard Francis 以北美股票参考数据为例进行了演示。数据集下载完成后可以看到是 CSV 文件,可用 Excel 直接打开,其中的数据非常干净整洁,无需进行任何其他处理就可以直接使用了。对于彭博的所有数据集,人们都可以直接下载使用。


价格之外的另类数据


Bloomberg Enterprise Access Point(BEAP)是彭博企业数据业务新近推出的一项服务,于 2018 年 9 月推出。这是一个在线数据平台,为 Bloomberg Data License 客户提供标准化的参考、定价、监管,以及另类数据集。彭博今年 2 月刚推出的「另类数据(Alternative data)」收集了很多前所未有的内容,可以帮助投资者在交易中夺取先机。


另类数据是彭博最近提出的新数据类型。在这一分类中,我们可以找到来自很多不同类型数据公司提供的内容。目前,BEAP 拥有 20 多套另类数据集,其中包括对金属库存、股票博客情绪、药品审批、消费者客流量和停车场活动、建筑许可、地缘政治风险和应用利用率的洞察。彭博计划在未来每个月都会加入更多的数据类型。


「另类数据正在变得越来越重要,」Francis 介绍道,「其中主要有两个原因。其一是我们的客户正在寻找提高 Alpha(超额收益)的方法。其二是另类数据通常难以使用。它数量巨大、笨重而难以处理,人们很难找到它的价值。但这却是机器学习和 AI 可以发挥作用的地方,通过应用这些技术帮助我们找到价值。」


彭博通过 BEAP 网站提供另类数据业务可以一站式解决金融行业数据科学家对于内容的需求,无需面对多个合同和供应商。另一方面,彭博的数据提供使用了标准化的 API,从而节省了技术人员的使用步骤。


为了保证另类数据的准确性,彭博的数据团队中有很多技术人员专注于数据处理。这家公司也在使用很多各类先进的技术来处理数据。据介绍,彭博的数据部门非常庞大,目前约有包括正式员工和供应商在内 5000 多人专注于数据。


在另类数据集中,我们可以找到一些很有意思的内容:商场的人流、停车场拥挤情况、手机 APP 的下载量,甚至某个地区出现不稳定的可能性。「我们的数据提供商之一 Apptopia 是个很有意思的公司,他们提供的数据可以告诉你所有 APP 在 Google Play 和 Apple Store 上的下载数量。」Francis 介绍道。


彭博展示的另一个例子是地缘政治风险数据,其来自 Predata 公司。数据供应商会收集很多预警和指标,对于政治风险、经济增长、社会不稳定等进行评分,从而获得一系列的数据。如果一个人正在做风险管理任务,他们可以在这里获得有关国家潜在风险的提示。


这些数据本身来自于公开信息,被各家数据公司收集后进行处理。对于分析师来说,这可以帮助理解竞争对手的业务情况,也可以在某一次投资前做好背景调查。


在另类数据领域有很多垂直领域的公司,但彭博拥有一站式的数据服务平台将大量另类数据整合在这一平台上。「对于一些数据提供商来说,他们可能会面临缺乏客户的问题。」Francis 表示,「但是加入彭博平台以后,他们的数据可以被更多投资者发现,也许很快会变成热门产品了。」


情绪数据,一秒总结全文


彭博最为大众所知的或许还是新闻报道,其提供的权威性新闻评论及观点常常会成为市场的风向标。很多短线投资者会在新闻爆出后的数秒内进行判断并发出交易指令。如果让 AI 来直接判定一条新闻是否「值得交易」,或许可以为交易员争夺一些宝贵时间。


彭博已经使用自然语言处理技术读取自家新闻社记者们撰写的新闻内容,随后使用数学算法来计算情绪数据。另外,来自推特等社交媒体的信息也「尽在掌控中」。该数据产品称为「Event Driven Feed」(事件驱动数据流)。


在这方面机器确实比人要快。彭博采用了机器学习算法,每当新闻写好之后,我们就立即能够获得这个故事的评分。随后,彭博终端就会发出推送,实时告知客户。从记者写好一篇文章再到客户获得评分,在这期间耗费的时间不到一秒钟。


情绪数据是一种经过深度学习处理过的数据,如何解决「黑箱」问题呢?彭博认为可以通过使用数据样本进行回溯测试等方式,从数学上获得稳定的结果,解决人们的疑虑。


客户们对于这种新鲜事物还在探索和适应的过程中。「一些人对这种分析的可靠性表示满意——通过回溯测试以及不断训练新的数据进行投资;」Francis 表示,「有些时候客户对此不会满意,这取决于客户的类型和他们的投资方式。我们发现很多中国客户非常乐于尝试机器学习这样的新方法,以求获得更好的回报。而另外一些国家的投资者会相对保守,或许对冲基金会接受,但基金经理不会接受。」


有关英伟达的推特消息发出后,股价的波动情况。市场会在短时间内作出反应。(图片来自 Bloomberg)


在这其中最重要的是不同的交易策略,一些人走短线,一些人走长线。他们都可以通过数据获得自己所需的信息。对于那些交易速度非常快的人,比如一些对冲基金,当他们获得新闻报道的标题时,会很快将其转换为交易动作。有时在看到标题的一秒钟内,他们就会进行交易。


「目前全球 有 50 多家机构在使用 Event Driven Feed 产品,其中至少有五个客户正在使用中文推送流,」Francis 介绍道,「其中一些是中国公司。这是一个新的趋势,我们的业务重点正在从纽约和欧洲转向亚洲。」


新数据带来的收益


随着彭博新数据服务的发展,越来越多的金融机构开始将目光转向于数据平台。「很多客户会下载数据后进行测试,当找到信号之后将其转化为收益,如果行之有效,他们就会购买数据集。已经有一些客户开始购买这些数据了。」Francis 表示。


对于量化投资而言,使用最先进的技术才能带来最大收益。很多彭博数据的客户都在使用机器学习和人工智能技术来处理金融数据,以形成他们的投资策略。Gerard Francis 认为在彭博数据业务的客户中已有 80% 正在使用 AI 算法,而 20% 仍在使用传统的投资模型。


除了带来更多预期收益之外,人工智能和机器学习对于金融市场的影响方式有很多种。在风险投资领域有很多人正在使用 AI 算法进行风险回测,寻找压力区域。也有人在使用 AI 识别交易员的风险操作。人工智能会在金融领域里或许还有很多新类型的应用。


尽管机构不会直接披露通过技术获得的收益数据,但我们已可以看到人工智能进入金融行业的趋势了。在 20 年以前,很少有投资机构会去研究 AI,但随着深度学习的发展,今天我们可以看到大量金融公司正在研究人工智能。


Citadel 首席人工智能官邓力。一些对冲基金为了技术甚至招揽了著名 AI 科学家,2017 年 5 月,前微软首席人工智能科学家邓力宣布加盟对冲基金巨头 Citadel。2018 年 8 月,《终极算法》一书的作者,华盛顿大学教授 Pedro Domingos 也被 DE Shaw 签下。


如果去看看一些科技基金的回报率,如 Bridgewater 和 Renaissance Capital,你会发现它们拥有惊人的回报率,这正是量化技术的功劳。


在金融数据业务的赛道上,目前最大的公司是彭博和 Refinitiv(后者是 Blackstone 和汤森路透旗下金融品牌)。随着金融机构对数据数量、质量需求的提升和成本压力的增加,越来越多的机构倾向于减少数据供应商的数量,「他们期待从一家供应商那里获得尽可能丰富的数据和服务,这样可以帮助他们提高运营的效率,并且更经济。而彭博正是他们很好的选择。」Francis 对于彭博企业数据业务的未来充满信心。


彭博来到中国已有一段时间,这家公司与各类金融机构和监管部门都保持了密切的联系,从而获得丰富的金融数据,覆盖各资产类别和市场。随着中国市场的国际化,国内的金融机构正在逐渐开始使用新技术,而彭博也乐于将其全球经验分享给中国客户。


未来,人工智能将随着数据服务的发展而变革。「我们的世界将变得高度自动化。」Gerard Francis 表示,「我认为人们会通过大量数据 API 和数据交换互相连接——所有数据中心都在云端。云服务将承载应用程序,人们在云端直接消费并传递数据。」 



本文为机器之心原创,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
专知会员服务
80+阅读 · 2020年6月20日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
零样本图像识别综述论文
专知会员服务
57+阅读 · 2020年4月4日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
301+阅读 · 2019年12月23日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
【综述】智能医疗综述,48页论文详述医学AI最新进展
专知会员服务
69+阅读 · 2019年9月1日
2019年中国人工智能基础数据服务行业白皮书
艾瑞咨询
27+阅读 · 2019年9月16日
技术无罪?AI直接“脱掉”女性的衣服!
51CTO博客
8+阅读 · 2019年6月27日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
2018年4个需要关注的人工智能趋势
大数据技术
7+阅读 · 2018年1月30日
AI世界:2018年八大趋势
CSDN云计算
6+阅读 · 2017年10月20日
Arxiv
92+阅读 · 2020年2月28日
Adversarial Metric Attack for Person Re-identification
Arxiv
3+阅读 · 2018年3月5日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
11+阅读 · 2018年1月15日
VIP会员
相关VIP内容
专知会员服务
80+阅读 · 2020年6月20日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
零样本图像识别综述论文
专知会员服务
57+阅读 · 2020年4月4日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
301+阅读 · 2019年12月23日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
【综述】智能医疗综述,48页论文详述医学AI最新进展
专知会员服务
69+阅读 · 2019年9月1日
相关资讯
2019年中国人工智能基础数据服务行业白皮书
艾瑞咨询
27+阅读 · 2019年9月16日
技术无罪?AI直接“脱掉”女性的衣服!
51CTO博客
8+阅读 · 2019年6月27日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
2018年4个需要关注的人工智能趋势
大数据技术
7+阅读 · 2018年1月30日
AI世界:2018年八大趋势
CSDN云计算
6+阅读 · 2017年10月20日
Top
微信扫码咨询专知VIP会员