如果大数据学会了多门外语,有什么用?

2017 年 7 月 28 日 虎嗅网 译见

赞助



“大数据”三个字想必大家并不陌生。
 
一般来说,2013年被定义为“大数据元年”,如今4年过去,大数据逐渐从相对空洞的商业术语中脱离出来深入到各个领域。近期如火如荼俨然“红海”的共享单车市场,人们在享受出行方式的改变背后,公司之间的竞争从投放量亦慢慢走向数据的博弈。如同一门综合性学科一般,单纯的数据堆砌早已没有意义,如何挖掘、分析与应用,才可能拥有数据的价值;而此时在算法趋同的趋势下,数据的质量与规模则成为兵家必争之地。

 
上面的说法倒是也新鲜,但是大家可能忽略的一个问题是:“大数据总是站在更大数据的阴影之下。”
 
在一般理解里,大数据前面可能还缺“中文”二字。也就是说,日常所谓的大数据通常情况下指的都是中文大数据。
 
有这样一组数字:当下全球互联网用户已超过30亿,占全球总人口的40%。然而在如此庞大的用户规模中,却有接近90%以上的网民不具备母语以外的语言技能,并且其中59.4%以上的用户具有跨语言、交友、获取新闻信息等需求。
 
因此,尽管大数据产业已步入多元化、垂直化发展阶段,但目前绝大多数大数据还囿于单一语种,而那些散落在全球范围内的多语种价值尚沉睡海底。这种需求等差,使得跨语言大数据的应用价值日显关键,小到商业数据分析,大到国与国之间的互通合作,跨越了语言符号的大数据已不容小觑。
 
跨语言大数据的差异化价值

语言是一切沟通的基础,其所蕴含的信息量十分庞大,而通过对语料的收集、处理与分析,则能从数据源头抓取跨语言大数据的价值,打破单一语种的局限,以可视化、宏观化的方式满足各行各业之于数据的需求。
 


“在网络使用者正常的关键词搜索过程中,无论搜索结果是多少条,人们的阅读习惯常常是几条或者几十条,且语言单一。译见大数据要做的是不仅仅要去除掉所有语言标签,让用户能够搜到全球的相关信息,更要把搜索到的所有几十万条、几百万条数据都能够定性定量地分析。” 中译语通CEO于洋曾在采访中表示。


 
中译语通以翻译起家,“在现有的语种以及诸多垂直领域已经具备了正面PK谷歌翻译的能力”,而去年7月份发布的大数据平台“译见”,则整合了机器翻译、语义分析、智能采编、数据挖掘等十余种自然语言处理、大数据和人工智能技术,在跨语言大数据领域深耕。
 
其不仅在各大行业展会、学术交流中崭露头角,倡导跨语言大数据共融理念;更是与国际优秀企业签约合作,与顶尖人工智能专家分享在AI语言科技所取得的研发成果。

跨语言大数据与行业如何融合?7月29日,中译语通将举办“幻化·2017中译语通战略发布会”,届时将发布与跨语言大数据相关的重磅新品,同时还将举行多场高峰论坛,就人工智能、大数据、语言科技等话题与业内专家、学者进行探讨。
 
 


登录查看更多
0

相关内容

从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。
专知会员服务
107+阅读 · 2020年6月12日
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
78+阅读 · 2020年3月4日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
199+阅读 · 2020年2月7日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
【中科大徐童】多模态语义理解与关联
专知会员服务
81+阅读 · 2019年12月7日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
43+阅读 · 2019年11月20日
连载 | 知识图谱发展报告 2018 -- 前言
开放知识图谱
18+阅读 · 2018年10月7日
中文NLP用什么?中文自然语言处理的完整机器处理流程
人工智能头条
61+阅读 · 2018年9月5日
如果聊天机器人想要成功,还需要这个……
如何完成一篇有效的英文写作
中科院物理所
6+阅读 · 2018年4月13日
这是机器学习算法工程师最好的时代!
机器学习算法与Python学习
4+阅读 · 2018年3月12日
【入门】数据分析六部曲
36大数据
17+阅读 · 2017年12月6日
2017全球大数据产业八领域典型公司盘点分析
人工智能学家
3+阅读 · 2017年12月6日
如何做个小冰那样成功的聊天机器人
七月在线实验室
5+阅读 · 2017年12月4日
如何在NLP领域干成第一件事?
AI研习社
13+阅读 · 2017年11月26日
【人工智能】人工智能5大商业模式
产业智能官
15+阅读 · 2017年10月16日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
8+阅读 · 2018年4月12日
VIP会员
相关VIP内容
专知会员服务
107+阅读 · 2020年6月12日
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
78+阅读 · 2020年3月4日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
199+阅读 · 2020年2月7日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
【中科大徐童】多模态语义理解与关联
专知会员服务
81+阅读 · 2019年12月7日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
43+阅读 · 2019年11月20日
相关资讯
连载 | 知识图谱发展报告 2018 -- 前言
开放知识图谱
18+阅读 · 2018年10月7日
中文NLP用什么?中文自然语言处理的完整机器处理流程
人工智能头条
61+阅读 · 2018年9月5日
如果聊天机器人想要成功,还需要这个……
如何完成一篇有效的英文写作
中科院物理所
6+阅读 · 2018年4月13日
这是机器学习算法工程师最好的时代!
机器学习算法与Python学习
4+阅读 · 2018年3月12日
【入门】数据分析六部曲
36大数据
17+阅读 · 2017年12月6日
2017全球大数据产业八领域典型公司盘点分析
人工智能学家
3+阅读 · 2017年12月6日
如何做个小冰那样成功的聊天机器人
七月在线实验室
5+阅读 · 2017年12月4日
如何在NLP领域干成第一件事?
AI研习社
13+阅读 · 2017年11月26日
【人工智能】人工智能5大商业模式
产业智能官
15+阅读 · 2017年10月16日
Top
微信扫码咨询专知VIP会员