机器写作RPA市场:为何AI独角兽与互联网巨头纷纷加注?

2019 年 7 月 3 日 机器之能

语言是人与人交流的工具,也是网络用户与互联网连接的方式。在互联网时代信息爆炸的时代,互联网语言文本的处理需求迅速增长;同时,提升资讯生产速度、延展其覆盖面的需求也不断增加,机器协作人类进行文本理解和生成成为人工智能研究的核心方向。近十年来,机器写作以商业应用为目的,从规则、模板写作发展到了以神经网络模型为核心的智能写作,从辅助记者创作逐步走向自动化写作,应用场景也从模板化的资讯类数据报告,深入到分析报告、诗歌创作、长故事文本创作、广告营销文本写作等,并且商业化程度越来越高,市场影响力越来越大。


作者 | 李雯、樊晓芳


一、智能写作背景概述

1. 智能写作定义

写作主要有四要素:写作主体、写作客体、写作受体、写作载体,即作者、世界、读者、作品。

这四要素构成了写作系统。与人类写作不同的是,现阶段智能写作的写作内容是对人类描写的世界的复述,而不是直接的对世界的描写。

智能写作的创作主体是机器、算法,创作模式分为辅助创作和自动创作,现阶段的主要目的是解放人力到更富有创造性的工作上,在具体的任务上主要是自动摘要、文本聚合、结构化数据生成、看图说话、诗词对联写作等,也开始逐步涉及长文本故事创作。

2. 智能写作方法及流程

自然语言生成的文本生成类型从数据来源进行划分,又分为数据到文本、文本到文本、图像到文本的写作这三大类。不同的数据来源、不同的文本结构,又影响了机器写作文本生成的流程。

所以基于自然语言处理技术的发展,从文本生成的流程和结果来看,现阶段对机器写作的探索主要是三个类型:结构化数据创作、摘要式写作及半原创式写作。

3. 智能写作产品类型及功能

受限于技术发展,目前智能写作主要落地产品分为两种,一种为辅助写作,这种方式更易研发和商业化,能迅速满足用户需求;另一种是自动写作,相对而言技术难度更高,商业化程度较低。

二、智能写作产品技术方案及核心技术

三、智能写作产业及市场

1. 智能写作产业生态及产业链

自然语言处理和生成技术的突破,促使各大公司和团队在近十年来开始关注相关技术的商业应用,但智能写作的相关产品依赖于落地行所处业的生态状况。智能写作已经形成了一定的产业链条。

上游为数据和设备方,中游为辅助和自动创作产品及技术服务商,下游对接C端读者、创作者,和媒体、金融机构、政府机关、资讯平台等B端。目前智能写作市场玩家主要有四大类:

上市科技巨头:内部应用、技术研发为主,暂未实现商业化,重视办公、资讯、营销场景布局。

中小型技术公司:主要提供To B端的SaaS服务,初期多布局细分领域,而后逐步延伸应用行业。

传统媒体:以联合研发、内部应用模式为主,数据质量及读者粘性较好,暂未实现商业化。

新兴智能媒体平台:技术先进,数据量及读者群庞大,应用覆盖自动写作、辅助创作、平台运营等。

2. 智能写作潜在市场

Statista数据显示,2018 年,全球自然语言处理的市场规模达 5.8319 亿美元,到 2024 年将达到约 21 亿美元,智能写作相关技术具有广阔的市场空间。其中,对智能写作的需求最强、黏性最高的四个市场分别是内容资讯、金融财经分析、数字营销和行政办公。

四、智能写作主要应用场景与相关代表公司


五、代表机构案例

智搜Giiso:针对B端资讯机构提供技术服务,语义识别最高精度92.67%,单篇稿件最长2000字。具体提供三大解决方案:针对媒体的智媒(新一代智能融媒体平台)、针对内容营销行业的智书(智能内容生产车间)和面向B端技术团队的智讯(智能资讯机器人商店)。

字节跳动(Xiaomingbot):小明写稿机器人应用了文本生成算法、序列预测排序、文本摘要及视频理解等技术,可以自动生成多语言新闻资讯,还可以面向企业客户提供改写和生成广告文案服务。此外,小明还被用于公益事业,在短时间快速生成寻人文章、寻人短视频。

香侬科技:获亿级A轮投资,针对金融行业的B端机构和C端从业人员提供PDF解析、非结构化关键信息抽取服务、图像OCR、多语言翻译、舆情监控、智能文档审核、专业金融问答、智能报告生成等服务。其Glyce模型在 13 个中文 NLP 任务上达到了当前最佳性能。

阿里巴巴: 阿里发布的“AI智能文案”产品顺利通过了图灵测试,该产品结合淘宝、天猫的海量优质内容与自然语言算法,聚焦于商品文案,实现了三项核心能力:高度模拟多种风格的人类文案、自由定义字数、实时在线样本学习,其中短标题文案生产达到1秒20000条。

金山软件:目前全国政务系统中,金山 WPS 的覆盖率超过了50%,针对公文写作素材难找、写作耗时、人工校对易漏等难题,金山软件在智能模板匹配、智能图文排版、智能校对和智能素材推荐、长文件智能要点汇总与目录检索方面实现技术落地。

达观数据:为企业级客户提供文本智能审阅系统、文档审核、垂直搜索API和客户意见洞察等功能,曾为某全球知名会计事务所节省审核人力成本25%,辅助某银行提升工作效率,审计队伍从800人减少至600人。目前累计融资额超2亿元,刷新中国NLP领域的融资记录。

六、AI技术应用智能写作的局限性及趋势

技术研发局限

1. 机器难识别写作素材真假,易生产假新闻。

2. 缺乏对输出文本质量的客观、准确的评估标准与优化目标

3. 机器难理解复杂的语义,导致生成内容的语义易偏移。

4. 生成主观性强的文本时,易出现偏见语言和极端化观点。 

5. 难以为自动写作产品建立价值参照体系。 

6. 机器的情感分析、理解能力较弱。

7. 单个领域、单一体裁的机器写作模型难用于其他种类内容。

8. 难以实现针对不同用户的内容个性化 。

9. 智能写作文本主导市场将导致信息茧房和自动学习负循环。

10. 智能写作版权归属模糊。

11. 原创度低的改编式机器写作易侵权其他作者作品。

研发趋势

1. 大体量数据、非结构化数据、小样本数据处理能力不断提高。

2. 神经网络模型逐步替代规则写作及统计模型。

3. 计算机视觉相关技术逐步被应用到中文自然语言处理。

4. 机器翻译模式被逐步要用到智能写作的文本生成技术中。

5. 融媒体发展需求推动不同媒介生成技术的融合式研发。

6. 全自动写作在主题选取、内容生成时应用更多用户画像技术。

7. RPA或将成为降低素材搜集难度及文本管理成本的重要技术。

应用趋势

1. 从文本纠错到文本预测。

2. 从辅助创作到自动化写作。

3. 从短文本到故事性长文本生成。

4. 从数据、资讯类纪实文本到鉴赏性、营销性文本。

5. 从单向内容输出转变为交互式内容互动。

6. 从数字文字到图像、视频可视化发展。

特别鸣谢

深圳市智搜信息技术有限公司

达而观信息科技(上海)有限公司

北京香侬慧语科技有限责任公司

字节跳动、百度大脑

本文为智周系列报告核心版,相应深度版的推出计划将在后续公布,敬请大家关注。针对「AI智能写作」这一主题,有哪些方向或主题,你希望在报告深度版中读到更详细的阐述与分析,欢迎留言,这将成为我们制作报告深度版的重要参考。


关于「智周」系列报告


机器之心「智周」人工智能技术应用报告系列重点关注现有人工智能技术应用较成熟且应用潜力较大的正在进行智慧升级的传统行业及场景,逐行业、逐场景为产业用户高效而不失深度地呈现不同人工智能技术的产业落地现状、企业案例、技术应用趋势等。「智周」人工智能技术应用报告系列包含核心版深度版两个版本:


核心版浓缩精华分析内容至2页内,覆盖重要数据、分析结论及案例简述,以供使用者高效系统地了解人工智能技术在自身所关注产业内的潜在机会。


深度版在核心版的基础上,包含详尽的行业或场景痛点分析、技术解读、落地案例详解及资料附录等,以供有深度研究需求的使用者进行深入探究。



深度
Pro

理论详解 | 工程实践 | 产业分析 | 行研报告


机器之心最新上线深度内容栏目,汇总AI深度好文,详解理论、工程、产业与应用。这里的每一篇文章,都需要深度阅读15分钟。



今日深度推荐

医药产业中智能技术的应用现状及展望 | 智周核心板

工业制造领域机器视觉技术应用现状及展望 | 「智周」核心板



点击图片,进入小程序深度Pro栏目



PC点击阅读原文,访问官网

更适合深度阅读

www.jiqizhixin.com/insight



每日重要论文、教程、资讯、报告也不想错过?

点击订阅每日精选


登录查看更多
4

相关内容

在自然语言处理中,另外一个重要的应用领域,就是文本的自动撰写。关键词、关键短语、自动摘要提取都属于这个领域的一种应用。
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
240+阅读 · 2020年4月18日
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
41+阅读 · 2020年4月15日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
304+阅读 · 2019年12月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
医疗知识图谱构建与应用
专知会员服务
385+阅读 · 2019年9月25日
【数字化】数字化转型正在成为制造企业核心战略
产业智能官
34+阅读 · 2019年4月22日
1年融资超230亿!计算机视觉为何如此吸金?
剖析腾讯知文,智能问答机器人路在何方?
AI前线
12+阅读 · 2018年11月3日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
中央再批人工智能伪创新,90%以上AI都不靠谱
THU数据派
7+阅读 · 2017年12月6日
人脸识别独角兽之战
THU数据派
8+阅读 · 2017年9月28日
2017中国多媒体大会-智能媒体 创新未来
中国计算机学会
3+阅读 · 2017年8月21日
深度解读 | 为何众科技巨头都在抢滩语音识别技术?
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
Arxiv
6+阅读 · 2018年7月12日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关资讯
【数字化】数字化转型正在成为制造企业核心战略
产业智能官
34+阅读 · 2019年4月22日
1年融资超230亿!计算机视觉为何如此吸金?
剖析腾讯知文,智能问答机器人路在何方?
AI前线
12+阅读 · 2018年11月3日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
中央再批人工智能伪创新,90%以上AI都不靠谱
THU数据派
7+阅读 · 2017年12月6日
人脸识别独角兽之战
THU数据派
8+阅读 · 2017年9月28日
2017中国多媒体大会-智能媒体 创新未来
中国计算机学会
3+阅读 · 2017年8月21日
深度解读 | 为何众科技巨头都在抢滩语音识别技术?
相关论文
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
Arxiv
6+阅读 · 2018年7月12日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年4月24日
Top
微信扫码咨询专知VIP会员