百度NLP专栏
作者:百度NLP
2016 年,百度全面发力内容生态领域,借助人工智能 (AI)、自然语言处理 (NLP)、深度学习 (Deep Learning) 等技术和百万级别的用户标签,推出个性化信息资讯流,与此同时,百度战略级产品「百家号」2017 年预计将向内容生产者分成 100 亿,以此鼓励个人和机构入驻参与内容创作。
而在众多内容生产者之中,一位特殊的「作者」显得格外引人瞩目——那就是在去年上线的百度智能写作机器人(Writing-bots)。据了解,目前百度智能写作文章可涵盖社会、财经、娱乐等 15 个大类,并可实现体育新闻、热点新闻等多领域全机器创作。
图 1:百度智能写作机器人文章示例
而从目前写作的文章来看,百度智能写作机器人在语言组织、语法和逻辑处理方面都已具备了相当的能力,甚至可以熟练地使用专业术语对新闻事件进行分析,写作质量几乎可以贴近人类的水平。
那么,百度智能写作机器人究竟是如何写稿的?未来机器写作是否有望取代人类?带着对这位「神秘作者」的好奇,我们与百度智能机器写作团队展开了一次对话,试图揭开机器人写作背后的奥秘。
Q1. 为什么会想到让机器人写稿?百度智能写作机器人的研发背景是怎样的?
答:2016 年,百度确立了「搜索+信息流」双向智能适配的信息分发 2.0 模式,由于资讯流产品和百家号的迅速发展,用户资讯阅读需求呈现出了较大的增长,与此同时,我们发现,一些用户感兴趣的内容,比如彩票、股票、旅游等话题,却很少有资讯文章涉及,因而存在着大量资源的短缺,于是我们就希望结合百度自然语言处理、大数据分析、人工智能等技术优势,通过机器写作的方式,聚合全网信息和百度优质资源,快速生产文章满足用户的需求,实现用户兴趣点的快速(分钟级快讯)、高效(省时省力)、高覆盖(中长尾)满足和资讯内容的深度定制以及个性化推荐,从而在内容生态里面帮助生态自建。
Q2. 目前百度智能写作机器人可以写作哪些类型的文章?是否可以实现原创?
答:目前我们的智能写作机器人产出的文章主要有三种类型:速报类、知识类和资讯聚合类。速报类,如比赛信息、股讯快报等,对时效性要求比较高,需要瞬时将结果生成文章。知识类主要是科普类的文章,如教育(诗词、历史知识)、生活(菜谱,保健知识)、旅游等。知识类文章的数据内容主要来自百度的知识库和全网优质资源,通过对优质数据资源的组织聚合和计算推理,为用户提供更加丰富的知识和信息。而资讯聚合类是基于全网实时资讯数据,根据用户关注点,生成用户感兴趣的、以话题为中心的资讯文章,比如某一个电影热映,我们会对电影的主演、之前的作品等信息做一些扩展和盘点;对于热点事件,我们会对事件的发展过程和关键信息进行分析聚合,形成事件脉络,便于用户了解事件全貌等。这类文章是在现有的资讯信息基础上,重新智能聚合生成新的文章。
从技术方案上看,主要分为两类:
一类是基于结构化数据、知识库或优质资源直接生成的文章。速报和大部分知识类文章是基于这类技术方案。这类文章因为直接从数据通过分析聚合或知识推理生成原始稿件,因此可以说是原创。
另一类是在已有稿件的基础上通过内容分析聚合生成的新的文章。大部分资讯聚合类文章,如话题盘点、事件脉络、热门要闻回顾等都属于此类。因为是基于已有稿件内容创作新的稿件,因此可以看作是二次创作。当然,我们也可以在一篇文章的生成中结合上述两种技术,进行混合创作。
Q3. 百度智能写作在技术上是如何实现的,基本的创作流程是什么?
答:我们的智能写作整体是基于大数据分析、内容理解和自然语言生成等技术得以实现的,基本创作流程主要分为数据采集、数据分析、自动写稿、审核签发等环节。其中核心流程「自动写稿」部分通常还包括文档规划(document planning)、微观规划(micro-planning)和表层实现 (surface realization) 三个阶段,分别解决稿件写什么、怎么写以及如何润色呈现的问题。比如文档规划,需要确定写什么内容,采用什么结构来写,微观规划则更加细致化,具体要确定怎么来写每个段落、每个句子、每个标题以及内部的结构组织等。表层生成,则是对文章整体的润色和改写,比如如何调整文章格式、给文章配图等。
图 2:百度智能文章生成过程
Q4. 百度智能写作有哪些特点和优势?实际应用情况如何?
答:目前媒体报道的写作机器人大多面向体育、财经等特定领域,我们的智能写作文章类型更加多样,覆盖的领域更为广泛,并且可以实现个性化的推荐和订阅。总体来说,实际的用户需求、大规模数据资源,先进的技术积累,以及产品应用中的反馈迭代,形成了百度智能写作的独特价值和优势。
我们的智能写作的文章类型和话题源于实际的用户和产品需求。根据对资讯流产品内容分布和用户兴趣点分布的分析,我们确定了三类文章类型:速报类、知识类和资讯聚合类,分别用于改善产品中三类需求满足问题:高时效性需求,中长尾需求,和热点话题信息的高效获取需求。在具体话题的选择上,我们根据用户兴趣点分布确定话题覆盖优先级。目前百度智能写作的文章已经涵盖电影,美食、旅游、汽车、创业、房地产等 50 多个话题,涉及社会、财经、娱乐等 15 个领域。
百度在数据资源和人工智能技术方面的积累为智能机器写作的研发提供了有力支持。
在数据方面,除了海量的全网优质数据,百度拥有大量的自建高质量数据,包括百度阿拉丁(优质资源开放平台)、百度知道、百度百科、知识图谱等,不仅可以支持基于结构化数据的文章生成,还可以支持基于内容聚合方式的文章生成。百度阿拉丁的时效性结构化数据,如体育比赛、彩票、股票信息、恶劣天气预警等,是速报类文章生成的数据基础。百度百科、百度知道和知识图谱是知识类文章生成的重要数据来源。以百度百科中的城市百科为例,城市百科中包含了大部分城市的景点、美食、文化排行榜数据,这些数据与对应景点、美食的描述数据相结合就可以生成城市旅游、美食、文化的介绍文章。同时,基于海量的用户行为日志数据,可以准确地捕捉对这些内容感兴趣的用户,就可以实现生成内容的个性化推荐和满足。
在技术方面,百度在内容理解、语言生成、知识推理、机器学习等方面的技术积累,是智能机器写作的重要技术基础。以资讯聚合类文章生成为例: 首先,聚合类文章的话题选择和资讯内容获取是基于内容理解和用户理解技术。利用百度自建的关注点图谱(主题、实体、事件标签以及标签间的关系)和标签预测技术,我们为每篇资讯内容打上关注点标签,同时根据用户的搜索或阅读行为可以获得用户的关注点标签,即用户的兴趣点。这样就获得了用户感兴趣的话题,同时基于内容标签可以获得相关话题的资讯内容。其次,基于内容理解和生成技术对于同一话题的内容进行压缩和聚合,相关技术包括:事件分析,话题聚类,事件脉络抽取,自动摘要,标题生成、结构生成等,而机器学习和知识推理是这些技术实现的基本方法。图 3 以事件脉络型文章的生成为例说明聚合类文章写作中所依赖的主要技术。可以看到,百度深厚的技术积累为智能机器写作提供了有力的技术支撑。
图 3 事件脉络型文章生成主要技术
目前,我们的智能写作机器人在百家号和百度资讯流产品中已累计发文近万篇,阅读量超过千万。图 4 是智能机器人写作的新闻实例,包括通用领域新闻,生活新闻,体育新闻等。随着产品的应用,我们可以积累更多数据和用户反馈,不断实现技术的更新迭代。
图 4:百度智能机器人写作应用实例
Q5. 智能写作技术上最大的难点是什么?百度未来是否会尝试深度文章的撰写?
答: 人类作者在撰写文章时通常会对数据、内容和话题进行深入理解,并可以进行演绎、推理和联想,从而完成更深入的报道,充分表达自己的观点和立场。而相比之下,机器则更长于数据分析和规范的写作,在自然语言深入理解,以及让稿件具有观点和立场等方面还有很大的提升空间。
在深度文章写作方面,我们也在做一些探索和尝试,比如情感分析等研究,力图让机器写作更贴近人类,甚至希望有一天它能有自己的立场和观点,更加人性化。但就目前而言,我们的智能写作机器人会更聚焦用户需求,偏重数据分析和客观文章的撰写,致力于帮助内容创作者减少重复劳动,节省更多精力去撰写更加优质的深度内容。
Q6. 百度智能写作机器人背后的团队构成是怎样的?
答:我们的智能机器写作研发团队成员来自百度阿拉丁团队、NLP 团队、知识图谱团队、互联网数据研发团队以及质量保证团队等不同部门。研发初期主要通过小规模数据样本和简单的人工处理实现技术探索和原型设计,随着技术的进展和用户需求的增长,产品、技术、资源、平台等多个团队展开联动,着手推进更加成熟的产品落地。
Q7. 在内容创业迎来了新风口的当下,百度推出了战略级产品百家号,并以百亿分成鼓励内容原创,如何看待智能写作机器人与内容生产者的关系?百度智能写作下一步的发展目标是什么?
答:我们认为智能写作机器人与内容生产者之间主要有两层关系:一是「代替」,将作者的重复性、规范性写作和客观数据聚合类劳动用机器进行替代,让作者可以更好的投入到深度文章的创作。二是「服务」,人工智能可以通过大数据帮助编写深度文章的作者,进行语料、素材的高效率搜集与初级加工工作,同时也可以基于行业的深度结构化数据完成基础数据分析及文章生成工作,服务于内容生产者,提升他们的写作效率。而这也正是我们智能写作的未来的发展目标——人机混合编辑。
Q8. 百度智能写作机器人与人类有哪些差异?未来是否会完全取代人类?
答:智能写作机器人和人类相比可以说是各有所长,智能写作首先肯定是速度快,可以在短时间内搜集大量数据和信息完成创作,其次是有特别强的数据分析、收集能力。人一天看一百篇文章就很多了,但是机器则可以不知疲倦不停学习,随时随地收集和生产内容。尽管人类写作相对机器而言,时间较长,成本也较高,但人可以对一个事件进行演绎、联想,从更加丰富的层面上进行创作,表达自己的观点和立场,因而在深度撰写方面具有难以替代的优势,因此在可预见的未来,我们认为机器完全取代人类的可能性不大,智能写作机器人对于能够深耕文章内容、有独立观点见解的内容创作者而言,不仅不会成为「抢饭碗」的替代者,反而会成为帮助作者生产优质内容的贴心助理。
百度NLP专栏扩展阅读:
「百度NLP」专栏主要关注百度自然语言处理技术发展进程,报道前沿资讯和动态,分享技术专家的行业解读与深度思考。
©本文为机器之心专栏,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者/实习生):hr@jiqizhixin.com
投稿或寻求报道:editor@jiqizhixin.com
广告&商务合作:bd@jiqizhixin.com