【数据猿导读】 据此AI系统的算法和发表的论文介绍,系统过分析维基百科中的讨论页面,收集了大量的讨论板块中大量的网友讨论数据建立预测模型,识别开始谈话中具有什么样特征的句子会导致谈话会失控甚至是攻击行为
作者 | 傅志华
官网 | www.datayuan.cn
微信公众号ID | datayuancn
近日,Google旗下的科技孵化器Jigsaw、康奈尔大学和维基媒体基金会合作,联合开发了一个预测谈话走向的AI系统。这个系统能从一开始就能预测谈话是否会失控,想在对话能被挽救的情况下,尽早预防不必要的争吵甚至是攻击行为。
这个AI系统的算法和论文发表在Association for Computational Linguistics conference收录的论文《Conversations Gone Awry: Detecting Early Signs of Conversational Failure》中。论文的作者Lucas Dixon、Nithum Thain、YiqingHua和Dario Taraborelli通过分析维基百科中的讨论页面,收集了大量的讨论板块中大量的网友讨论数据(我们可以称之为帖子),利用自然语言处理技术进行语义分析,并收集人类标注的标签作为数据集作为训练数据,建立预测模型,识别开始谈话中,具有什么样特征的句子会导致谈话会失控甚至是攻击行为(论文中提到:In this work we aim to computationally capture linguistic cues that predict a conversation’s future health)。
论文中提到的例子是是关于“Dyatlov Pass Incident” 的两组维基百科的网友讨论(Dyatlov事件是指1959年2月2日晚发生在乌拉尔山脉北部的9位滑雪登山者离奇死亡的事件。这个团队的队长叫做Dyatlov,他们在登“死亡之山”的东脊时发生事故,10人9死)。其中A1和A2为一组(见下图),分别为两位不同的网友;B1和B2为一组,也是两位不同的网友。A1开始交流,A2用另一个问题反问。相反,B1更温和,用“似乎”提出了意见,B2实际上解决问题,而不是搪塞。这两组讨论中有一组讨论导致对话失控,一个对话者开始进行个人攻击。
一些保持礼貌的谈话指标包括任何一位幼儿园老师都会认可的基本礼貌如“谢谢”,用礼貌的问候开头,并用语言表达一种合作的愿望。在这些谈话中,人们更倾向于用自己的观点来表达他们的观点,比如“我认为”,这似乎表明他们的想法并不一定是最终的结论。
另一方面,直接提问或用“你”这个词开头的对话更有可能使得谈话产生差异甚至是争执,如A2的说话方式。研究人员在论文中提到:“这种影响与我们的直觉相一致,即直接性暗示了来自对话发起人的潜在敌意,也许加强了有争议的强制的有力性(This effect coheres with our intuition that directness signals some latent hostility from the conversation’s initiator, and perhaps reinforces the forcefulness of contentious impositions)”。
以上只是数据集中的一个样本的简要分析。以上过程我们可以通过自然语言处理技术,开始分析这些对话中“最初的评论和回答”的关键词有怎样的特征,并进一步通过机器学习算法构建结果(最终是否有敌意)和“最初的评论”的关联关系,从而建立通过“最初评论”的特征预测对话变成敌意的可能性。
论文的算法结果显示,一台经过训练以识别这些特征的计算机,能够根据最初的评论和第一次回答,以61.6%的准确率预测产生敌意的对话。而人类在72%的时间内是正确的。该论文的机器预测的准确率比人类要低,但算法还有很大的提升空间。这个结果目前还是可以测试使用的。而且机器可以不厌其烦的24小时无休的判断对话是否会恶化,在恰当的时机可以做出一定的提醒和友情干预,而人类则不可能持续大规模的做此类监测。
在中国,这个对话预测模型也许可用于有管理员的论坛和微信群。以微信群为例,如果微信群主赋予了这个对话预测模型的能力,群主可以快速的提前预警群里可能要变坏的讨论。
更进一步的,自然语言处理技术(NLP)和机器学习(Machine Learning)技术是通用的,我们也可以预测更多,比如预测一开始对话中出现什么特征的对话的用户,更有可能买某个商品。如果这个用户及时的被发现,我们的版主或者群主可以接收到及时的提醒,群主便可以及时的把用户喜好的商品或者服务的促销信息发给该用户。甚至,整个过程中,在微信允许的情况下,没有人介入,全通过机器自动推荐,这就是先进的微信群智能营销了。当然还有更多的应用,就看您的脑洞了。
参考文献:
Conversations Gone Awry: Detecting Early Signs of Conversational Failure. Lucas Dixon,Nithum Thain,YiqingHua and Dario Taraborelli.
论文下载:
https://arxiv.org/pdf/1805.05345.pdf
关于作者
傅志华,数据猿专栏专家,中国信息协会大数据分会理事,北京航空航天大学软件学院大数据专业特聘教授,中科院管理学院MBA企业导师、首都经贸大学统计学兼职教授、研究生导师。曾为360公司大数据中心总经理以及腾讯社交网络事业群数据中心总监以及腾讯公司数据协会会长,在腾讯前为互联网数据分析公司DCCI互联网数据中心副总裁。目前在某集团企业负责人工智能研究院。
6月12日,数字资产投资峰会:金融科技区块链支持可持续发展-北京站即将开始,期待我们的见面👆