【知识图谱】知识可视化,连接和探究知识之间的联系!

2017 年 12 月 8 日 产业智能官

本文转载自公众号:东湖大数据交易中心。




大数据百人会线上沙龙  第八期

3月1日晚八点,大数据百人会沙龙第八期主讲嘉宾——北京知珠传媒科技有限公司CEO郝庆一先生,分享他对可视化的理解,以及连接知识、探究知识之间的关系。


1
可视化



很高兴有机会能与大家交流,今晚想聊三块内容:可视化以及可视分析、Quid简单介绍以及我们团队目前在可视方向所做的简单尝试。


我们可以把可视化理解成用一个映射连接两个集合,一个集合是数据与信息,另一个集合是可视化的几个元素,包括形状、位置、颜色、大小等等,当把数据信息与可视化元素两个集合用一个映射联系起来,这就是可视化的构建过程。


如果从形象到抽象这个维度上对于可视化做一个划分,一端是形象代表性的是科学可视化,其中是流场可视化、科学可视化等等,科研人员在研究过程中面对大量的流场数据和生物医学数据,没有办法形成形象的认知,而可视化能够通过视觉表达,把流场数据、生物数据形象的表达出来,帮助科研人员在科研过程中能够更好的认知与探索。

这四张图是最具代表性的信息图:拿破仑东征图、伦敦地铁图、最早的饼状图、疫情与水源的分布图,这些可视化图意义明确、效果明显,所以被誉为经典案例。另外一端是抽象,例如思维导图、知识地图都属于这端,他们将数据与信息抽象对应于点和线,利用相对位置、大小、颜色等抽象的视觉元素进行信息和数据的表达分析。


2
可视化分析


可视分析可以从这几个方面来理解:


第一是数据方面,可视分析主要帮助用户掌握的数据是海量、动态、模糊、甚至相互冲突的,首先数据有些是结构化的,有的是半结构化的,有的甚至是非结构化的,数据还有不同的来源,有文献、专利、社会网络、新闻报道等。那么怎么让用户去把握这些数据,进而对数据进行探索与发现是可视分析系统需要解决的问题。


第二是可视分析的目的是什么,我们希望通过可视分析系统知道我们不知道的,然后同时发现我们不知道我们不知道的。


第三点是实时性,要达到分析目的就需要在数据层面上、分析层面上、展现层面上做到及时反馈用户的意图。


更进一步理解可视分析,在很多情况下人们试图去理解周边的事物,大到投资决策,小到购买一部数码相机,这都是一种信息行为,人们需要对周围的信息进行收集和整理、综合评估,再根据先验的知识将收集的信息重新构建新的知识来支持决策,那么用可视化的方法,将整个过程构建起来,让用户进行数据收集整理,用多种方法进行分析,再将结果可视化的呈现出来,随着用户不断的去迭代,最终有新的发现来支持决策,同时这个过程也是意义构建的过程。


当然,这个过程当中最具挑战性的是不确定性,首先是数据的不确定性,因为在探寻一个新问题的时候,你不知道要收集多少数据才算够,也不知道收集来的数据到底是什么样的质量;其次是分析方法的不确定性,因为你不知道用什么样的分析方法才能得到想要的结果;最后是结果的不确定性,你用这些不确定的数据、不确定的方法显然是不能得到一个确定的答案,所以说这是一个不断迭代的循环,是一个不断探索发现的过程,而不是给出一个答案。



我们需要不断提高用户的自由度才能应对这个不确定性,包括数据的自由度、分析方法的自由度、展示和交互的自由度。一个可视分析系统最终的目的是帮助人们进行信息的认知,其实从这个角度上我们也可以认为这算是认知计算的范畴。



这是曹老师对于文本可视化的一个架构总结,数据从非结构化到结构化是一个重点,怎么样让用户在分析的过程中能够实时的通过界面与数据与分析展示方法,进行不断的互动。 



左上角的是360和北大袁晓如老师构建的一个手机基站的分析系统,分析的数据包括手机基站中发送的文本信息、活跃程度、地理位置信息和时间等,他们构建这个系统是为了把数据和人的经验结合起来然后用来发现那些发送垃圾短信的伪基站;右上角是一个交通数据的系统,这个系统把交通流量、位置、信息、时间结合在一起,让用户多维度去发现这些数据;左下角是Quid,它帮助用户掌握科技前沿与趋势;右下角是谷歌的机器学习平台的多维数据的可视分析系统,用来对机器学习过程和结果进行展示和分析。


我们现在面临的信息环境是各种新闻报道、用户评论、深度分析报告、论文、专利……各种来源的数据、各种格式的数据、各种维度的数据很碎片化的信息环境,但我们可以通过可视分析帮助大家更高效率的认知爆炸信息。


3
“三个世界”理论


这是波普尔的三个世界理论:物质世界、人的精神世界和客观世界,人的精神世界就是你的思想、你的情感,理性和非理性,人的精神世界作用于物质世界形成客观知识世界,论文、专利、新闻报道、评论等等这些碎片信息都是属于第三世界,我们希望能够更好的掌握第三世界,更进一步认识改变物质世界。


首要做的是把这些非结构化数据通过一步步迭代变成干净数据、实体数据、图谱数据乃至加入语义,然后运用高阶科学例如社会计算的一些方法等等,让人们更好的认知、探索和发现,要实现这个目的只能通过人和机器结合的途径。


不同领域对于知识表示、知识表现的理解,左上角认知心理学研究的个体在心理和生理方面与知识的相互作用,最下面的是教育技术领域的知识可视化,思维导图、概念图或者知识地图都是属于这个领域,研究的是人和人之间利用形象化的知识表现促进知识流动,右上角是计算机领域的知识表示,研究的是人们怎么让机器理解知识。


其实教育技术领域的知识表示是可视化的部分,计算机领域的知识表示的数据部分,我们将数据信息知识抽象为实体,以及实体之间的关系然后对应于抽象的视觉元素,构建一套可视分析系统,可视分析这端面向人,关联数据面向机器,通过构造一个人机结合的系统帮助人们分析认知世界,从而更好的理解和影响物质世界。


4
关于Quid



美国的初创公司Quid成立于2010年,2015年进行了D轮融资,媒体称这家公司是量化分析公司,我想是他们是把无法量化的文本信息或者碎片化的信息量化出来了,Quid从文本到结构化数据再到可视化的过程,把非结构化数据进行一定程度的结构化然后加上分析方法再到可视化一条线贯穿下来。


他们的主要数据源包括新闻、社交网络的信息、公司信息、专利、论文以及用户评论等等这些文本信息,他们把这些文本信息中涉及到的源数据都抽取出来,例如新闻数据会把标题、来源、时间、地点、分享数量等等抽取出来用以后面的分析。


抽取出来后将碎片化信息构建体系,进行聚类和可视化给用户全局的把握,然后再提供各类工具让用户基于数据与分析方法做更多的探索和发现。


 

Quid在线视频领域公司地图简单分析,这个复杂网络图,图中每个节点代表一个公司,计算公司之间的相似度,根据相似度建立节点与节点的链接构建起复杂网络,进行布局与聚类得到这个图,图中绝对位置不重要,重要的是点和点之间的相对位置,如果一些点聚集在一起证明他们的相似度比较高,聚类和聚类之间我们用不同颜色进行表示,节点大小用我们计算到的估计的公司市值来代表。


进入quid首先是一个搜索页面,可以针对公司、新闻、专利等内容进行搜索分析。这次搜索的对象是在线视频公司。检索在线视频、流视频、在线TV、移动TV、交互式网络电视、内容分发这些标签,总共得到836条结果。选中所有公司,点击右上方蓝色的可视化按钮。即可进入分析工程,界面的左侧有一些选项可以根据时间、市值进行筛选。然后得到在线视频领域的公司相似度图谱,在这个页面中的操作面板可以对网络节点、连线的指标进行操作,包括节点代表的含义,颜色,大小,连线代表的含义都是可以调节的。信息面板主要显示公司数量、所有公司接受的投资总额,投资中位数,主要的投资并购、投资者等关键信息。


点击某一节点可以查看公司的相关信息,比如公司名称、业务描述、关键词、公司成立时间、接受的投资、公司所在地、公司类型、投资者等等。用户根据经验将划分出的很多聚类自定义合并为三类:数字媒体、基础设施、营销。


用户还可以在右上角的搜索框搜索Google和Comcast投资的不同的创业公司,可以看到Google活跃在广告和数字媒体领域,Comcast聚焦在基础设施领域。用户可以直接将这些分析结果导出成图片格式放在PPT里面。以上就是Quid通过分析得到的图片导入到的PPT。


系统还可以将相同的聚类划分的公司结合成一个节点,每一个节点代表一个细分领域,节点的标签是细领域的名称。这里同样可以把分析节点导出成图片。该系统可以按照细分领域进行统计。散点图颜色代表细分领域,横轴为公司成立时间的中位数,纵轴为收到的投资总额,节点大小代表细分领域的公司数量,可以看出基础设施公司为新的应用提供了基础,在早期获得了大量投资,从2006年起推动媒体和营销公司然后开始高速发展,基础设施是先导,获取了基本的投资需求之后然后是营销、社交媒体。


5
关于知珠传媒

我们将公司、新闻、专利、文献这些公开信息爬去下来,然后根据实体、文档、事件、关系和属性进行结构化,然后让用户基于可是分析系统进行探索和发现。用户可以通过不同的数据,不同的方法去发现新的东西,然后再根据结论反馈到数据和方法上进行不断迭代。


这是我们初步总结的可能有用的统计方法,我们目前正在把它实现出来,放在前端展示,用户就可以采用这些方法对数据进行探索。


我们根据范式理论发展让用户更好掌握趋势的方法。“范式”大家可以简单理解成框架或者体系,也就是在大家认同的框架下对一些现象进行解释、研究、应用、开展经济活动。不仅科学有范式,技术也有范式,技术经济也有范式,这些都是一脉相承的。


表格里是未来导向、技术分析的一些方法,包括引言分析、专利分析的具体应用,可以对科学与技术范式的转移进行描述。我们希望结合行业数据发展出更多的方法对技术经济范式进行描述、或是预测。


我们目前处于技术经济范式转移的时期,从两个现象可以印证:1.从2015年到现在,大量的公司合并或是被收购;2.风险资本出海,技术经济范式在本国发展到一定程度是会向外扩散的,这也就是风险资本出海的本质。



这是我们构建的金融创业公司的相似度图谱,我们根据一千多家金融创业公司的标签去计算他们的相似度,构成一个复杂网络,然后对它进行布局和聚类划分。在这里我们用算法把细分领域直接划分出来。


如果把投资公司也考虑到金融领域来,我们就可以构建创业公司和投资公司的投融关系图谱。图谱里面红色是创业公司,绿色是投资公司。他们以投融资关系构建成网络。投融资网络是根据时间不断变化生长的,我们希望能在变化生长中有一些发现,于是我们做了一个简单的尝试,在网络的演化中我们计算了每个节点在不同时间中的重要程度,然后进行排序。



这个是投资公司在网络演化中重要性程度的排名变化,它能反应出某些投资公司在这个领域的关注程度。这张图完全是用Excel和线条拼接出来的。在做可视化的过程中,我们有数据,有分析目的,可以先做一些草图然后去设想呈现方式。我们找到了一个适合做排名可视化的模板,现在我们根据这张图去做排名可视化。这样大家就可以在前端看到更好的效果。

最后给大家介绍四本书:第一本是复杂性科学的入门读物,后面三本分别是在讲科学范式,技术范式和技术经济范式。最后一本书在宏观角度上讲金融和产业资本在技术范式不断变化的过程中是怎样相互互动的,我认为对投资和创业都有一定启发。


  Q&A  


Q第张图中实体的关系、属性是如何建立的?

郝:关于实体与实体的关系如何得到,这需要分情况:1.如果爬去的数据是结构化的,比如说在网页上的呈现就是一张表,我们爬下它的数据就是结构化的。2.如果是文本数据,半结构化或者非结构化的数据,可能会需要用到自然语言处理中的命令实体识别,或者关系抽取。


当然我们现在爬去的数据大多都是结构化或者半结构化的,因为实体识别和关系抽取还没有办法解决所有的问题。


Q:可视化分析有什么工具吗?


郝:说到工具,其实是把实体或者关系抽取出来,或者是去做情感识别,这些是有一些API可以提供的。比如说:玻森数据、腾讯文治提供的服务可以解决一部分问题。


Q之前有看到NLPIR在线系统 (语义分析系统)和您讲的有什么区别?从知识图谱上看,关键词提取是一样的?


郝:我想应该这样去理解这个区别。我们现在的系统是构建给分析师用的,比如行业分析师。语义分析系统显然不是给分析师用的。然后你讲的关键词提取,是不是就是把实体提取出来,如果是这样的话,那就都是是一样的,都是把半结构化数据或者非结构化数据把它结构化,甚至加上一些语义变成知识图谱,这些东西不管是你提到的语义分析系统还是我们的系统中这都是一样的。







如何成为一名对话系统工程师


                                                                       


作者 | 吴金龙

责编 | 何永灿


对话系统(对话机器人)本质上是通过机器学习和人工智能等技术让机器理解人的语言。它包含了诸多学科方法的融合使用,是人工智能领域的一个技术集中演练营。图1给出了对话系统开发中涉及到的主要技术。




对话系统技能进阶之路



图1给出的诸多对话系统相关技术,从哪些渠道可以了解到呢?下面逐步给出说明。


图1 对话系统技能树

数学

矩阵计算主要研究单个矩阵或多个矩阵相互作用时的一些性质。机器学习的各种模型都大量涉及矩阵相关性质,比如PCA其实是在计算特征向量,MF其实是在模拟SVD计算奇异值向量。人工智能领域的很多工具都是以矩阵语言来编程的,比如主流的深度学习框架,如Tensorflow、PyTorch等无一例外。矩阵计算有很多教科书,找本难度适合自己的看看即可。如果想较深入理解,强烈推荐《Linear Algebra Done Right》这本书。

概率统计是机器学习的基础。常用的几个概率统计概念:随机变量、离散随机变量、连续随机变量、概率密度/分布(二项式分布、多项式分布、高斯分布、指指数族分布)、条件概率密度/分布、先验密度/分布、后验密度/分布、最大似然估计、最大后验估计。简单了解的话可以去翻翻经典的机器学习教材,比如《Pattern Recognition and Machine Learning》的前两章,《Machine Learning: A Probabilistic Perspective》的前两章。系统学习的话可以找本大学里概率统计里的教材。

最优化方法被广泛用于机器学习模型的训练。机器学习中常见的几个最优化概念:凸/非凸函数、梯度下降、随机梯度下降、原始对偶问题。一般机器学习教材或者课程都会讲一点最优化的知识,比如Andrew Ng机器学习课程中Zico Kolter讲的《Convex Optimization Overview》。当然要想系统了解,最好的方法就是看Boyd的《Convex Optimization》书,以及对应的PPT(https://web.stanford.edu/~boyd/cvxbook/)和课程(https://see.stanford.edu/Course/EE364A,https://see.stanford.edu/Course/EE364B)。喜欢看代码的同学也可以看看开源机器学习项目中涉及到的优化方法,例如Liblinear、LibSVM、Tensorflow就是不错的选择。

常用的一些数学计算Python包:

  • NumPy:用于张量计算的科学计算包

  • SciPy:专为科学和工程设计的数学计算工具包

  • Matplotlib:画图、可视化包

机器学习和深度学习

Andrew Ng的“Machine Learning”课程依旧是机器学习领域的入门神器。不要小瞧所谓的入门,真把这里面的知识理解透,完全可以去应聘算法工程师职位了。推荐几本公认的好教材:Hastie等人的《The Elements of Statistical Learning》,Bishop的《Pattern Recognition and Machine Learning》,Murphy的《Machine Learning: A Probabilistic Perspective》,以及周志华的西瓜书《机器学习》。深度学习资料推荐Yoshua Bengio等人的《Deep Learning》,以及Tensorflow的官方教程。

常用的一些工具:

  • scikit-learn:包含各种机器学习模型的Python包

  • Liblinear:包含线性模型的多种高效训练方法

  • LibSVM:包含各种SVM的多种高效训练方法

  • Tensorflow:Google的深度学习框架

  • PyTorch:Facebook的深度学习框架

  • Keras: 高层的深度学习使用框架

  • Caffe: 老牌深度学习框架

自然语言处理

很多大学都有NLP相关的研究团队,比如斯坦福NLP组,以及国内的哈工大SCIR实验室等。这些团队的动态值得关注。

NLP相关的资料网上随处可见,课程推荐斯坦福的“CS224n: Natural Language Processing with Deep Learning”,书推荐Manning的《Foundations of Statistical Natural Language Processing》(中文版叫《统计自然语言处理基础》)。

信息检索方面,推荐Manning的经典书《Introduction to Information Retrieval》(王斌老师翻译的中文版《信息检索导论》),以及斯坦福课程“CS 276: Information Retrieval and Web Search”。

常用的一些工具:

  • Jieba: 中文分词和词性标注Python包

  • CoreNLP: 斯坦福的NLP工具(Java)

  • NLTK: 自然语言工具包

  • TextGrocery:高效的短文本分类工具(注:只适用于 Python2)

  • LTP: 哈工大的中文自然语言处理工具

  • Gensim:文本分析工具,包含了多种主题模型

  • Word2vec: 高效的词表示学习工具

  • GloVe:斯坦福的词表示学习工具

  • Fasttext : 高效的词表示学习和句子分类库

  • FuzzyWuzzy: 计算文本之间相似度的工具

  • CRF++: 轻量级条件随机场库(C++)

  • Elasticsearch: 开源搜索引擎

对话机器人

对话系统针对用户不同类型的问题,在技术上会使用不同的框架。下面介绍几种不同类型的对话机器人。

对话机器人创建平台

如果你只是想把一个功能较简单的对话机器人(Bot)应用于自己的产品,Bot创建平台是最好的选择。Bot创建平台帮助没有人工智能技术积累的用户和企业快速创建对话机器人,国外比较典型的Bot创建平台有Facebook的Wit.ai和Google的Dialogflow(前身为Api.ai),国内也有不少创业团队在做这方面的事,比如一个AI、知麻、如意等。

检索型单轮对话机器人

检索型单轮机器人(FQA-Bot)涉及到的技术和信息检索类似,流程图2所示。


图2 FAQ-Bot流程图

因为query和候选答案包含的词都很少,所以会利用同义词和复述等技术对query和候选答案进行扩展和改写。词表示工具Word2vec、GloVe、Fasttext等可以获得每个词的向量表示,然后使用这些词向量计算每对词之间的相似性,获得同义词候选集。当然同义词也可以通过已经存在的结构化知识源如WordNet、HowNet等获得。复述可以使用一些半监督方法如DIRT在单语语料上进行构建,也可以使用双语语料进行构建。PPDB网站包含了很多从双语语料构建出来的复述数据集。

知识图谱型机器人

知识图谱型机器人(KG-Bot,也称为问答系统),利用知识图谱进行推理并回答一些事实型问题。知识图谱通常把知识表示成三元组—— (主语、关系、宾语) ,其中关系表示主语和宾语之间存在的某种关系。

构建通用的知识图谱非常困难,不建议从0开始构建。我们可以直接使用一些公开的通用知识图谱,如YAGO、DBpedia、CN-DBpedia、Freebase等。特定领域知识图谱的构建可参考“知识图谱技术原理介绍”( http://suanfazu.com/t/topic/13105),“最全知识图谱综述#1: 概念以及构建技术”( https://mp.weixin.qq.com/s/aFjZ3mKcJGszHKtMcO2zFQ)等文章。知识图谱可以使用图数据库存储,如Neo4j、OrientDB等。当然如果数据量小的话MySQL、SQLite也是不错的选择。

为了把用户query映射到知识图谱的三元组上,通常会使用到实体链接(把query中的实体对应到知识图谱中的实体)、关系抽取(识别query中包含的关系)和知识推理(query可能包含多个而不是单个关系,对应知识图谱中的一条路径,推理就是找出这条路径)等技术。

任务型多轮对话机器人

任务型多轮机器人(Task-Bot)通过多次与用户对话交互来辅助用户完成某项明确具体的任务,流程图见图3。


图3 Task-Bot流程图

除了与语音交互的ASR和TTS部分,它包含以下几个流程:

  • 语言理解(SLU):把用户输入的自然语言转变为结构化信息——act-slot-value三元组。例如餐厅订座应用中用户说“订云海肴中关村店”,我们通过NLU把它转化为结构化信息:“inform(order_op=预订, restaurant_name=云海肴, subbranch=中关村店)”,其中的“inform”是动作名称,而括号中的是识别出的槽位及其取值。 

    NLU可以使用语义解析或语义标注的方式获得,也可以把它分解为多个分类任务来解决,典型代表是Semantic Tuple Classifier(STC)模型。

  • 对话管理(DM):综合用户当前query和历史对话中已获得的信息后,给出机器答复的结构化表示。对话管理包含两个模块:对话状态追踪(DST)和策略优化(DPO)。 

    DST维护对话状态,它依据最新的系统和用户行为,把旧对话状态更新为新对话状态。其中对话状态应该包含持续对话所需要的各种信息。 

    DPO根据DST维护的对话状态,确定当前状态下机器人应如何进行答复,也即采取何种策略答复是最优的。这是典型的增强学习问题,所以可以使用DQN等深度增强学习模型进行建模。系统动作和槽位较少时也可以把此问题视为分类问题。

  • 自然语言产生(NLG):把DM输出的结构化对话策略还原成对人友好的自然语言。简单的NLG方法可以是事先设定好的回复模板,复杂的可以使用深度学习生成模型,如“Semantically Conditioned LSTM”通过在LSTM中加入对话动作cell辅助答复生成。 

    任务型对话机器人最权威的研究者是剑桥大学的Steve Young教授,强烈推荐他的教程“Statistical Spoken Dialogue Systems”。他的诸多博士生针对上面各个流程都做了很细致的研究,想了解细节的话可以参考他们的博士论文。相关课程可参考Milica Gašić的“Speech and Language Technology”。 

    除了把整个问题分解成上面几个流程分别优化,目前很多学者也在探索使用端到端技术整体解决这个问题,代表工作有Tsung-Hsien Wen等人的“A Network-based End-to-End Trainable Task-Oriented Dialogue System”和Xiujun Li等人的“End-to-End Task-Completion Neural Dialogue Systems”。后一篇的开源代码https://github.com/MiuLab/TC-Bot,非常值得学习。

闲聊型机器人

真实应用中,用户与系统交互的过程中不免会涉及到闲聊成分。闲聊功能可以让对话机器人更有情感和温度。闲聊机器人(Chitchat-Bot)通常使用机器翻译中的深度学习seq2seq框架来产生答复,如图4。


图4 Chitchat-Bot的seq2seq模型框架

与机器翻译不同的是,对话中用户本次query提供的信息通常不足以产生合理的答复,对话的历史背景信息同样很重要。例如图4中的query:“今天心情极度不好!”,用户可能是因为前几天出游累的腰酸背痛才心情不好的,这时答复“出去玩玩吧”就不合情理。研究发现,标准的seq2seq+attention模型还容易产生安全而无用的答复,如“我不知道”,“好的”。

为了让产生的答复更多样化、更有信息量,很多学者做了诸多探索。Jiwei Li等人的论文“Deep Reinforcement Learning for Dialogue Generation”就建议在训练时考虑让答复引入新信息,保证语义连贯性等因素。Iulian V. Serban等人的论文“Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models”在产生答复时不只使用用户当前query的信息,还利用层级RNN把之前对话的背景信息也加入进来。Jun Yin等人的论文“Neural Generative Question Answering”在产生答复时融合外部的知识库信息。

上面的各种机器人都是为解决某类特定问题而被提出的,我们前面也分开介绍了各个机器人的主要组件。但这其中的不少组件在多种机器人里都是存在的。例如知识图谱在检索型、任务型和闲聊型机器人里也都会被使用。

真实应用中通常会包含多个不同类型的机器人,它们协同合作,解答用户不同类型的问题。我们把协调不同机器人工作的机器人称之为路由机器人(Route-Bot)。路由机器人根据历史背景和当前query,决定把问题发送给哪些机器人,以及最终使用哪些机器人的答复作为提供给用户的最终答复。图5为框架图。


图5 Route-Bot框架图




对话机器人现状



对话机器人历史悠久,从1966年MIT的精神治疗师机器人ELIZA到现在已有半个世纪。但现代意义的机器人其实还很年轻。检索型单轮对话机器人得益于搜索引擎的商业成功和信息检索的快速发展,目前技术上已经比较成熟。最近学术界和工业界也积极探索深度学习技术如Word2vec、CNN和RNN等在检索型机器人中的使用,进一步提升了系统精度。虽然技术上较为成熟,但在实际应用中检索型机器人还存在不少其他问题。例如,很多企业历史上积累了大量非结构化数据,但这些数据并不能直接输进检索型机器人,而是需要事先通过人工整理。即便有些企业存在一些回答对的数据可以直接输入检索型机器人,但数量往往只有几十到几百条,非常少。可用数据的质量和数量限制了检索型机器人的精度和在工业界的广泛使用。

相较于检索型机器人,知识图谱型机器人更加年轻。大多数知识图谱型机器人还只能回答简单推理的事实类问题。这其中的一个原因是构建准确度高且覆盖面广的知识图谱极其困难,需要投入大量的人力处理数据。深度学习模型如Memory Networks等的引入可以绕过或解决这个难关吗?

任务型多轮对话机器人只有十来年的发展历史,目前已能较好地解决确定性高的多轮任务。但当前任务型机器人能正常工作的场景往往过于理想化,用户说的话大部分情形下都无法精确表达成act-slot-value三元组,所以在这个基础上构建的后续流程就变得很脆弱。很多学者提出了各种端到端的研究方案,试图提升任务型机器人的使用鲁棒性。但这些方案基本都需要利用海量的历史对话数据进行训练,而且效果也并未在真实复杂场景中得到过验证。

开域闲聊型机器人是目前学术界的宠儿,可能是因为可改进的地方实在太多吧。纯粹的生成式模型在答复格式比较确定的应用中效果已经不错,可以应用于生产环境;但在答复格式非常灵活的情况下,它生成的答复连通顺性都未必能保证,更不用说结果的合理性。生成模型的另一个问题是它的生成结果可控性较低,效果优化也并不容易。但这方面的学术进展非常快速,很多学者已经在探索深度增强学习、GAN等新算法框架在其上的使用效果。

虽然目前对话机器人能解决的问题非常有限,短期内不可能替代人完成较复杂的工作。但这并不意味着我们无法在生成环境中使用对话机器人。寻找到适宜的使用场景,对话机器人仍能大幅提升商业效率。截止到目前,爱因互动已经成功把对话机器人应用于智能投顾、保险、理财等销售转化场景,也在电商产品的对话式发现和推荐中验证了对话机器人的作用。

如果一个对话机器人与真人能顺利沟通且不被真人发现自己是机器人,那么就说这个机器人通过了图灵测试。当然目前的对话机器人技术离这个目标还很远,但我们正在逐渐接近这个目标。随着语音识别,NLP等技术的不断发展,随着万物互联时代的到来,对话机器人的舞台将会越来越大。

作者简介:吴金龙,2017年初作为合伙人加入爱因互动,负责算法部门工作。北京大学博士,毕业后先后加入阿里云、世纪佳缘,作为世纪佳缘资深总监,负责佳缘数据和AI相关工作,开发了中文对话机器人创建平台“一个AI”。

责编:何永灿 

本文为《程序员》原创文章

 


人工智能赛博物理操作系统

AI-CPS OS

人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。


AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。


领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

  1. 重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

  2. 重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

  3. 重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?

AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

  1. 精细种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

  2. 智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。

  3. 高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

  4. 不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

  5. 边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:

  1. 创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

  2. 对现有劳动力和实物资产进行有利的补充和提升,提高资本效率

  3. 人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间


给决策制定者和商业领袖的建议:

  1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

  2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

    评估未来的知识和技能类型;

  3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

    发过程中确定更加明晰的标准和最佳实践;

  4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

    较高失业风险的人群;

  5. 开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。





产业智能官  AI-CPS



用“人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链






长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


新技术“云计算”、“大数据”、“物联网”、“区块链”、“人工智能新产业:智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市、“智能驾驶”新模式:“财富空间、“数据科学家”、“赛博物理”、“供应链金融”


官方网站:AI-CPS.NET



本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com




登录查看更多
4

相关内容

【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
42+阅读 · 2020年7月2日
专知会员服务
73+阅读 · 2020年5月21日
【ICLR2020-哥伦比亚大学】多关系图神经网络CompGCN
专知会员服务
49+阅读 · 2020年4月2日
【图神经网络(GNN)结构化数据分析】
专知会员服务
115+阅读 · 2020年3月22日
KGCN:使用TensorFlow进行知识图谱的机器学习
专知会员服务
81+阅读 · 2020年1月13日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
知识图谱从哪里来:实体关系抽取的现状与未来
AI科技评论
13+阅读 · 2019年11月17日
【知识图谱】从知识工程到知识图谱全面回顾
产业智能官
19+阅读 · 2019年5月31日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
刘志明 | 知识图谱及金融相关
开放知识图谱
13+阅读 · 2017年12月18日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
【知识图谱】肖仰华 | 基于知识图谱的用户理解
产业智能官
16+阅读 · 2017年10月6日
构建AI知识体系-专知主题知识树简介
专知
339+阅读 · 2017年9月17日
专知,一个新的认知方式!
专知
167+阅读 · 2017年9月16日
Arxiv
101+阅读 · 2020年3月4日
VrR-VG: Refocusing Visually-Relevant Relationships
Arxiv
6+阅读 · 2019年8月26日
Arxiv
30+阅读 · 2019年3月13日
Arxiv
7+阅读 · 2018年8月28日
Arxiv
10+阅读 · 2018年4月19日
VIP会员
相关VIP内容
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
42+阅读 · 2020年7月2日
专知会员服务
73+阅读 · 2020年5月21日
【ICLR2020-哥伦比亚大学】多关系图神经网络CompGCN
专知会员服务
49+阅读 · 2020年4月2日
【图神经网络(GNN)结构化数据分析】
专知会员服务
115+阅读 · 2020年3月22日
KGCN:使用TensorFlow进行知识图谱的机器学习
专知会员服务
81+阅读 · 2020年1月13日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
相关资讯
知识图谱从哪里来:实体关系抽取的现状与未来
AI科技评论
13+阅读 · 2019年11月17日
【知识图谱】从知识工程到知识图谱全面回顾
产业智能官
19+阅读 · 2019年5月31日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
刘志明 | 知识图谱及金融相关
开放知识图谱
13+阅读 · 2017年12月18日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
【知识图谱】肖仰华 | 基于知识图谱的用户理解
产业智能官
16+阅读 · 2017年10月6日
构建AI知识体系-专知主题知识树简介
专知
339+阅读 · 2017年9月17日
专知,一个新的认知方式!
专知
167+阅读 · 2017年9月16日
相关论文
Arxiv
101+阅读 · 2020年3月4日
VrR-VG: Refocusing Visually-Relevant Relationships
Arxiv
6+阅读 · 2019年8月26日
Arxiv
30+阅读 · 2019年3月13日
Arxiv
7+阅读 · 2018年8月28日
Arxiv
10+阅读 · 2018年4月19日
Top
微信扫码咨询专知VIP会员