转载公众号 | 老刘说NLP
在上一篇文章当中,我们介绍了开放信息抽取中的一些常用方法,并对比了其与封闭域知识抽取的一些异同。
同样,本着实践与理论相结合的原则,我们来谈谈具体的一些开源项目。
首先,本文将介绍三个开放知识抽取项目,内容涵盖基于规则的,基于句法的以及基于模型的。
其次,本文将介绍面向开放文本的自动图谱化项目,针对如何用图谱和结构化的方式,即以简洁的方式对输入的文本内容进行最佳的语义表示的难题。输入一篇文档,将文档进行关键信息提取,并进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。
感谢开源工作者的贡献。
1、open-entity-relation-extraction
该项目基于依存句法分析,实现了面向开放域文本的知识三元组抽取(实体和关系抽取)及知识库构建初步尝试,实现规则如下图所示:
地址:https://github.com/lemonhu/open-entity-relation-extraction
2、knowledge_graph_demo
该开源项目给出了一个基于spo序列标注的开放知识抽取。
具体思路如下:以句子级别进行标注,标注出句子中的主语,谓语,宾语,形成标注序列;利用标注好的语料,采用bert+dl的方法进行训练;
齐 B-OBJ
鹏 I-OBJ
飞 I-OBJ
同 O
志 O
任 O
中 B-SUBJ
共 I-SUBJ
中 I-SUBJ
国 I-SUBJ
人 I-SUBJ
民 I-SUBJ
大 I-SUBJ
学 I-SUBJ
委 I-SUBJ
员 I-SUBJ
会 I-SUBJ
常 B-PRED
委 I-PRED
、 O
副 B-PRED
书 I-PRED
记 I-PRED
。O
对新的语料,预测主语,谓语,宾语,例如:
6月25日,华为常务董事、运营商事业部总裁丁耘表示,华为已在全球范围内获得50个5G商用合同,其中2/3是由华为协助其构建的。
预测结果为:
[{'word': '华为', 'start': 6, 'end': 8, 'type': 'SUBJ'}, {'word': '常务董事', 'start': 8, 'end': 12, 'type': 'PRED'}, {'word': '运营商事业部', 'start': 13, 'end': 19, 'type': 'SUBJ'}, {'word': '总裁', 'start': 19, 'end': 21, 'type': 'PRED'}, {'word': '丁耘', 'start': 21, 'end': 23, 'type': 'OBJ'}, {'word': '华为', 'start': 26, 'end': 28, 'type': 'SUBJ'}, {'word': '华为', 'start': 54, 'end': 56, 'type': 'SUBJ'}]
对于一个句子,会出现多个主语、谓语以及宾语,该项目一定的策略,形成实体关系对,策略举例如下,以上述为例:
1)按主语,谓语,宾语进行归类,形成主体集合{华为, 运营商事业部},谓语集合{常务董事, 总裁}以及宾语集合{丁耘};
2)接着,按照各个元素在句子出现的位置进行组合,比如华为的位置,离常务董事挨得近,那么形成一个三元组['华为', '常务董事', '丁耘'],同理,形成另一个三元组['运营商事业部', '总裁', '丁耘'];
3)将句子按照逗号进行分割,形成小句子集合,看三元组的三个元素是否都在一个小句子中,如果是,则提取该三元组,如果不是,则放弃该三元组。
地址:https://github.com/percent4/knowledge_graph_demo
3、EventTriplesExtraction
该项目实现了基于依存句法与语义角色标注的事件三元组抽取功能。
content = '李克强总理今天来我家了,我感到非常荣幸'
svos = [
['李克强总理', '来', '我家'],
['我', '感到', '荣幸']
]
content = ''' 以色列国防军20日对加沙地带实施轰炸,造成3名巴勒斯坦武装人员死亡。此外,巴勒斯坦人与以色列士兵当天在加沙地带与以交界地区发生冲突,一名巴勒斯坦人被打死。当天的冲突还造成210名巴勒斯坦人受伤。
当天,数千名巴勒斯坦人在加沙地带边境地区继续“回归大游行”抗议活动。部分示威者燃烧轮胎,并向以军投掷石块、燃烧瓶等,驻守边境的以军士兵向示威人群发射催泪瓦斯并开枪射击。'''svos = [
['以色列国防军', '实施', '轰炸'],
['冲突', '发生', '巴勒斯坦人与以色列士兵'],
['当天冲突', '造成', '受伤'],
['数千名巴勒斯坦人', '继续', '回归大游行抗议活动'],
['部分示威者', '投掷', '石块'],
['驻守边境以军士兵', '发射', '催泪瓦斯']
]
地址:https://github.com/liuhuanyong/EventTriplesExtraction
Text Content Grapher based on keyinfo extraction by NLP method。
该项目是老刘很早期的一个项目,目标是:输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。
地址:https://github.com/liuhuanyong/TextGrapher
1、实现思想
本项目采用了高频词,关键词,命名实体识别,主谓宾短语识别等抽取方式,并尝试将三类信息进行图谱组织表示,这种表示方式是一种尝试。在可视化分析上,采用VISJS方法进行展示。
在进行文本信息处理并展示上,新闻文本通常会是一个重要的数据来源。下面是具体效果:
2、中兴事件
content = """2018年4月16日晚,美国商务部发布公告称,美国政府在未来7年内禁止中兴通讯向美国企业购买敏感产品。
2018年4月19日,针对中兴被美国“封杀”的问题,商务部表示,中方密切关注进展,随时准备采取必要措施,维护中国企业合法权益。
2018年4月20日,中兴通讯发布关于美国商务部激活拒绝令的声明,称在相关调查尚未结束之前,美国商务部工业与安全局执意对公司施以最严厉的制裁,对中兴通讯极不公平,“不能接受!”
2018年5月,中兴通讯公告称,受拒绝令影响,本公司主要经营活动已无法进行。 5月22日,美国将取消中兴通讯销售禁令,根据讨论的协议维持其业务。
2018年6月7日,美国商务部长罗斯接受采访时表示,美国政府与中兴通讯已经达成协议,只要后者再次缴纳10亿美元罚金,并改组董事会,即可解除相关禁令。6月19日,美国参议院以85-10的投票结果通过恢复中兴通讯销售禁令法案。
2018年7月2日,美国商务部发布公告,暂时、部分解除对中兴通讯公司的出口禁售令。7月12日,《美国之音》消息,美国商务部表示,美国已经与中国中兴公司签署协议,取消近三个月来禁止美国供应商与中兴进行商业往来的禁令,中兴公司将能够恢复运营,禁令将在中兴向美国支付4亿保证金之后解除。 """
效果:
3、魏则西事件
content = '''律师称医院主责;百度是否涉虚假广告待查
对于此次事件中的三方责任问题,北京大悦律师事务所合伙人、律师郎克宇认为,武警北京二院应负有主要责任,百度推广负次要责任。如果涉事诊疗中心系外包给了民营机构,那么院方可以对该民营机构追责。
郎克宇表示,即使该科室是承包出去的,武警北京二院也是有审核责任,患者出现问题第一责任还是在医院。“因为病人对承包事宜并不知情。如果是民营机构欺骗了武警医院,医院发现其中有虚假行为,医院可以追责。”
对百度推广的界定,全国政协委员、著名律师施杰和郎克宇均表示,根据新广告法的相关规定,百度推广也属于广告发布的主体,其性质属于有偿服务。
“不像是在一些论坛上发布产品或信息,百度推广本身是一种经营行为,它接受广告主的委托,通过特定平台发布广告信息,且一般是根据费用多少来决定推广信息的排名,因此百度推广属于新广告法的监管范围,工商部门有相应的监管职责。但在整个事件中应负有次要责任。”
关于百度推广发布的此条医疗信息是否涉嫌虚假广告,施杰表示,是否属于虚假广告,要看发布主体发布的内容是否属实,这需要公安部门调查核实,调查其是否有夸大疗效、虚假事实、诱导等情形。同时,工商、卫生部门也要进行认定,看是否符合广告法规定的虚假广告的范畴。
如果认定后确实存在违反法律规定的情形,按照新广告法的规定,需要承担相应责任。如果构成虚假行为,广告经营者、发布者、代言人,都要承担民事、行政,甚至刑事责任。新京报记者李婷婷
魏则西事件始末
●2014年4月
魏则西检查出滑膜肉瘤。一种恶性软组织肿瘤,五年生存率是20%-50%。当时他在西安电子科技大学读大二。
●2015年8月
魏则西在知乎上发帖提问:“二十一岁癌症晚期,自杀是否是更好的选择?”那时候,他做完4次在武警北京二院的生物免疫疗法,没有达到预期效果。这个疗法曾被他和父母视为救命稻草。
●2016年2月
知乎上有人提问:“你认为人性最大的‘恶’是什么?”魏则西将+这根“救命稻草”的故事作为回答。医院,是在百度上搜的,排名领先。疗法“说得特别好”。他在文中还提到,当时武警北京二院的医生曾经对他说该院与国外大学合作,“有效率达到百分之八九十,看着我的报告单,给我爸妈说保我20年没问题”。结果却被网友告知生物免疫疗法是被国外临床淘汰的技术。
●2016年4月12日
魏则西去世。当天,在一则“魏则西怎么样了?”的知乎帖下,魏则西父亲用魏则西的知乎账号回复称:“我是魏则西的父亲魏海全,则西今天早上八点十七分去世,我和他妈妈谢谢广大知友对则西的关爱,希望大家关爱生命,热爱生活。”
●4月28日
针对自媒体曝出“魏则西”之死事件存在的涉事医院外包诊所给民营机构,百度竞价排名等问题,百度回应称,(魏)则西生前通过电视媒体报道和百度搜索选择的武警北京二院,百度第一时间进行了搜索结果审查,该医院是一家公立三甲医院,资质齐全。
●5月1日
百度再次回应称,针对网友对魏则西所选择的武警北京二院的治疗效果及其内部管理问题的质疑,百度正积极向发证单位及武警总部主管该院的相关部门递交审查申请函,希望相关部门能高度重视,立即展开调查。
'''
效果:
4、雷洋事件
content = '''
5月7日20时许,昌平警方针对霍营街道某小区一足疗店存在卖淫嫖娼问题的线索,组织便衣警力前往开展侦查。
21时14分,民警发现雷某(男,29岁,家住附近)从该足疗店离开,立即跟进,亮明身份对其盘查。雷某试图逃跑,在激烈反抗中咬伤民警,并将民警所持视频拍摄设备打落摔坏,后被控制带上车。行驶中,雷某突然挣脱看管,从车后座窜至前排副驾驶位置,踢踹驾驶员迫使停车,打开车门逃跑,被再次控制。因雷某激烈反抗,为防止其再次脱逃,民警依法给其戴上手铐,并于21时45分带上车。在将雷某带回审查途中,发现其身体不适,情况异常,民警立即将其就近送往昌平区中西医结合医院,22时5分进入急诊救治。雷某经抢救无效于22时55分死亡。
当晚,民警在足疗店内将朱某(男,33岁,黑龙江省人)、俞某(女,38岁,安徽省人)、才某(女,26岁,青海省人)、刘某(女,36岁,四川省人)和张某(女,25岁,云南省人)等5名涉嫌违法犯罪人员抓获。经审查并依法提取、检验现场相关物证,证实雷某在足疗店内进行了嫖娼活动并支付200元嫖资。目前,上述人员已被昌平警方依法采取强制措施。
为进一步查明雷某死亡原因,征得家属同意后,将依法委托第三方在检察机关监督下进行尸检。
男子“涉嫌嫖娼死亡”,家属提多个疑点 要求公开执法记录视频
5月7日晚,中国人民大学环境学院2009级硕士研究生雷洋离家后身亡,昌平警方通报称,警方查处足疗店过程中,将“涉嫌嫖娼”的雷某控制并带回审查,此间雷某突然身体不适经抢救无效身亡。
面对雷洋的突然死亡,他的家人表示现在只看到了警方的一条官方微博,对于死因其中只有一句“该人突然身体不适”的简单描述,他们希望能够公布执法纪录仪视频,尽快还原真相。
由雷洋的同学发布的一份情况说明称,5月7日,由于雷洋夫妇刚得一女,其亲属欲来京探望,航班预计当晚23点30分到达。当晚21时左右,雷洋从家里出门去首都机场迎接亲属,之后雷洋失联。(来源:央视、新京报)
'''
效果:
5、同学杀人事件
content8 = '''
(原标题:中科院研究生遇害案:凶手系同乡学霸,老师同学已为死者发起捐款)
6月14日下午6点多,中科院信息工程研究所硕士研究生谢雕在饭馆招待自重庆远道而来的高中同学周凯旋时,被周凯旋用匕首杀害。随后,周凯旋被北京警方抓获。
周凯旋被抓后,他的家人向被警方递交了精神鉴定材料,称周凯旋患有精神性疾病。
谢雕的家人罗发明告诉南都记者,谢雕被害后,他的研究生老师和同学发起了捐款。并说,谢雕的遗体已经进行尸检,等尸检结果出来后,家人将会把火化后的骨灰带回老家安葬,之后,他们将等待北京检察机关的公诉。
高中同学千里赴京去杀人
今年25岁的谢雕生长于重庆垫江县的一个小山村,谢雕和周凯旋同在垫江中学读高中,两人学习成绩名列前茅,周凯旋经常考年级第一,两人都是垫江中学的优秀毕业生,谢雕考上了西安电子科技大学,周凯旋考取了四川大学。
微信图片_20180627174901_副本.jpg案发现场的行凶者周凯旋(受访者提供)。
学习优秀的周凯旋认为自己应该能考上北大清华等名校,于是在入读四川大学两三个月后,选择了退学复读。经过半年多的苦读,周凯旋以优异成绩考取了西安交通大学,来到了谢雕所在的城市,且是硕博连读。
但周凯旋因大学本科期间因沉迷游戏,考试不及格,最终失掉了硕博连读的机会,本科毕业后就回到重庆寻找就业机会。谢雕自西安电子科技大学毕业后,在2016年考取了中国科学院大学的硕士研究生,所读专业隶属于中科院信息工程研究所。
谢雕的家人告诉南都记者,6月14日下午6点,谢雕在西五环外的中科院信息工程研究所门口见到了久未见面的高中同学周凯旋。把他带到旁边的饭馆吃饭,两人还合影发到了高中同学微信群。这时,谢雕还没意识到周凯旋即将对他带来致命伤害。
南都记者在谢雕遇害现场视频中看到,在谢雕点菜时,周凯旋用匕首刺向他胸部,谢雕中刀站起后退时,周凯旋用匕首又刺向他颈部,谢雕倒地后,周凯旋又从背部向他连刺几刀。之后,又持刀割断了谢雕的颈部动脉。这时,有食客拿起椅子砸向正在行凶的周凯旋。刺死谢雕后,周凯旋举起双手挥舞,随后扬长而去。后来,周凯旋被北京警方抓获。
同学聚会时自己觉得受伤害起杀心
罗发明告诉南都记者,作为被害人家属,他们向北京警方了解到,凶案原因来自两年前的一场同学聚会,谢雕的一些话对周凯旋带来很大心理压力,让他不能释怀。
两年前的一次高中同学聚会中,大家聊的话题很多,也聊到了周凯旋喜欢打游戏的事情,谢雕说了一些激励周凯旋的话,让他不要再打游戏,要振作起来。在参与聚会的同学们看来,这些话是常理之中的,但在周凯旋看来,对他带来很大伤害,两年来给他带来很大心理压力。
参与那次聚会的同学后来回忆,在一起玩“狼人杀”游戏时,谢雕、周凯旋发生了争执,但不愉快的瞬间很快就过去了,大家也都没当回事。
那次聚会之后的春节,不少同学发现被周凯旋拉黑,中断了联系。直至一年之后,周凯旋才加入了高中同学微信群。
谢雕的家人说,周凯旋在网上购买了杀人凶器匕首,收货地址填写了北京,他在北京拿到网购的匕首后,才暗藏在身前来面见谢雕。
师生捐款助他家人渡难关
周凯旋被北京警方抓获后,他的家人向警方称周凯旋患有精神病,并提供了一些证明材料,希望得到从轻处置。
谢雕遇害后,他的学校为失去这么优秀的学生感到惋惜。谢雕的老师说,“谢雕家境并不富裕,本科尚有2.5万助学贷款未偿还,前不久还向同学借款1万,父亲也患有鼻咽癌。”
谢雕的老师和同学发起了捐款,希望能帮助谢雕的家人暂时渡过难关。
谢雕的家人告诉南都记者,他们向谢雕的学校提出要求,希望案件能尽快解决。
罗发明对南都记者说,谢雕的遗体已经进行尸检,尸检后十天至十五天出来结果,等拿到尸检报告后,他们会尽快火化谢雕的遗体,把他的骨灰带回重庆老家安葬。
对于这一案件,谢雕的家人告诉南都记者,他们将等待北京的检察机关提起公诉。
'''
效果:
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
就职于360人工智能研究院、曾就职于中国科学院软件研究所。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。