成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
多语言互通:谷歌发布实体检索模型,涵盖超过100种语言和2000万个实体
2020 年 11 月 12 日
新智元
新智元报道
编辑:QJP
【新智元导读】
实体链接(Entity linking)通常在自然语言理解和知识图谱中起着关键作用。谷歌AI研究人员近期提出了一种新的技术,在这种技术中,可以将特定语言解析为与语言无关的知识库。
如果一段文本中提到一个实体 ,算法将识别出该实体在知识库中的相应条目(例如一篇维基百科文章)。
谷歌最近提出了一个单一实体检索模型,该模型涵盖了100多种语言和2000万个实体,表面上表现优于有限的跨语言任务。
多语言实体链接涉及将某些上下文中的文本片段链接到与语言无关的知识库中的对应实体。
知识库本质上是包含实体信息的数据库,包括人、地点和事物等。2012年,谷歌推出了一个知识库的新概念:知识图谱,以提高搜索结果的质量。
这个知识库收集了来自 Wikipedia, Wikidata 和 CIA World Factbook 的数千亿事实。微软也曾推出一个知识库,其中有超过150,000篇文章是由为客户解决问题的支持专业人员创建的。
多语种实体链接中的知识库可能包括一种或多种语言中关于每个实体的名称和说明等文本信息。但是他们并没有对这些知识库语言和其他语言之间的关系做出预先的假设。
谷歌的研究人员使用了所谓的增强型双编码器检索模型(enhanced dual encoder retrieval models )和 WikiData 作为他们的知识库,这些知识库包括大量不同的实体。
WikiData 包含名称和简短的描述,通过与所有维基百科版本的紧密联系,它还将实体连接到从相应语言的维基百科页面提取出来的描述和其他特性当中。
研究人员从104种语言的与 WikiData 实体相关的大规模数据集中提取了6.84亿个 mention ,他们说这个数据集至少是以前只用英语进行实体链接工作时使用的数据集的六倍。
此外,两位作者还创建了一个匹配数据集:
Mewsli-9
,该数据集横跨多种语言和实体,其中包括 WikiNews 的58717篇新闻文章中提到的289087个实体。
在 Mewsli-9的82,162个不同的目标实体中,只有11% 没有维基百科的英文页面,这为专注于英文维基百科实体的系统设置了一个上限。
研究人员表示,实体链接能够更好地反映稀有实体或低资源语言在现实世界中面临的挑战。
通过对 Wikipedia 和 WikiData 的操作,使用增强双编码检索模型和基于频率的评估实验提供了令人信服的证据,证明用一个涵盖100多种语言的单一模型来执行这项任务是可行的。谷歌通过自动提取的 Mewsli-9 数据集作为一个起点,用于评估超越根深蒂固的英语基准和扩大的多语言环境下的实体链接。
不过,研究人员目前对于模型是否能够显示出统计学偏差还不清楚。
在今年早些时候发表的一篇论文中,Twitter 研究人员声称已经在流行的命名实体识别模型中发现了带有偏见的证据,尤其是对黑人和其他「非白人」名字的偏见。但是谷歌的合作者们通过使用非专家的人工评分员来为提高训练数据集的质量和合并关系知识敞开了大门。
参考链接:
https://venturebeat.com/2020/11/11/googles-ai-lets-users-search-language-agnostic-knowledge-bases-in-their-native-tongue/
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
知识库
关注
63
知识库(Knowledge Base)是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算 机存储器中 存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定 理和运算法则以及常识性知识等。
【AAAI2021】维基百科检索跳转来回答复杂的问题
专知会员服务
14+阅读 · 2021年1月5日
最新《知识图谱:构建到应用》2020大综述论文,261页pdf
专知会员服务
288+阅读 · 2020年10月6日
【SIGMOD2020】基于本体的知识库对话系统
专知会员服务
33+阅读 · 2020年9月25日
【翻译-ACL2020】使用知识库嵌入改进知识图上的多跳问答
专知会员服务
69+阅读 · 2020年7月3日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
【CMU-TACL2020】低资源跨语言实体链接,Low-resource Crosslingual EntityLinking
专知会员服务
16+阅读 · 2020年3月29日
【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准
专知会员服务
13+阅读 · 2020年3月27日
史上最全《知识图谱》2020综述论文,130页pdf,547篇参考文献
专知会员服务
457+阅读 · 2020年3月7日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
专知会员服务
103+阅读 · 2020年2月20日
【Google ICLR2020论文】嵌入式大规模检索的预训练任务,Pre-training Tasks for Embedding-based Large-scale Retrieval
专知会员服务
27+阅读 · 2020年2月12日
ChineseGLUE:为中文NLP模型定制的自然语言理解基准
机器之心
4+阅读 · 2019年10月23日
500万照片+20万地标,谷歌更新最大地标数据集
新智元
11+阅读 · 2019年5月5日
再破新纪录!微软最新NLP模型3项评分全面超越人类水平!
新智元
8+阅读 · 2019年5月4日
论文浅尝 | 基于知识库的自然语言理解 02#
开放知识图谱
8+阅读 · 2019年2月24日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
谷歌发布问答系统新语料,同时发布相关挑战赛
AI研习社
4+阅读 · 2019年2月10日
基于知识图谱的问答系统入门—NLPCC2016KBQA数据集
PaperWeekly
70+阅读 · 2019年1月8日
论文浅尝 | 基于开放世界的知识图谱补全
开放知识图谱
11+阅读 · 2018年7月3日
让机器认知中文实体 — 复旦大学知识工场发布中文实体识别与链接服务
PaperWeekly
7+阅读 · 2018年1月12日
资源 | Facebook开源DrQA的PyTorch实现:基于维基百科的问答系统
机器之心
3+阅读 · 2017年7月29日
Computability of the Channel Reliability Function and Related Bounds
Arxiv
0+阅读 · 2021年1月24日
Centralized Collision-free Polynomial Trajectories and Goal Assignment for Aerial Swarms
Arxiv
0+阅读 · 2021年1月21日
Equivalent Causal Models
Arxiv
5+阅读 · 2020年12月10日
Rethinking Positional Encoding in Language Pre-training
Arxiv
4+阅读 · 2020年7月9日
GIANT: Scalable Creation of a Web-scale Ontology
Arxiv
10+阅读 · 2020年4月5日
AliCoCo: Alibaba E-commerce Cognitive Concept Net
Arxiv
13+阅读 · 2020年3月30日
Unified Vision-Language Pre-Training for Image Captioning and VQA
Arxiv
8+阅读 · 2019年10月3日
Unpaired Image Captioning by Language Pivoting
Arxiv
4+阅读 · 2018年3月14日
Analyzing Language Learned by an Active Question Answering Agent
Arxiv
6+阅读 · 2018年1月23日
Multilingual Topic Models
Arxiv
3+阅读 · 2017年12月18日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
知识库
实体
实体链接
wikidata
entity
谷歌
相关VIP内容
【AAAI2021】维基百科检索跳转来回答复杂的问题
专知会员服务
14+阅读 · 2021年1月5日
最新《知识图谱:构建到应用》2020大综述论文,261页pdf
专知会员服务
288+阅读 · 2020年10月6日
【SIGMOD2020】基于本体的知识库对话系统
专知会员服务
33+阅读 · 2020年9月25日
【翻译-ACL2020】使用知识库嵌入改进知识图上的多跳问答
专知会员服务
69+阅读 · 2020年7月3日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
【CMU-TACL2020】低资源跨语言实体链接,Low-resource Crosslingual EntityLinking
专知会员服务
16+阅读 · 2020年3月29日
【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准
专知会员服务
13+阅读 · 2020年3月27日
史上最全《知识图谱》2020综述论文,130页pdf,547篇参考文献
专知会员服务
457+阅读 · 2020年3月7日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
专知会员服务
103+阅读 · 2020年2月20日
【Google ICLR2020论文】嵌入式大规模检索的预训练任务,Pre-training Tasks for Embedding-based Large-scale Retrieval
专知会员服务
27+阅读 · 2020年2月12日
热门VIP内容
开通专知VIP会员 享更多权益服务
《人类-航空/航天机器人协作网络中的动态覆盖控制和估计》177页
《数字目标定位:人工智能、数据和军事情报》
从俄乌战争中汲取的地理空间情报教训
《国防和国家安全中的战术边缘物联网》最新45页
相关资讯
ChineseGLUE:为中文NLP模型定制的自然语言理解基准
机器之心
4+阅读 · 2019年10月23日
500万照片+20万地标,谷歌更新最大地标数据集
新智元
11+阅读 · 2019年5月5日
再破新纪录!微软最新NLP模型3项评分全面超越人类水平!
新智元
8+阅读 · 2019年5月4日
论文浅尝 | 基于知识库的自然语言理解 02#
开放知识图谱
8+阅读 · 2019年2月24日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
谷歌发布问答系统新语料,同时发布相关挑战赛
AI研习社
4+阅读 · 2019年2月10日
基于知识图谱的问答系统入门—NLPCC2016KBQA数据集
PaperWeekly
70+阅读 · 2019年1月8日
论文浅尝 | 基于开放世界的知识图谱补全
开放知识图谱
11+阅读 · 2018年7月3日
让机器认知中文实体 — 复旦大学知识工场发布中文实体识别与链接服务
PaperWeekly
7+阅读 · 2018年1月12日
资源 | Facebook开源DrQA的PyTorch实现:基于维基百科的问答系统
机器之心
3+阅读 · 2017年7月29日
相关论文
Computability of the Channel Reliability Function and Related Bounds
Arxiv
0+阅读 · 2021年1月24日
Centralized Collision-free Polynomial Trajectories and Goal Assignment for Aerial Swarms
Arxiv
0+阅读 · 2021年1月21日
Equivalent Causal Models
Arxiv
5+阅读 · 2020年12月10日
Rethinking Positional Encoding in Language Pre-training
Arxiv
4+阅读 · 2020年7月9日
GIANT: Scalable Creation of a Web-scale Ontology
Arxiv
10+阅读 · 2020年4月5日
AliCoCo: Alibaba E-commerce Cognitive Concept Net
Arxiv
13+阅读 · 2020年3月30日
Unified Vision-Language Pre-Training for Image Captioning and VQA
Arxiv
8+阅读 · 2019年10月3日
Unpaired Image Captioning by Language Pivoting
Arxiv
4+阅读 · 2018年3月14日
Analyzing Language Learned by an Active Question Answering Agent
Arxiv
6+阅读 · 2018年1月23日
Multilingual Topic Models
Arxiv
3+阅读 · 2017年12月18日
大家都在搜
RE-NET
palantir
大型语言模型
全面综述
自主系统
智能推荐
PRML
MoE
壁画
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top