【知乎】超越Lexical:用于文本搜索引擎的语义检索框架 - 专知VIP

会员服务 ·

1

文本搜索 · 语义检索 · BERT ·

2020 年 8 月 28 日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

搜索引擎已经成为各种web和移动应用程序的基本组件。从海量数据集中检索相关文档对于搜索引擎系统来说是一项挑战，尤其是在遇到冗长或尾部查询时。在本文中，我们探索了一个向量空间搜索框架的文档检索。具体地说，我们训练了一个深度语义匹配模型，使每个查询和文档都可以编码为低维嵌入。我们的模型是基于BERT架构进行训练的。我们为在线服务部署了一个快速的k-近邻索引服务。离线和在线指标都表明，我们的方法大大提高了检索性能和搜索质量，特别是尾部查询。

https://www.zhuanzhi.ai/paper/98c122f66125ade0ad73761f23bab2f4

成为VIP会员查看完整内容

22

相关内容

文本搜索

【ECCV2020-华为】车道线架构搜索框架

【ECCV2020-华为】车道线架构搜索框架

专知会员服务

23+阅读 · 2020年9月23日

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

专知会员服务

22+阅读 · 2020年9月5日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ICML2020-浙江大学】对抗性互信息的文本生成

【ICML2020-浙江大学】对抗性互信息的文本生成

专知会员服务

44+阅读 · 2020年7月4日

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

【KDD2020】从用户行为中挖掘隐含的相关性反馈，用于Web问题的回答

【KDD2020】从用户行为中挖掘隐含的相关性反馈，用于Web问题的回答

专知会员服务

35+阅读 · 2020年6月13日

【SIGIR2020】高效查询自动补全，Efficient and Effective Query Auto-Completion

【SIGIR2020】高效查询自动补全，Efficient and Effective Query Auto-Completion

专知会员服务

10+阅读 · 2020年5月14日

【SIGMOD2020-腾讯】Web规模本体可扩展构建

【SIGMOD2020-腾讯】Web规模本体可扩展构建

专知会员服务

32+阅读 · 2020年4月12日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

38+阅读 · 2020年2月18日

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

专知会员服务

26+阅读 · 2020年2月10日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

赛尔原创 | 基于文本蕴含识别的答案验证技术研究

赛尔原创 | 基于文本蕴含识别的答案验证技术研究

哈工大SCIR

9+阅读 · 2018年11月19日

干货 | 谷歌 AI：语义文本相似度研究进展

干货 | 谷歌 AI：语义文本相似度研究进展

AI科技评论

24+阅读 · 2018年6月12日

KDD 2018 | 腾讯提出用于文本匹配的多信道信息交叉模型，在真实任务中表现优异

KDD 2018 | 腾讯提出用于文本匹配的多信道信息交叉模型，在真实任务中表现优异

机器之心

4+阅读 · 2018年6月6日

【智能商务】海量商品查找利器—苏宁搜索系统

【智能商务】海量商品查找利器—苏宁搜索系统

产业智能官

5+阅读 · 2017年12月1日

赛尔原创 | 基于循环神经网络问句关键词提取技术研究

赛尔原创 | 基于循环神经网络问句关键词提取技术研究

哈工大SCIR

9+阅读 · 2017年11月27日

业界 | 谷歌发布自然语言框架语义解析器SLING

业界 | 谷歌发布自然语言框架语义解析器SLING

机器之心

3+阅读 · 2017年11月16日

Beyond Lexical: A Semantic Retrieval Framework for Textual SearchEngine

Beyond Lexical: A Semantic Retrieval Framework for Textual SearchEngine

Arxiv

16+阅读 · 2020年8月10日

MetaSelector: Meta-Learning for Recommendation with User-Level Adaptive Model Selection

Arxiv

4+阅读 · 2020年2月13日

Efficiently Embedding Dynamic Knowledge Graphs

Efficiently Embedding Dynamic Knowledge Graphs

Arxiv

14+阅读 · 2019年10月15日

Enriching BERT with Knowledge Graph Embeddings for Document Classification

Arxiv

6+阅读 · 2019年9月18日

Multi-Instance Learning for End-to-End Knowledge Base Question Answering

Multi-Instance Learning for End-to-End Knowledge Base Question Answering

Arxiv

4+阅读 · 2019年3月6日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

Dialog-based Interactive Image Retrieval

Arxiv

5+阅读 · 2018年5月1日

Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension

Arxiv

3+阅读 · 2018年4月20日

Learning a Deep Listwise Context Model for Ranking Refinement

Arxiv

4+阅读 · 2018年4月16日

The Web as a Knowledge-base for Answering Complex Questions

Arxiv

5+阅读 · 2018年3月18日

VIP会员

相关主题

相关VIP内容

【ECCV2020-华为】车道线架构搜索框架

【ECCV2020-华为】车道线架构搜索框架

专知会员服务

23+阅读 · 2020年9月23日

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

专知会员服务

22+阅读 · 2020年9月5日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ICML2020-浙江大学】对抗性互信息的文本生成

【ICML2020-浙江大学】对抗性互信息的文本生成

专知会员服务

44+阅读 · 2020年7月4日

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

【KDD2020】从用户行为中挖掘隐含的相关性反馈，用于Web问题的回答

【KDD2020】从用户行为中挖掘隐含的相关性反馈，用于Web问题的回答

专知会员服务

35+阅读 · 2020年6月13日

【SIGIR2020】高效查询自动补全，Efficient and Effective Query Auto-Completion

【SIGIR2020】高效查询自动补全，Efficient and Effective Query Auto-Completion

专知会员服务

10+阅读 · 2020年5月14日

【SIGMOD2020-腾讯】Web规模本体可扩展构建

【SIGMOD2020-腾讯】Web规模本体可扩展构建

专知会员服务

32+阅读 · 2020年4月12日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

38+阅读 · 2020年2月18日

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

专知会员服务

26+阅读 · 2020年2月10日

热门VIP内容

开通专知VIP会员享更多权益服务

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

《解析陆域作战方向：一个概念性框架》报告

【博士论文】基于多模态基础模型的上下文学习

追寻真正的AI自主性：从遗留思维到战场优势

相关资讯

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

赛尔原创 | 基于文本蕴含识别的答案验证技术研究

赛尔原创 | 基于文本蕴含识别的答案验证技术研究

哈工大SCIR

9+阅读 · 2018年11月19日

干货 | 谷歌 AI：语义文本相似度研究进展

干货 | 谷歌 AI：语义文本相似度研究进展

AI科技评论

24+阅读 · 2018年6月12日

KDD 2018 | 腾讯提出用于文本匹配的多信道信息交叉模型，在真实任务中表现优异

KDD 2018 | 腾讯提出用于文本匹配的多信道信息交叉模型，在真实任务中表现优异

机器之心

4+阅读 · 2018年6月6日

【智能商务】海量商品查找利器—苏宁搜索系统

【智能商务】海量商品查找利器—苏宁搜索系统

产业智能官

5+阅读 · 2017年12月1日

赛尔原创 | 基于循环神经网络问句关键词提取技术研究

赛尔原创 | 基于循环神经网络问句关键词提取技术研究

哈工大SCIR

9+阅读 · 2017年11月27日

业界 | 谷歌发布自然语言框架语义解析器SLING

业界 | 谷歌发布自然语言框架语义解析器SLING

机器之心

3+阅读 · 2017年11月16日

相关论文

Beyond Lexical: A Semantic Retrieval Framework for Textual SearchEngine

Beyond Lexical: A Semantic Retrieval Framework for Textual SearchEngine

Arxiv

16+阅读 · 2020年8月10日

MetaSelector: Meta-Learning for Recommendation with User-Level Adaptive Model Selection

Arxiv

4+阅读 · 2020年2月13日

Efficiently Embedding Dynamic Knowledge Graphs

Efficiently Embedding Dynamic Knowledge Graphs

Arxiv

14+阅读 · 2019年10月15日

Enriching BERT with Knowledge Graph Embeddings for Document Classification

Arxiv

6+阅读 · 2019年9月18日

Multi-Instance Learning for End-to-End Knowledge Base Question Answering

Multi-Instance Learning for End-to-End Knowledge Base Question Answering

Arxiv

4+阅读 · 2019年3月6日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

Dialog-based Interactive Image Retrieval

Arxiv

5+阅读 · 2018年5月1日

Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension

Arxiv

3+阅读 · 2018年4月20日

Learning a Deep Listwise Context Model for Ranking Refinement

Arxiv

4+阅读 · 2018年4月16日

The Web as a Knowledge-base for Answering Complex Questions

Arxiv

5+阅读 · 2018年3月18日

微信扫码咨询专知VIP会员