More than 2 billion mobile users worldwide type in multiple languages in the soft keyboard. On a monolingual keyboard, 38% of falsely auto-corrected words are valid in another language. This can be easily avoided by detecting the language of typed words and then validating it in its respective language. Language detection is a well-known problem in natural language processing. In this paper, we present a fast, light-weight and accurate Language Detection Engine (LDE) for multilingual typing that dynamically adapts to user intended language in real-time. We propose a novel approach where the fusion of character N-gram model and logistic regression based selector model is used to identify the language. Additionally, we present a unique method of reducing the inference time significantly by parameter reduction technique. We also discuss various optimizations fabricated across LDE to resolve ambiguity in input text among the languages with the same character pattern. Our method demonstrates an average accuracy of 94.5% for Indian languages in Latin script and that of 98% for European languages on the code-switched data. This model outperforms fastText by 60.39% and ML-Kit by 23.67% in F1 score for European languages. LDE is faster on mobile device with an average inference time of 25.91 microseconds.


翻译:在软键盘中,全世界超过20亿多种多种语言的移动用户类型在软键盘中。 在单语键盘上,38%的错误自动校正的文字在另一种语言中有效。 通过探测输入的文字的语言语言,然后用其各自的语言验证,这很容易避免。语言探测是自然语言处理中众所周知的一个问题。在本文中,我们提出了一个快速、轻量和准确的多语种搜索引擎(LDE),用于多语种打字,能够动态地实时适应用户想要的语言。我们提出了一个新颖的方法,即使用字符N-gram模型和物流回归选择器模型的组合来识别语言。此外,我们提出了一个独特的方法,通过减少参数技术大大缩短推论时间。我们还讨论了各种在LDE中制造的优化,以解决具有相同特点的语言输入文本中的模糊性。我们的方法显示,在拉丁文字中,印度语的平均准确度为94.5%,在代码转换数据中,欧洲语言的平均准确度为98%。这个模型比快速Text增加了60.39 %,而ML-Kinsex回归模型用来鉴别语言,在23.67%的移动速度为25.57%的欧洲语言的平均时间评分。

0
下载
关闭预览

相关内容

《工程》是中国工程院(CAE)于2015年推出的国际开放存取期刊。其目的是提供一个高水平的平台,传播和分享工程研发的前沿进展、当前主要研究成果和关键成果;报告工程科学的进展,讨论工程发展的热点、兴趣领域、挑战和前景,在工程中考虑人与环境的福祉和伦理道德,鼓励具有深远经济和社会意义的工程突破和创新,使之达到国际先进水平,成为新的生产力,从而改变世界,造福人类,创造新的未来。 期刊链接:https://www.sciencedirect.com/journal/engineering
专知会员服务
312+阅读 · 2020年11月24日
专知会员服务
123+阅读 · 2020年9月8日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
39+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【今日新增】计算机领域国际会议截稿信息
Call4Papers
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年3月5日
Arxiv
13+阅读 · 2021年3月3日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关资讯
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【今日新增】计算机领域国际会议截稿信息
Call4Papers
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年3月5日
Arxiv
13+阅读 · 2021年3月3日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
3+阅读 · 2018年3月2日
Top
微信扫码咨询专知VIP会员