Chatbots are intelligent software built to be used as a replacement for human interaction. Existing studies typically do not provide enough support for low-resource languages like Bangla. Due to the increasing popularity of social media, we can also see the rise of interactions in Bangla transliteration (mostly in English) among the native Bangla speakers. In this paper, we propose a novel approach to build a Bangla chatbot aimed to be used as a business assistant which can communicate in low-resource languages like Bangla and Bangla Transliteration in English with high confidence consistently. Since annotated data was not available for this purpose, we had to work on the whole machine learning life cycle (data preparation, machine learning modeling, and model deployment) using Rasa Open Source Framework, fastText embeddings, Polyglot embeddings, Flask, and other systems as building blocks. While working with the skewed annotated dataset, we try out different components and pipelines to evaluate which works best and provide possible reasoning behind the observed results. Finally, we present a pipeline for intent classification and entity extraction which achieves reasonable performance (accuracy: 83.02%, precision: 80.82%, recall: 83.02%, F1-score: 80%).


翻译:聊天室是用来替代人类互动的智能软件。 现有的研究通常不能为孟加拉语等低资源语言提供足够的支持。 由于社交媒体越来越受欢迎, 我们还可以看到当地孟加拉语使用者在孟加拉语转异化(主要是英语)方面互动的兴起。 在本文中,我们提出一种新颖的办法来建造孟加拉语聊天室,旨在用作商业助理,能够以诸如孟加拉语和孟加拉语等低资源语言以高度信任的方式用英语进行沟通。 由于没有为此提供附加说明的数据,我们不得不利用拉萨开放源框架、快速嵌入、聚球嵌入、弗拉斯克和其他系统作为建筑块来完成整个机器学习生命周期(数据编制、机器学习模型和模型部署)的工作(数据编制、机器学习模型和模型部署)。 在与一个附加说明的数据集合作的同时,我们尝试了不同的组件和管道来评估哪些最有效,并为观察到的结果提供可能的推理依据。 最后,我们展示了一个意图分类和实体提取的管道,以达到合理的性能(准确性:83.02 % 精确度:80.02 % 精确度: 精确度: 精确度:80. 精确度: 精确度: 精确度:80. 精确度: 精确度:80. 精确度:80. 精确度: 精确度: 精确度: 精确度:80. 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 精确度: 80. 精确度: 80. 80.

0
下载
关闭预览

相关内容

【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
4+阅读 · 2019年4月17日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
10+阅读 · 2018年2月9日
VIP会员
相关VIP内容
相关资讯
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员