Morphological analysis (MA) and lexical normalization (LN) are both important tasks for Japanese user-generated text (UGT). To evaluate and compare different MA/LN systems, we have constructed a publicly available Japanese UGT corpus. Our corpus comprises 929 sentences annotated with morphological and normalization information, along with category information we classified for frequent UGT-specific phenomena. Experiments on the corpus demonstrated the low performance of existing MA/LN methods for non-general words and non-standard forms, indicating that the corpus would be a challenging benchmark for further research on UGT.


翻译:对日本用户产生的文本(UGT)来说,精神分析(MA)和词典正常化(LN)都是重要的任务。为了评估和比较不同的MA/LN系统,我们建立了一个可公开查阅的日本UGT系统。我们的资料包括929个句子,附有形态学和正常化信息,以及我们分类的常见UGT特定现象的类别信息。对物典的实验表明,现有的MA/LN非通用词句和非标准表格方法表现不佳,表明对UGT的进一步研究来说,该物质将是一个具有挑战性的基准。

0
下载
关闭预览

相关内容

【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
44+阅读 · 2020年9月11日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
已删除
将门创投
3+阅读 · 2019年6月12日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Arxiv
0+阅读 · 2021年5月31日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
14+阅读 · 2018年5月15日
Arxiv
5+阅读 · 2018年1月23日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年6月12日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Top
微信扫码咨询专知VIP会员