In this paper, we introduce the first fully manually annotated paraphrase corpus for Finnish containing 53,572 paraphrase pairs harvested from alternative subtitles and news headings. Out of all paraphrase pairs in our corpus 98% are manually classified to be paraphrases at least in their given context, if not in all contexts. Additionally, we establish a manual candidate selection method and demonstrate its feasibility in high quality paraphrase selection in terms of both cost and quality.


翻译:在本文中,我们为芬兰人引入了第一个完全人工手动附加说明的副句,其中包含了从替代字幕和新闻标题中提取的53 572对副句子。 在我们的文稿98%的所有副句子中,至少有98%被手工归类为在特定情况下(如果不是在所有情况下)的副句子。此外,我们制定了一个人工选择候选人的方法,并用成本和质量两方面的高质量副句子选择来证明其可行性。

0
下载
关闭预览

相关内容

《碳中和愿景下储能产业发展白皮书》27页ppt
专知会员服务
65+阅读 · 2021年3月30日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
52+阅读 · 2020年9月7日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
已删除
将门创投
11+阅读 · 2019年8月13日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Paraphrase Generation with Deep Reinforcement Learning
Phrase-Based & Neural Unsupervised Machine Translation
Arxiv
4+阅读 · 2018年1月29日
Arxiv
5+阅读 · 2017年11月30日
VIP会员
相关VIP内容
《碳中和愿景下储能产业发展白皮书》27页ppt
专知会员服务
65+阅读 · 2021年3月30日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
52+阅读 · 2020年9月7日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
11+阅读 · 2019年8月13日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Top
微信扫码咨询专知VIP会员