成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
分词
关注
10
将一个汉字序列切分成一个一个单独的词
综合
百科
VIP
热门
动态
论文
精华
Tokenization Tractability for Human and Machine Learning Model: An Annotation Study
Arxiv
1+阅读 · 2023年4月21日
Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on POS Tagging for Non-Standardized Languages
Arxiv
0+阅读 · 2023年4月20日
Romanization-based Large-scale Adaptation of Multilingual Language Models
Arxiv
0+阅读 · 2023年4月18日
From Words to Music: A Study of Subword Tokenization Techniques in Symbolic Music Generation
Arxiv
0+阅读 · 2023年4月18日
Learning to Tokenize for Generative Retrieval
Arxiv
0+阅读 · 2023年4月9日
Detecting directional forces in the evolution of grammar: A case study of the English perfect with intransitives across EEBO, COHA, and Google Books
Arxiv
0+阅读 · 2023年4月5日
Self-tuning hyper-parameters for unsupervised cross-lingual tokenization
Arxiv
0+阅读 · 2023年4月4日
TreePiece: Faster Semantic Parsing via Tree Tokenization
Arxiv
0+阅读 · 2023年3月30日
AtteSTNet -- An attention and subword tokenization based approach for code-switched text hate speech detection
Arxiv
0+阅读 · 2023年3月28日
MEDBERT.de: A Comprehensive German BERT Model for the Medical Domain
Arxiv
0+阅读 · 2023年3月24日
An Information Extraction Study: Take In Mind the Tokenization!
Arxiv
0+阅读 · 2023年3月27日
参考链接
子主题
结巴分词
Sphinx
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top