词法分析(英语:lexical analysis)是计算机科学中将字符序列转换为单词(Token)序列的过程。 词法分析(lexical analysis)包括汉语分词和词性标注两部分。和大部分西方语言不同,汉语书面语词语之间没有明显的空格标记,文本中的句子以字串的形式出现。 因此汉语自然语言处理的首要工作就是要将输入的字串切分为单独的词语,然后在此基础上进行其他更高级的分析,这一步骤称为分词(word segmentation 或tokenization)。除了 分词,词性标注也通常认为是词法分析的一部分。给定一个切好词的句子,词性标注的目的是为每一个词赋予一个类别,这个类别称为词性标记(part-of-speech tag),比如,名词(noun)、动词(verb)、形容词(adjective)等。
分词,就这?
AINLP
2+阅读 · 2020年11月27日
分词,就这?
深度学习自然语言处理
2+阅读 · 2020年11月25日
百度中文依存句法分析工具DDParser重磅开源
深度学习自然语言处理
5+阅读 · 2020年8月6日
如何才能更懂中文?
DataFunTalk
0+阅读 · 2020年7月9日
LTP 4.0!单模型完成6项自然语言处理任务
PaperWeekly
0+阅读 · 2020年6月21日
LTP 4.0!单模型完成6项自然语言处理任务
AI科技评论
0+阅读 · 2020年6月16日
当心“中间件”!
InfoQ
0+阅读 · 2019年12月17日
那些击溃了所有NLP系统的样本
夕小瑶的卖萌屋
2+阅读 · 2019年9月17日
参考链接
微信扫码咨询专知VIP会员