自然语言处理的基本概念(一)
1、什么是NLP?
自然语言处理研究的是人类用自然语言与计算机之间进行通信的技术。属于语言学、计算机科学、认知科学等相关学科的交叉学科,涉及范围广泛。
NLP = NLU + NLG
Natural language understanding + natural language generation
从工程实践的角度看,自然语言处理 = 自然语言理解 + 自然语言生成。
相对于 计算机视觉,NLP 难度更高。视觉处理是所见即所得,而自然语言需要面对一词多义,语义和语用不同的复杂情况。
自然语言处理属于AI 能力中的认知智能:
AI 能力应用技术计算能力-快速计算和记忆存储运算速度-存储能力感知能力-视觉、听觉、触觉语言合成、识别等,计算机视觉、物体识别、图形识别等认知能力-语言能力、知识管理和推理学习自然语言处理:语言交互、语义理解、知识学习。
(4)解决现状
NLP 的各项任务目前解决到什么程度?是基本解决了,还是“同志仍需努力”。
评价指标:
任务研究现状的评判,评价指标的话每个任务有自己的评价指标。
- 文本分类大多是准确率,F1等;
- 机器翻译的话可以BLEU;
- QA的话有ROUGE,BLEU,模糊度等;
基本解决或者进度很大的话也基本上可以上线,投入应用。比较难的就是一般不能满足实际需求,还需要人为干预和规则涉入等。
Mostly solved 基本解决:
- Spam detection
- Word segmentation
- Part of speech tagging (POS)词性标注
- Named entity recognition 命名实体识别 --人名,机构名,地名等
making good progress进步很大:
- sentiment analysis 情感分类
- Co-reference resolution () 指代消解
- word sence disambiguation wsd 词义消歧
- machine translation 机器翻译
still a bit hard 还是有点难
- dialogue agents and chat-bots 聊天机器人
- Question answering 问答系统
- summarization 文本摘要
- NLP for low resource languages 语料少的NLP 任务
3、有哪些开源工具库可以用?
- NLTK (Natural Language Toolkit)
- Spacy
- Stanford CoreNLP
- 语言技术平台LTP
- HaNLP
- FNL .P
- jieba
- Polyglot
- Pattern
- Gensim
- AllenNLP
- TextBlob
--未完待续
发布于 2020-02-09 14:51