强烈推荐十大NLP主流经典项目：预训练BERT、知识图谱、智能问答、机器翻译、文本自动生成等

会员服务 ·

强烈推荐十大NLP主流经典项目：预训练BERT、知识图谱、智能问答、机器翻译、文本自动生成等

2021 年 11 月 1 日 PaperWeekly

自然语言处理技术近几年发展非常快，像 BERT、GPT-3、图神经网络、知识图谱 等技术被大量应用于项目实践中。

今年大厂的NLP面试中对项目方面的考察深度也随之提升了很多，经常会被面试官揪着细节一步一步让你解释：“为什么这么做？效果如何？你如何调整模型，你思考的逻辑是什么？”

“说说自己在项目中具体负责的模块中用到的技术细节，遇到了什么问题？你使用的模型的损失函数、如何优化、怎么训练模型的、用的什么数据集？优化算法的选择做过哪些？为啥这么做？”

我们罗列了一些常见的大厂NLP项目深度考察问题：

BERT模型太大了，而且效果发现不那么好比如next sentence prediction, 怎么办？
文本生成评估指标，BLUE的缺点
loss设计 triplet loss和交叉熵loss各自的优缺点，怎么选择
attention机制
ernie模型
介绍一下flat及对于嵌套式语料的融合方式
为什么使用lightGBM，比起xgboost的优点是什么
样本不均衡问题的解决办法有哪些？具体项目中怎么做的？
长文本的处理
引入词向量的相似性对于结果有什么不好的影响
如何引入知识图谱
词向量中很稀疏和出现未登录词，如何处理
kmeans的k怎么选择
新词发现怎么做
模型选取、数据增强
从数据标注的制定标准，到选取模型，再到改进模型、错误分析
NER数据中没有实体标注的句子过多解决方式
同一句话两个一样字符串如何消岐
模型好坏的评估,如何衡量模型的性能
方面级情感分析的模型结构
模型学习中，正负样本的训练方式不同有什么影响
减轻特征工程的手段

你如果是一位面试候选人，上述问题你会“倒”在哪一关？

“实践出真知”，只有动手实践具体的项目，以解决问题为导向，在项目中理解技术本身，才能得到更深层次的理解。

你也许会在网络中找到很多资源和论文、但我们面临的问题并不是缺资源，而是找准资源并高效学习。很多时候你会发现，花费大量的时间在零零散散的内容上，但最后发现效率极低，浪费了很多宝贵的时间。

为了给初学者创造项目实践的需求，我们向你推荐业界口碑俱佳的“NLP工程师培养计划”的《自然语言处理项目集训营》第22期。

实践项目介绍

本课程以实⽤为原则，通过10个产业级应用项目，知识覆盖了预训练、词法分析、信息抽取等基础知识，情感分析、知识图谱与智能问答、机器翻译、对话、文本自动生成等NLP应⽤技术和系统，掌握产业实践中的模型部署等。

本课程将带你全面掌握自然语言处理技术，以期更好地帮助各位同学学以致用。通过完成一系列项目课题任务，也有可能成为一个创业项目或者帮助你完成一次重要的技术转型。

项目学习目标：

以语种识别为任务，掌握NLP模型搭建的标准化流程与常用方法，结合机器学习模型完成对文本数据的识别与搭建任务，常应用于机器翻译，智能对话等场景中

项目学习重点：

Part1：特征工程

l 数据清洗、分词、数据降噪

Part2：文本向量化

l 机器学习：TF-IDF/CounterVector
l 深度学习：Word2vec、Word Embedding、ELMo

Part3：语种识别器建模

l 机器学习：朴素贝叶斯/SVM
l 深度学习：TextCNN/TextRNN

Part4：语种识别器部署：使用Flask部署应用

项目学习目标：

使用机器学习和深度学习的多种模型实现文本分类；文本分类被广泛应用于新闻分类、文本审核、电商评论分析、舆情监控以及智能客服等场景中。

项目学习重点：

Part1：NLP机器学习模型

l Jieba中文分词处理
l 词频统计Wordcloud构建词云
l TF-IDF/TextRank关键词提取
l LDA主题模型建模
l 中文分类机器学习模型

BOW/N-gram/TF-IDF/Word2vec文本表示
Word Embedding/ELMo文本表示
NB/LR/SVM等机器学习分类模型

Part2：海量数据的中文分类方法：

l Spark：使用pyspark解决分类问题

Part3：NLP的深度学习模型方法：

l TextRNN、TextCNN、FastText
l TextBiRNN、TextRCNN、TextAttBiLSTM
l 深度学习文本分类HAN实战
l Tensorflow深度学习文本分类模型部署

可求职岗位：

NLP算法工程师、文本挖掘工程师

《自然语言处理项目集训营》第22期

☑ 智能客服 ☑ 知识图谱 ☑ 文本生成

☑ 文本分类 ☑ 情感分析 ☑ 金融法律

10大项目，助你成长为优秀的NLP工程师

对课程感兴趣的同学

请扫描二维码咨询

👇👇👇

项目学习目标：

学习NLP在用户情感分析应用中的解决方案，具体掌握：文本读取与清洗、关键词抽取(TF-IDF、TextRank)、中文分词、文本表示(Word2vec、Word Embedding、ELMo)、机器学习建模(LR、SVM、朴素贝叶斯、Fast Text)、深度学习建模(TextCNN、TextRNN、Aattention Model)

情感分析常应用于电商数据分析、市场分析、选举预测、消费分析以及可视化分析等领域

项目学习重点：

Part1：中文文本分类

l 自定义ELMo网络结构完成分类

Part2：中文情感分析

l Bert模型训练
l Tensorflow serveringinxing部署

Part3：法律场景下的NLP解决方案

l TextCNN、Tide&textCNN以及Textdensenet模型融合
l Fast Text、TextCNN、TextRCNN、TextRNN模型融合
l 采用机器学习stacking方式：

构造TF-IDF Stacking及统计特征
训练Doc2Vec模型
构造Doc2Vec-DBOW stacking特征、Doc2Vec-DM stacking特征
训练Word2vec模型、构造Word2vec特征
使用XGBoost结合特征进行交叉验证

可求职岗位：

文本挖掘工程师、 NLP算法工程师

项目学习目标：

以不同场景的文本生成(诗词小说文本生成、对联生成、摘要生成等)为例，学习文本读取与清洗、语言模型、seq2seq模型、注意力机制、自注意力机制与Transformer在文本生成中的作用。

文本自动生成应用在自动撰写新闻稿件、金融财报、营销方案等场景。

项目学习重点：

Part1：诗歌生成

l 使用Tensorflow框架，自定义LSTM网络结构

Part2：seq2seq构建写对联AI

l 谷歌开源、自定义seq2seq模型
l 双向RNN， Attention注意力机制的解码器

可求职岗位：

文本挖掘工程师、NLP算法工程师

项目学习目标：

以搜索引擎下的用户数据为主要研究对象，通过用户检索query分析挖掘构建用户画像模型，掌握文本读取与清洗、关键词抽取、主题模型、用户属性模型构建与识别

项目学习重点：

l 查看并清洗掉无关数据
l 理解数据与任务之间的联系
l 选择合适的机器学习算法进行建模
l 定义baseline模型、深度学习模型训练
l 添加人工特征进行最终优化
l 复盘整个项目

可求职岗位：

用户画像工程师、NLP算法工程师

项目学习目标：

以对话机器人为主要场景，介绍对话机器人构建的核心算法依赖环节，实现生成式与检索式对话机器人，掌握文本语义相似度学习（TF-IDF检索、Siamese CNN、Siamese LSTM、DSSM、CDSSM、DSSM-LSTM）

项目学习重点：

Part1：智能问答系统构建

l Jieba分词
l Mysql数据库存储
l TF-IDF检索模型
l 使用Doc2Vec模型进行问题匹配

Part2：深度学习文本匹配模型

l 深度语义匹配模型：DSSM、CDSSM、MV-DSSM
l 单语义文档表达的深度学习模型ARC-I
l 多语义文档表达的深度学习模型MV-LSTM
l 交互的文本相似度模型k-nrm

Part3：百度开源问答系统AnyQ

l FAQ集合的问答系统框架

l 文本语义匹配工具SimNet

可求职岗位：

语音机器人算法工程师、语音助手开发工程师、NLP算法工程师

《自然语言处理项目集训营》第22期

☑ 智能客服 ☑ 知识图谱 ☑ 文本生成

☑ 文本分类 ☑ 情感分析 ☑ 金融法律

10大项目，助你成长为优秀的NLP工程师

对课程感兴趣的同学

请扫描二维码咨询

👇👇👇

项目学习目标：

深度学习领域中端到端方式构建并改进的一系列NLP新模型应用，如Transformer、Bert、ELECTRA等模型结合各大比赛案例进行讲解如何应用这些模型解决典型的分类任务、句对建模任务、知识抽取任务等。具体落地应用场景一般有海量文本去重、推荐系统等。

项目学习重点：

Part1：经典深度学习NLP建模

l 句子相似度判定Siamese Network
l 从神经语言模型到预训练语言模型发展史

Part2：新兴NLP模型

l 基于Transformer的文本分类
l Bert及其变种在情感分析中的应用
l 新型模型ELECTRA及知识抽取案例讲解

可求职岗位：

深度学习算法工程师、NLP算法工程师

项目学习目标：

以NLP中最重要的语义匹配建模为学习任务，结合通用场景、金融领域场景、医疗领域场景，讲解深度学习的各种模型在文本语义匹配建模任务中的解决方案。并结合场景数据讲解在金融与医疗的垂直NLP应用领域（如智能客服）中对应的模型应用方法。

项目学习重点：

l 文本匹配问题
l 问答、对话与信息检索NLP核心技术
l 文本语义匹配场景：金融问答、闲聊、客服、问诊等
l fancy-nlp、bert4keras工具库
l 语义相似度建模场景数据格式介绍
l 孪生网络结构分析与网络搭建
l 孪生网络相似度建模解决方案

预处理、数据预处理与分析、数据增强
Word2vec、Word-embedding构建
语义抽取子网络搭建
孪生双塔结构搭建、不同损失函数构建
模型训练与优化、语义相似度度量与预估

l BERT句对建模网络搭建与解决方案
l 平安医疗、支付宝/微信的金融语义匹配建模

预处理、数据预处理与分析、数据增强
NLP特征与业务文本特征
SiameseCNN、SiameseRNN模型搭建
Albert、SiameseBert句对建模方案与应用

可求职岗位：

NLP算法工程师、智能问答研发工程师、文本挖掘工程师

项目学习目标：

针对非结构化数据的掌握知识图谱中的实体和关系的抽取，neo4j图数据库的使用。知识图谱广泛应用于搜索引擎、问答系统、推荐系统、司法辅助、教育医疗、社交类业务等场景中。

项目学习重点：

Part1：NER命名实体识别

l 基于规则、特征模板、神经网络的NER方法
l 基于字的BiLSTM-CRF模型

Part2：关系抽取

l TextCNN
l PCNN抽取

结合Multi-Instance Learning
结合Sentence-Level Attention

l TextCNN+Position Enbedding

Part3：知识图谱在电商和医疗领域的应用

l 深度学习端到端的NER及关系抽取
l BiLSTM+CRF，Tree-LSTM
l 基于N-gram的匹配
l Mysql进行标注，neo4j进行全量查询，
l Odps做持久化数据版本管理

面向岗位：

知识图谱工程师、智能问答工程师、NLP算法工程师

项目学习目标：

本项目学习知识图谱构建与应用全过程，包括数据采集、知识存储、知识抽取、知识计算、知识应用，还基于知识图谱构建了交互问答系统。整个过程使用到了多种NLP技术，从文本数据抽取与清洗、命名实体识别到用户意图识别，到实体关系抽取的系列模型，到问答与匹配技术，以及neo4j工具的使用和图挖掘的一些算法。

项目学习重点：

l 项目背景与项目内容
l 数据采集与信息抽取
l 实体提取、实体关系抽取
l neo4j工具与图数据库进行图计算
l 基于RDF三元组数据库Apache Jena进行知识存储
l Cypher语法与查询语句知识
l 数值、类别、时序特征构建与特征选择
l 图挖掘与图谱知识挖掘
l Pyhanlp进行分词与实体识别
l Feedforward-network意图识别
l TextCNN/TextRNN/TextRCNN意图识别
l 使用字典形式进行槽填充（slot filling）
l 网络分析与路径查询
l 图计算与社区发现
l 知识图谱交互与可视化
l 实体与关系查询功能页面实现
l 基于图谱的问答系统实现

面向岗位：

知识图谱工程师、智能问答工程师、NLP算法工程师

《自然语言处理项目集训营》第22期

☑ 智能客服 ☑ 知识图谱 ☑ 文本生成

☑ 文本分类 ☑ 情感分析 ☑ 金融法律

10大项目，助你成长为优秀的NLP工程师

对课程感兴趣的同学

请扫描二维码咨询

👇👇👇

业界独创的服务模式

尊享8对1的VIP服务

每一位学员都会配置独享服务群，配置8位专属服务老师全程陪伴

包括:

2位工业专家讲师、1位全职助教、1位工业助教、
2位就业指导老师、1位督学班主任、1位课程顾问

全天答疑，保证有问必答，作业1对1批改，考试1对1批改

免费提供GPU&CPU云平台（GPU有额度免费时长）

作业和练习
课程每个重要的知识点后都配置了对应的作业和练习，作业会得到助教的1V1批改反馈

阶段考试

每个学习阶段安排了考试，通过考核才能进入下一个阶段，对阶段性学习效果达成自检

课程直播和录播相结合，学员可以灵活安排学习计划和进度

学员收获的offer

自本课程开设以来，已经有一大批毕业学员入职NLP领域的互联网公司、金融行业、科研院所、创业公司，甚至越来越的的传统行业也开始注重AI技术的应用如何在本行业中创造新的价值。下面是一部分学员的offer情况：

……左右滑动，观看更多……

《自然语言处理项目集训营》第22期

☑ 智能客服 ☑ 知识图谱 ☑ 文本生成

☑ 文本分类 ☑ 情感分析 ☑ 金融法律

10大项目，助你成长为优秀的NLP工程师

对课程感兴趣的同学

请扫描二维码咨询

👇👇👇

适合什么样的人？

机器学习或深度学习领域自学一段时间，停留在使用模型/工具上，有一定的算法理论基础，但非常缺乏NLP项目经验；
有一定的编程经验，想通过技术转型进入NLP算法领域求职的，缺乏系统性学习；
非CS专业出身的本科或硕士生，希望获得算法岗实习或校招岗位的，缺乏计算机编程经验和算法理论知识学习

科学的课程进度

为满足不同基础的学员可以循序渐进的系统化学习，本课程可以根据学员自身的知识储备条件，选择从哪个阶段开始学习。完整的课程安排可以满足没有编程经验和算法基础的学员通过5-6个月的高强度学习入门NLP技术。

阶段一

Week1 |Python编程基础

Week2-3 |Python数据分析

Week4 | 人工智能的数统概基础

阶段二

Week5-6 | 大数据技术

Week7-9｜机器学习与深度学习的算法基础与应用

阶段三

Week10-12｜自然语言处理的算法基础

阶段四

Week13｜项目1——语种识别器

Week13｜项目2—新闻文本挖掘和分类（ML/DL）

Week14｜项目3—ELMo、BERT情感分析与法律NLP应用

Week15｜项目4—文本自动生成

Week16｜项目5—搜索引擎用户画像项目

阶段五

Week17｜项目6—智能客服与聊天机器人

Week18｜项目7—最新深度学习NLP模型案例应用

Week19｜项目8—金融与医疗场景的语义匹配建模应用项目

Week20｜项目9—知识图谱的实体与关系抽取

Week21｜项目10—知识图谱构建与知识挖掘及问答系统

阶段六

就业推荐与面试辅导

报名须知

本课程为收费教学。
本期招收学员名额有限。
品质保障！学习不满意，可在开课后7天内，无条件全额退款

《自然语言处理项目集训营》第22期

☑ 智能客服 ☑ 知识图谱 ☑ 文本生成

☑ 文本分类 ☑ 情感分析 ☑ 金融法律

10大项目，助你成长为优秀的NLP工程师

对课程感兴趣的同学

请扫描二维码咨询

👇👇👇

登录查看更多

相关内容

NLP

关注 0

NLP:自然语言处理

面向语义搜索的自然语言处理

专知会员服务

60+阅读 · 2021年12月18日

【ACL2021】预训练语言模型的少样本知识图谱文本生成

专知会员服务

42+阅读 · 2021年6月6日

知识增强的文本生成研究进展

专知会员服务

100+阅读 · 2021年3月6日

【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020

专知会员服务

43+阅读 · 2020年11月22日

【MLA 2019】自然语言处理中的表示学习进展：从Transfomer到BERT，复旦大学邱锡鹏

专知会员服务

100+阅读 · 2019年11月15日

详解NLP中的预训练模型、图神经网络、模型压缩、知识图谱

PaperWeekly

1+阅读 · 2021年12月11日

可以写进简历的10个项目，网申通过率提升50%

图与推荐

2+阅读 · 2021年11月4日

站在BERT肩膀上的NLP新秀们（PART I）

AINLP

30+阅读 · 2019年6月4日

挑战知识图谱、生成式对话系统、Bert模型的高阶NLP实战

AINLP

20+阅读 · 2019年5月29日

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

AINLP

28+阅读 · 2018年11月11日

基于文本情感和异质网络分析的社会化推荐研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于短文本的知识库自动更新关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

汉语句法分析中的自动歧义识别和分类问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

大型语义辞典的自动生成及在文本分析中的应用

国家自然科学基金

1+阅读 · 2012年12月31日

基于认知语境的文本情感计算及其应用

国家自然科学基金

1+阅读 · 2009年12月31日

L3Cube-HingCorpus and HingBERT: A Code Mixed Hindi-English Dataset and BERT Language Models

Arxiv

1+阅读 · 2022年4月18日

Unsupervised Attention-based Sentence-Level Meta-Embeddings from Contextualised Language Models

Arxiv

0+阅读 · 2022年4月16日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

Constructing Narrative Event Evolutionary Graph for Script Event Prediction

Arxiv

11+阅读 · 2018年5月16日

VIP会员