作者:杨夕
项目地址:https://github.com/km1994/nlp_paper_study
个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。
编者注:周末推荐一个很棒的 NLP Github 项目,内容相当丰富,推荐Star。以下是该项目的详细介绍,来自项目主页,导航目录每一项都对应有相应的链接,文末点击"阅读原文"直达该项目。
【关于 NLP】 那些你不知道的事
论文工具篇
会议收集篇
NLP 学习篇
Elastrsearch 学习篇
推荐系统 学习篇
竞赛篇
GCN_study学习篇
ML 小白入门篇
Java 实战篇
百度百科 ES 全文检索平台构建 实战篇
面试篇
大数据 实战篇
资源篇
CV 入门 实战篇
经典论文研读篇
transformer 学习篇
预训练模型篇
细粒度情感分析论文研读
主动学习论文研读
对抗训练论文研读
实体关系联合抽取论文研读:
GCN 在 NLP 上的应用 论文研读:
命名实体识别论文研读:
关系抽取论文研读:
文本预处理
问答系统论文学习
文本摘要论文学习
文本匹配论文学习
机器翻译论文学习
文本生成论文学习
对话系统论文学习
rasa 学习
理论学习篇
视频学习篇
实战篇
Leetcode 篇
DeepLearning-500-questions
Spark 实战篇
目录
介绍
问题
作为一名 scholar,你是否和我一样,在刚入门 NLP 时,对于陌生领域有种无从下手,心存畏惧?
作为一名 scholar,你是否还在发愁如何找好的论文?
作为一名 scholar,你是否还在为 自己 的 英文阅读 能力跟不上 很烦恼?
作为一名 scholar,你是否还在为 看到 一篇好paper,但是复现不出 code 而心累?
作为一名 scholar,你是否还在为 有Good idea,Outstanding Experimental results,Beautiful Chinese manuscript,结果 Bad English manuscript, Poor Journal 而奔溃?
作为一名 scholar,你是否在为搞科研没人交流而自闭?
当你看到这一篇文档,你将不在为这些问题而烦恼,因为我们为你准备了一整套免费的从 论文查找->论文翻译->论文理解->相关代码搜索->写英文稿->科研学术交流 的路径。
Shortscience
OpenReview
Scirate
Overleaf
Authorea
Code ocean
papers with code
OpenGitHub 新项目快报
论文翻译神器 ———— 通天塔
论文翻译小助手 ———— 彩云小译
顶会资讯
论文搜索和分析工具
论文不会找怎么办?
外文读不懂怎么办?
外文没 code 怎么办?
外文写起来麻烦怎么办
搞科研没人交流怎么办?
ACL2020
SIGIR2020
那些你所不知道的事
【关于Transformer】 那些的你不知道的事
【关于Bert】 那些的你不知道的事
transformer_study transformer 论文学习
【关于Transformer】 那些的你不知道的事
Transformer-XL
Single Headed Attention RNN: Stop Thinking With Your Head 单头注意力 RNN: 停止用你的头脑思考
Universal Transformers
Style_Transformer
ACL2020_Linformer
Bert_study:Bert论文研读
【关于Bert】 那些的你不知道的事
【关于 XLNet 】 那些你不知道的事
【关于 RoBERTa】 那些你不知道的事
【关于 ELECTRA 】 那些的你不知道的事
【关于 Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT】 那些你不知道的事
【关于 GRAPH-BERT】 那些你不知道的事)
【关于 Bert 模型压缩】 那些你不知道的事
【关于 Bert 压缩】 那些你不知道的事
【关于 AlBert 】 那些你不知道的事
【关于 FastBERT】 那些你不知道的事
【关于 distilbert】 那些你不知道的事
【关于 TinyBert】 那些你不知道的事
LCF: A Local Context Focus Mechanism for Aspect-Based Sentiment Classification
Proactive Learning for Named Entity Recognition(命名实体识别的主动学习)
FreeLB: Enhanced Adversarial Training for Language Understanding 加强语言理解的对抗性训练
Incremental Joint Extraction of Entity Mentions and Relations
Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy
GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction
A Novel Hierarchical Binary Tagging Framework for Relational Triple Extraction
GCN 在 NLP 上的应用 论文研读
LatticeLSTM
named entity recognition using positive-unlabeled learning
GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction
TENER: Adapting Transformer Encoder for Name Entity Recognition
CrossWeigh从不完善的注释中训练命名实体标注器
利用词汇知识通过协同图网络进行中文命名实体识别
一点注释对引导低资源命名实体识别器有很多好处
CGN: Leverage Lexical Knowledge for Chinese Named Entity Recognition via Collaborative Graph Network(EMNLP2019)
Fine-Grained Entity Typing in Hyperbolic Space(在双曲空间中打字的细粒度实体)
LR-CNN:CNN-Based Chinese NER with Lexicon Rethinking(IJCAI2019)
End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures【2016】
ERNIE
GraphRel
R_BERT
Task 1:全监督学习
Relation Classification via Convolutional Deep Neural Network
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
Relation Classification via Attention Model
Task 2:远程监督学习
Relation Classification via Convolutional Deep Neural Network
NRE_with_Selective_Attention_over_Instances
过采样
Lattice CNNs for Matching Based Chinese Question Answering
LSTM-based Deep Learning Models for Non-factoid Answer Selection
Denoising Distantly Supervised Open-Domain Question Answering
FAQ retrieval using query-question similarity and BERT-based query-answer relevance
DC-BERT : DECOUPLING QUESTION AND DOCUMENT FOR EFFICIENT CONTEXTUAL ENCODING
Fine-tune BERT for Extractive Summarization
Pointer-Generator Networks 指针网络读书笔记
Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks
Simple and Effective Text Matching with Richer Alignment Features
Deep Structured Semantic Model
ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs
Enhanced LSTM for Natural Language Inference
Bilateral Multi-perspective Matching
Densely Interactive Inference Network(DIIN)
Neural Machine Translation of Rare Words with Subword Units 论文学习
【关于 SLCVAE 安装 】那些你不知道的事
【关于 Domain/Intent Classification 】那些你不知道的事
【关于 槽位填充 (Slot Filling)】那些你不知道的事
【关于 上下文LU】那些你不知道的事
【关于 自然语言生成NLG 】那些你不知道的事
【关于 DSTC 】那些你不知道的事
【关于 E2E 】那些你不知道的事
【关于 TC_Bot(End-to-End Task-Completion Neural Dialogue Systems) 】那些你不知道的事
【关于 rasa 安装 】那些你不知道的事
【关于 rasa 基本架构 】那些你不知道的事
【关于 rasa中文对话系统】那些你不知道的事
【关于 rasa中文对话系统构建】那些你不知道的事
【关于 rasa->NLU 】那些你不知道的事
【关于 rasa -> Core -> FormAction 】那些你不知道的事
【关于 rasa -> Core -> Stories 】那些你不知道的事
【关于 rasa -> Core -> Action 】那些你不知道的事
CS224n 视频学习篇
Lecture 1: Introduction and Word Vectors
Lecture 2: Word Vectors and Word Senses
Lecture 3: Word Window Classification, Neural Networks, and Matrix Calculus
Lecture 4: Backpropagation
Lecture 5: Dependency Parsing
Lecture 6: Language Models and RNNs
Lecture 7: Vanishing Gradients, Fancy RNNs
Lecture 8: Translation, Seq2Seq, Attention
Lecture 9: Practical Tips for Projects
Lecture 10: Question Answering
Lecture 11: Convolutional Networks for NLP
Lecture 12: Subword Models
Lecture 13: Contextual Word Embeddings
Lecture 14: Transformers and Self-Attention
Lecture 15: Natural Language Generation
Lecture 16: Coreference Resolution
Lecture 17: Multitask Learning
Lecture 18: Constituency Parsing, TreeRNNs
Lecture 19: Bias in AI
Lecture 20: Future of NLP + Deep Learning
爬虫 实战篇
Scrapy 爬虫 实战篇:主要介绍使用 scrapy 构建网络爬虫,并爬去百度搜索引擎数据
特征提取 实战篇
关键词提取、关键短语提取、文本摘要提取 实战篇
TF-idf 特征提取 实战篇
pynlp 关键词提取 实战篇
词向量预训练 实战篇
word2vec 词向量预训练 实战篇
fasttext 词向量预训练 实战篇
中文情感分析 实战篇
word2vec
textCNN
charCNN
RCNN
Bi-LSTM
Bi-LSTM+Attention
adversarialLSTM
Transformer
ELMo
BERT
中文文本分类 实战篇
FastText
TextCNN
TextRNN
TextRCNN
BiLSTMAttention
DPCNN
AdversarialLSTM
Transformer
FastText
TextCNN
TextRNN
TextRCNN
BiLSTMAttention
AdversarialLSTM
Transformer
Tensorflow 篇
pytorch 篇
命名实体识别 “史诗级” 入门教程
HMM 做命名实体识别
CRF 做命名实体识别
BiLSTM-CRF 做命名实体识别
IDCNN-CRF 做命名实体识别
BERT-CRF 做命名实体识别
ALBERT-CRF 做命名实体识别
知识图谱 实战篇
KBQA-BERT
问答系统 实战篇
基于 百度问答 的问答系统
文本匹配 实战篇
TextMatching
TextMatch
Text_Matching(文本匹配算法)
预训练模型 实战篇
bert
Chinese-PreTrained-XLNet
模型蒸馏 实战篇
基于BERT的蒸馏实验
Elastrsearch 学习
ElasticSearch架构解析与最佳实践.md
推荐系统 基础
【关于 推荐系统】那些你不知道的事
【关于 召回】那些你不知道的事
【关于 embedding召回】那些你不知道的事
【关于 协同过滤】那些你不知道的事
【关于 矩阵分解】那些你不知道的事
【关于 FM】那些你不知道的事
推荐系统 论文学习
DeepFM 论文学习
DeepWalk 论文学习
ESMM 论文学习
【关于 FiBiNET】那些你不知道的事
【关于 DeepCF】那些你不知道的事
竞赛篇
GCN 介绍篇
Graph 介绍
Weisfeiler-Leman 算法介绍
GCN 三剑客
Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering
SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS
Attention Models in Graphs: A Survey
经典篇
Can GNN go “online”?an analysis of pretraining and inference
Graph Convolutional Networks for Text Classification
HOW POWERFUL ARE GRAPH NEURAL NETWORKS
Graph Convolutional Matrix Completion
Representation Learning For Attributed Multiplex Heterogeneous Network
预训练篇
GNN 教程:GCN 的无监督预训练
Pre-training Graph Neural Networks
实战篇
DGL
DGL 入门
DGL 入门 —— GCN 实现
【关于 Logistic Regression 】那些你不知道的事
概率图模型串烧 (HMM->MEMM->CRF)
KNN 算法 学习篇
理论篇
实战篇
朴素贝叶斯算法 学习篇
NB 算法理论学习
NB 算法实现
Apriori 算法 学习篇
Apriori 算法理论学习
Apriori 算法实现
Softmax 算法学习篇
Softmax 理论学习
Softmax 算法实现
Gradient Descent 算法学习篇
GradientDescent 算法理论学习
GradientDescent 算法实现
随机森林算法 学习篇
RandomForest 算法理论学习
RandomForest 算法实现
基于PCA 的 RandomForest 算法实现
EM 算法学习篇
SVM 算法学习篇
SVN 算法理论学习
SVM 算法学习篇
SVN 算法实现
BPNN 算法 学习篇
BPNN 算法理论学习
BPNN 算法实现
PCA 算法 学习篇
PCA 算法理论学习
PCA 算法实现
CNN 算法 学习篇
卷积运算的定义、动机
反卷积Deconvolution
池化运算的定义
CNN 算法 numpy 实现
项目目标
实现一个 基于 百度百科 的 ES 全文检索平台
项目流程
step 1: 编写 网络爬虫 爬取 百度百科 数据;
step 2: 爬取数据之后,需要进行预处理操作,清洗掉 文本中噪声数据;
step 3: 将输入 导入 ES ;
step 4: 利用 python 编写 后台,并 对 ES 进行查询,返回接口数据;
step 5: ES 数据前端展示;
step 6: 百度百科 知识图谱构建
step 7:百度百科 知识图谱检索与展示
数据介绍:
本项目通过编写爬虫爬取 百度百科 数据,总共爬取 名称、链接、简介、中文名、外文名、国籍、出生地、出生日期、职业、类型、中文名称、代表作品、民族、主要成就、别名、毕业院校、导演、制片地区、主演、编剧、上映时间 等400多个 指标,共爬取数据 98000 条。
数据预处理模块
爬取的数据根据名称可以分为 人物、地点、书籍、作品、综艺节目等。
类别 | 指标量 | 数量 | 筛选方式 |
---|---|---|---|
人物 | 109 | 27319 | 国籍、职业、出生日期、出生地有一个不为空 |
地点 | 124 | 9361 | 地理位置、所属地区有一个不为空 |
书籍 | 45 | 3336 | 作者 不为空 |
作品 | 45 | 8850 | 主演为空,中文名称不为空 |
综艺节目 | 108 | 5600 | 主演、导演都不为空 |
简单题
数组
链表
动态规划
字符串
栈
排序
二分查找
哈希表
队列
堆
回溯法
树
归并排序
快慢指针
贪心算法
递归
分治
分支限界法
位运算
滑动窗口
数学题
面试题
1、wordCount
2.1 Spark的安装和使用 (如果想在window上安装,参考https://blog.csdn.net/SummerHmh/article/details/89518567,之后可以用pyspark或者jupyter上进行学习)(地址有问题,可以使用这个https://www-eu.apache.org/dist/spark/spark-2.4.3/)
2.2 第一个Spark应用程序:WordCount
1.1 Spark简介
1.2 Spark运行架构
1.3 RDD的设计与运行原理
1.4 Spark的部署模式
内容:运行原理,RDD设计,DAG,安装与使用
第1章 Spark的设计与运行原理(大概了解)
第2章 Spark的安装与使用(主要内容)
2、RDDStudy
3.1 Spark入门:RDD编程
3.2 Spark入门:键值对RDD
3.3 Spark入门:共享变量(提升-分布式必备)
3.4 数据读写
3.4.1 Spark入门:文件数据读写
内容:RDD编程,熟悉算子,读写文件
第3章 Spark编程基础
3、sparkSQLStudy
4.1 Spark SQL简介
4.2 DataFrame与RDD的区别
4.3 DataFrame的创建
4.4 从RDD转换得到DataFrame
内容:DataFrame,SparkSQL
第4章
4、Parquet_JDBC_IO_Study
5、MLlibStudy
6.1 Spark MLlib简介
6.2 机器学习工作流
6.3 特征抽取、转化和选择
6.2.1 机器学习工作流(ML Pipelines)
6.2.2 构建一个机器学习工作流
6.3.1 特征抽取:TF-IDF
6.3.4 特征变换:标签和索引的转化
6.3.5 特征选取:卡方选择器
内容:MLlib流设计,特征工程
第6章 Spark MLlib
funNLP
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方"AINLP",进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
推荐阅读
征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)
完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)
模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法
文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化
斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。
阅读至此了,分享、点赞、在看三选一吧🙏