【关于 NLP】 那些你不知道的事

2020 年 10 月 31 日 AINLP


作者:杨夕

项目地址:https://github.com/km1994/nlp_paper_study

个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。


编者注:周末推荐一个很棒的 NLP Github 项目,内容相当丰富,推荐Star。以下是该项目的详细介绍,来自项目主页,导航目录每一项都对应有相应的链接,文末点击"阅读原文"直达该项目。






目录

  • 【关于 NLP】 那些你不知道的事

    • 论文工具篇

    • 会议收集篇

    • NLP 学习篇

    • Elastrsearch 学习篇

    • 推荐系统 学习篇

    • 竞赛篇

    • GCN_study学习篇

    • ML 小白入门篇

    • Java 实战篇

    • 百度百科 ES 全文检索平台构建 实战篇

    • 面试篇

    • 大数据 实战篇

    • 资源篇

    • CV 入门 实战篇

    • 经典论文研读篇

    • transformer 学习篇

    • 预训练模型篇

    • 细粒度情感分析论文研读

    • 主动学习论文研读

    • 对抗训练论文研读

    • 实体关系联合抽取论文研读:

    • GCN 在 NLP 上的应用 论文研读:

    • 命名实体识别论文研读:

    • 关系抽取论文研读:

    • 文本预处理

    • 问答系统论文学习

    • 文本摘要论文学习

    • 文本匹配论文学习

    • 机器翻译论文学习

    • 文本生成论文学习

    • 对话系统论文学习

    • rasa 学习

    • 理论学习篇

    • 视频学习篇

    • 实战篇

    • Leetcode 篇

    • DeepLearning-500-questions

    • Spark 实战篇

    • 目录

    • 介绍

介绍

论文工具篇

  • 问题

    • 作为一名 scholar,你是否和我一样,在刚入门 NLP 时,对于陌生领域有种无从下手,心存畏惧?

    • 作为一名 scholar,你是否还在发愁如何找好的论文?

    • 作为一名 scholar,你是否还在为 自己 的 英文阅读 能力跟不上 很烦恼?

    • 作为一名 scholar,你是否还在为 看到 一篇好paper,但是复现不出 code 而心累?

    • 作为一名 scholar,你是否还在为 有Good idea,Outstanding Experimental results,Beautiful Chinese manuscript,结果 Bad English manuscript, Poor Journal 而奔溃?

    • 作为一名 scholar,你是否在为搞科研没人交流而自闭?

  • 当你看到这一篇文档,你将不在为这些问题而烦恼,因为我们为你准备了一整套免费的从 论文查找->论文翻译->论文理解->相关代码搜索->写英文稿->科研学术交流 的路径。

    • Shortscience

    • OpenReview

    • Scirate

    • Overleaf

    • Authorea

    • Code ocean

    • papers with code

    • OpenGitHub 新项目快报

    • 论文翻译神器 ———— 通天塔

    • 论文翻译小助手 ———— 彩云小译

    • 顶会资讯

    • 论文搜索和分析工具

    • 论文不会找怎么办?

    • 外文读不懂怎么办?

    • 外文没 code 怎么办?

    • 外文写起来麻烦怎么办

    • 搞科研没人交流怎么办?

会议收集篇

  • ACL2020

  • SIGIR2020

NLP 学习篇

理论学习篇

经典论文研读篇
  • 那些你所不知道的事

    • 【关于Transformer】 那些的你不知道的事

    • 【关于Bert】 那些的你不知道的事

transformer 学习篇
  • transformer_study transformer 论文学习

    • 【关于Transformer】 那些的你不知道的事

    • Transformer-XL

    • Single Headed Attention RNN: Stop Thinking With Your Head 单头注意力 RNN: 停止用你的头脑思考

    • Universal Transformers

    • Style_Transformer

    • ACL2020_Linformer

预训练模型篇
  • Bert_study:Bert论文研读

    • 【关于Bert】 那些的你不知道的事

    • 【关于 XLNet 】 那些你不知道的事

    • 【关于 RoBERTa】 那些你不知道的事

    • 【关于 ELECTRA 】 那些的你不知道的事

    • 【关于 Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT】 那些你不知道的事

    • 【关于 GRAPH-BERT】 那些你不知道的事)

  • 【关于 Bert 模型压缩】 那些你不知道的事

    • 【关于 Bert 压缩】 那些你不知道的事

    • 【关于 AlBert 】 那些你不知道的事

    • 【关于 FastBERT】 那些你不知道的事

    • 【关于 distilbert】 那些你不知道的事

    • 【关于 TinyBert】 那些你不知道的事

细粒度情感分析论文研读
  • LCF: A Local Context Focus Mechanism for Aspect-Based Sentiment Classification

主动学习论文研读
  • Proactive Learning for Named Entity Recognition(命名实体识别的主动学习)

对抗训练论文研读
  • FreeLB: Enhanced Adversarial Training for Language Understanding 加强语言理解的对抗性训练

实体关系联合抽取论文研读:
  • Incremental Joint Extraction of Entity Mentions and Relations

  • Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy

  • GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction

  • A Novel Hierarchical Binary Tagging Framework for Relational Triple Extraction

GCN 在 NLP 上的应用 论文研读:
  • GCN 在 NLP 上的应用 论文研读

命名实体识别论文研读:
  • LatticeLSTM

  • named entity recognition using positive-unlabeled learning

  • GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction

  • TENER: Adapting Transformer Encoder for Name Entity Recognition

  • CrossWeigh从不完善的注释中训练命名实体标注器

  • 利用词汇知识通过协同图网络进行中文命名实体识别

  • 一点注释对引导低资源命名实体识别器有很多好处

  • CGN: Leverage Lexical Knowledge for Chinese Named Entity Recognition via Collaborative Graph Network(EMNLP2019)

  • Fine-Grained Entity Typing in Hyperbolic Space(在双曲空间中打字的细粒度实体)

  • LR-CNN:CNN-Based Chinese NER with Lexicon Rethinking(IJCAI2019)

关系抽取论文研读:
  • End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures【2016】

  • ERNIE

  • GraphRel

  • R_BERT

  • Task 1:全监督学习

    • Relation Classification via Convolutional Deep Neural Network

    • Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

    • Relation Classification via Attention Model

  • Task 2:远程监督学习

    • Relation Classification via Convolutional Deep Neural Network

    • NRE_with_Selective_Attention_over_Instances

文本预处理
  • 过采样

问答系统论文学习
  • Lattice CNNs for Matching Based Chinese Question Answering

  • LSTM-based Deep Learning Models for Non-factoid Answer Selection

  • Denoising Distantly Supervised Open-Domain Question Answering

  • FAQ retrieval using query-question similarity and BERT-based query-answer relevance

  • DC-BERT : DECOUPLING QUESTION AND DOCUMENT FOR EFFICIENT CONTEXTUAL ENCODING

文本摘要论文学习
  • Fine-tune BERT for Extractive Summarization

  • Pointer-Generator Networks 指针网络读书笔记

文本匹配论文学习
  • Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks

  • Simple and Effective Text Matching with Richer Alignment Features

  • Deep Structured Semantic Model

  • ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs

  • Enhanced LSTM for Natural Language Inference

  • Bilateral Multi-perspective Matching

  • Densely Interactive Inference Network(DIIN)

机器翻译论文学习
  • Neural Machine Translation of Rare Words with Subword Units 论文学习

文本生成论文学习
  • 【关于 SLCVAE 安装 】那些你不知道的事

对话系统论文学习
  1. 【关于 Domain/Intent Classification 】那些你不知道的事

  2. 【关于 槽位填充 (Slot Filling)】那些你不知道的事

  3. 【关于 上下文LU】那些你不知道的事

  4. 【关于 自然语言生成NLG 】那些你不知道的事

  5. 【关于 DSTC 】那些你不知道的事

  6. 【关于 E2E 】那些你不知道的事

    1. 【关于 TC_Bot(End-to-End Task-Completion Neural Dialogue Systems) 】那些你不知道的事

rasa 学习
  1. 【关于 rasa 安装 】那些你不知道的事

  2. 【关于 rasa 基本架构 】那些你不知道的事

  3. 【关于 rasa中文对话系统】那些你不知道的事

  4. 【关于 rasa中文对话系统构建】那些你不知道的事

  5. 【关于 rasa->NLU 】那些你不知道的事

  6. 【关于 rasa -> Core -> FormAction 】那些你不知道的事

  7. 【关于 rasa -> Core -> Stories 】那些你不知道的事

  8. 【关于 rasa -> Core -> Action 】那些你不知道的事

视频学习篇

  • CS224n 视频学习篇

    • Lecture 1: Introduction and Word Vectors

    • Lecture 2: Word Vectors and Word Senses

    • Lecture 3: Word Window Classification, Neural Networks, and Matrix Calculus

    • Lecture 4: Backpropagation

    • Lecture 5: Dependency Parsing

    • Lecture 6: Language Models and RNNs

    • Lecture 7: Vanishing Gradients, Fancy RNNs

    • Lecture 8: Translation, Seq2Seq, Attention

    • Lecture 9: Practical Tips for Projects

    • Lecture 10: Question Answering

    • Lecture 11: Convolutional Networks for NLP

    • Lecture 12: Subword Models

    • Lecture 13: Contextual Word Embeddings

    • Lecture 14: Transformers and Self-Attention

    • Lecture 15: Natural Language Generation

    • Lecture 16: Coreference Resolution

    • Lecture 17: Multitask Learning

    • Lecture 18: Constituency Parsing, TreeRNNs

    • Lecture 19: Bias in AI

    • Lecture 20: Future of NLP + Deep Learning

实战篇

  • 爬虫 实战篇

    • Scrapy 爬虫 实战篇:主要介绍使用 scrapy 构建网络爬虫,并爬去百度搜索引擎数据

  • 特征提取 实战篇

    • 关键词提取、关键短语提取、文本摘要提取 实战篇

    • TF-idf 特征提取 实战篇

    • pynlp 关键词提取 实战篇

  • 词向量预训练 实战篇

    • word2vec 词向量预训练 实战篇

    • fasttext 词向量预训练 实战篇

  • 中文情感分析 实战篇

    • word2vec

    • textCNN

    • charCNN

    • RCNN

    • Bi-LSTM

    • Bi-LSTM+Attention

    • adversarialLSTM

    • Transformer

    • ELMo

    • BERT

  • 中文文本分类 实战篇

    • FastText

    • TextCNN

    • TextRNN

    • TextRCNN

    • BiLSTMAttention

    • DPCNN

    • AdversarialLSTM

    • Transformer

    • FastText

    • TextCNN

    • TextRNN

    • TextRCNN

    • BiLSTMAttention

    • AdversarialLSTM

    • Transformer

    • Tensorflow 篇

    • pytorch 篇

  • 命名实体识别 “史诗级” 入门教程

    • HMM 做命名实体识别

    • CRF 做命名实体识别

    • BiLSTM-CRF 做命名实体识别

    • IDCNN-CRF 做命名实体识别

    • BERT-CRF 做命名实体识别

    • ALBERT-CRF 做命名实体识别

  • 知识图谱 实战篇

    • KBQA-BERT

  • 问答系统 实战篇

    • 基于 百度问答 的问答系统

  • 文本匹配 实战篇

    • TextMatching

    • TextMatch

    • Text_Matching(文本匹配算法)

  • 预训练模型 实战篇

    • bert

    • Chinese-PreTrained-XLNet

  • 模型蒸馏 实战篇

    • 基于BERT的蒸馏实验

Elastrsearch 学习篇

  • Elastrsearch 学习

    • ElasticSearch架构解析与最佳实践.md

推荐系统 学习篇

  • 推荐系统 基础

    • 【关于 推荐系统】那些你不知道的事

    • 【关于 召回】那些你不知道的事

    • 【关于 embedding召回】那些你不知道的事

    • 【关于 协同过滤】那些你不知道的事

    • 【关于 矩阵分解】那些你不知道的事

    • 【关于 FM】那些你不知道的事

  • 推荐系统 论文学习

    • DeepFM 论文学习

    • DeepWalk 论文学习

    • ESMM 论文学习

    • 【关于 FiBiNET】那些你不知道的事

    • 【关于 DeepCF】那些你不知道的事

竞赛篇

  • 竞赛篇

GCN_study学习篇

  • GCN 介绍篇

    • Graph 介绍

    • Weisfeiler-Leman 算法介绍

  • GCN 三剑客

    • Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering

    • SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS

    • Attention Models in Graphs: A Survey

  • 经典篇

    • Can GNN go “online”?an analysis of pretraining and inference

    • Graph Convolutional Networks for Text Classification

    • HOW POWERFUL ARE GRAPH NEURAL NETWORKS

    • Graph Convolutional Matrix Completion

    • Representation Learning For Attributed Multiplex Heterogeneous Network

  • 预训练篇

    • GNN 教程:GCN 的无监督预训练

    • Pre-training Graph Neural Networks

  • 实战篇

    • DGL

    • DGL 入门

    • DGL 入门 —— GCN 实现

ML 小白入门篇

  • 【关于 Logistic Regression 】那些你不知道的事

  • 概率图模型串烧 (HMM->MEMM->CRF)

  • KNN 算法 学习篇

    • 理论篇

    • 实战篇

  • 朴素贝叶斯算法 学习篇

    • NB 算法理论学习

    • NB 算法实现

  • Apriori 算法 学习篇

    • Apriori 算法理论学习

    • Apriori 算法实现

  • Softmax 算法学习篇

    • Softmax 理论学习

    • Softmax 算法实现

  • Gradient Descent 算法学习篇

    • GradientDescent 算法理论学习

    • GradientDescent 算法实现

  • 随机森林算法 学习篇

    • RandomForest 算法理论学习

    • RandomForest 算法实现

    • 基于PCA 的 RandomForest 算法实现

  • EM 算法学习篇

  • SVM 算法学习篇

    • SVN 算法理论学习

    • SVM 算法学习篇

    • SVN 算法实现

  • BPNN 算法 学习篇

    • BPNN 算法理论学习

    • BPNN 算法实现

  • PCA 算法 学习篇

    • PCA 算法理论学习

    • PCA 算法实现

  • CNN 算法 学习篇

    • 卷积运算的定义、动机

    • 反卷积Deconvolution

    • 池化运算的定义

    • CNN 算法 numpy 实现

Java 实战篇

百度百科 ES 全文检索平台构建 实战篇

  • 项目目标

    • 实现一个 基于 百度百科 的 ES 全文检索平台

  • 项目流程

    • step 1: 编写 网络爬虫 爬取 百度百科 数据;

    • step 2: 爬取数据之后,需要进行预处理操作,清洗掉 文本中噪声数据;

    • step 3: 将输入 导入 ES ;

    • step 4: 利用 python 编写 后台,并 对 ES 进行查询,返回接口数据;

    • step 5: ES 数据前端展示;

    • step 6: 百度百科 知识图谱构建

    • step 7:百度百科 知识图谱检索与展示

  • 数据介绍:

    • 本项目通过编写爬虫爬取 百度百科 数据,总共爬取 名称、链接、简介、中文名、外文名、国籍、出生地、出生日期、职业、类型、中文名称、代表作品、民族、主要成就、别名、毕业院校、导演、制片地区、主演、编剧、上映时间 等400多个 指标,共爬取数据 98000 条。

  • 数据预处理模块

爬取的数据根据名称可以分为 人物、地点、书籍、作品、综艺节目等。

类别 指标量 数量 筛选方式
人物 109 27319 国籍、职业、出生日期、出生地有一个不为空
地点 124 9361 地理位置、所属地区有一个不为空
书籍 45 3336 作者 不为空
作品 45 8850 主演为空,中文名称不为空
综艺节目 108 5600 主演、导演都不为空

面试篇

Leetcode 篇

  • 简单题

  • 数组

  • 链表

  • 动态规划

  • 字符串

  • 排序

  • 二分查找

  • 哈希表

  • 队列

  • 回溯法

  • 归并排序

  • 快慢指针

  • 贪心算法

  • 递归

  • 分治

  • 分支限界法

  • 位运算

  • 滑动窗口

  • 数学题

  • 面试题

DeepLearning-500-questions

大数据 实战篇

Spark 实战篇

  • 1、wordCount

    • 2.1 Spark的安装和使用 (如果想在window上安装,参考https://blog.csdn.net/SummerHmh/article/details/89518567,之后可以用pyspark或者jupyter上进行学习)(地址有问题,可以使用这个https://www-eu.apache.org/dist/spark/spark-2.4.3/)

    • 2.2 第一个Spark应用程序:WordCount

    • 1.1 Spark简介

    • 1.2 Spark运行架构

    • 1.3 RDD的设计与运行原理

    • 1.4 Spark的部署模式

    • 内容:运行原理,RDD设计,DAG,安装与使用

    • 第1章 Spark的设计与运行原理(大概了解)

    • 第2章 Spark的安装与使用(主要内容)

  • 2、RDDStudy

    • 3.1 Spark入门:RDD编程

    • 3.2 Spark入门:键值对RDD

    • 3.3 Spark入门:共享变量(提升-分布式必备)

    • 3.4 数据读写

    • 3.4.1 Spark入门:文件数据读写

    • 内容:RDD编程,熟悉算子,读写文件

    • 第3章 Spark编程基础

  • 3、sparkSQLStudy

    • 4.1 Spark SQL简介

    • 4.2 DataFrame与RDD的区别

    • 4.3 DataFrame的创建

    • 4.4 从RDD转换得到DataFrame

    • 内容:DataFrame,SparkSQL

    • 第4章

  • 4、Parquet_JDBC_IO_Study

  • 5、MLlibStudy

    • 6.1 Spark MLlib简介

    • 6.2 机器学习工作流

    • 6.3 特征抽取、转化和选择

    • 6.2.1 机器学习工作流(ML Pipelines)

    • 6.2.2 构建一个机器学习工作流

    • 6.3.1 特征抽取:TF-IDF

    • 6.3.4 特征变换:标签和索引的转化

    • 6.3.5 特征选取:卡方选择器

    • 内容:MLlib流设计,特征工程

    • 第6章 Spark MLlib

资源篇

  • funNLP



由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方"AINLP",进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

欢迎加入AINLP技术交流群
进群请添加AINLP小助手微信 AINLPer(id: ainlper),备注NLP技术交流

推荐阅读

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)

从数据到模型,你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


阅读至此了,分享、点赞、在看三选一吧🙏

登录查看更多
0

相关内容

自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
23+阅读 · 2020年12月12日
专知会员服务
123+阅读 · 2020年9月8日
【机器学习术语宝典】机器学习中英文术语表
专知会员服务
59+阅读 · 2020年7月12日
还在修改博士论文?这份《博士论文写作技巧》为你指南
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
220+阅读 · 2020年6月5日
学习自然语言处理路线图
专知会员服务
137+阅读 · 2019年9月24日
如何在2019年变成NLP专家
专知
7+阅读 · 2019年5月18日
分词那些事儿
AINLP
6+阅读 · 2019年3月26日
初入NLP领域的一些小建议
人工智能前沿讲习班
6+阅读 · 2019年3月16日
NLP 分词的那些事儿
人工智能头条
8+阅读 · 2019年3月15日
如何在NLP领域干成第一件事
AI100
6+阅读 · 2018年2月3日
如何在NLP领域干成第一件事?
AI研习社
13+阅读 · 2017年11月26日
Arxiv
0+阅读 · 2021年1月30日
Arxiv
8+阅读 · 2019年3月21日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关VIP内容
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
23+阅读 · 2020年12月12日
专知会员服务
123+阅读 · 2020年9月8日
【机器学习术语宝典】机器学习中英文术语表
专知会员服务
59+阅读 · 2020年7月12日
还在修改博士论文?这份《博士论文写作技巧》为你指南
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
220+阅读 · 2020年6月5日
学习自然语言处理路线图
专知会员服务
137+阅读 · 2019年9月24日
相关资讯
如何在2019年变成NLP专家
专知
7+阅读 · 2019年5月18日
分词那些事儿
AINLP
6+阅读 · 2019年3月26日
初入NLP领域的一些小建议
人工智能前沿讲习班
6+阅读 · 2019年3月16日
NLP 分词的那些事儿
人工智能头条
8+阅读 · 2019年3月15日
如何在NLP领域干成第一件事
AI100
6+阅读 · 2018年2月3日
如何在NLP领域干成第一件事?
AI研习社
13+阅读 · 2017年11月26日
Top
微信扫码咨询专知VIP会员