序列标注

序列标注是典型的NLP任务,比如中文分词,词性标注，命名实体识别,语义角色标注等。都可以归入这一类问题。

特点是: 句子中每个单词要求模型根据上下文都要给出一个分类类别。

分词/ POS tag/NER/语义标注…

分类任务

常见的文本分类/情感计算… 意图识别…

特点是不管文章有多长, 总体给出一个分类类别即可

句子关系判断

Entailment/QA/自然语言推理… 语义改写,自然语言推理等任务都是这个模式

它的特点是给定两个句子, 模型判断出两个句子是否具备某种语义关系.

生成式任务

比如机器翻译, 文本摘要, 写诗造句, 看图说话等都属于这一类。

特点是输入文本内容后，需要自主生成另一段文字.

解决这些不同的任务, 从模型角度来讲什么最重要? 是特征抽取器的能力.
尤其是深度学习流行开来后，这一点更凸显出来。

因为以前研发人员待考虑设计抽取哪些特征，而端到端时代后，这些你完全不用管，把原始输入扔给好的特征抽取器, 它自己会把有用的特征抽取出来.

选择一个好的特征抽取器. 喂给它大量的训练数据;设定好优化目标(loss function)
然后大量时间其实在调参上.

三大特征抽取器

RNN

CNN

单卷积层无法捕获远距离特征

Dilated CNN捕获远距离特征

加深CNN网络来捕获远距离特征

NLP界主流的CNN长什么样子.

Transformer

谷歌在17年做机器翻译任务的“Attention is all you need”的论文中提出的

参考: 放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较

应用场景

智能问答、对话机器人、舆情分析、内容推荐、电商评价分析等场景中.
中心词提取:搜索query、标题及其他类似短文本（一般小于25个词）的中心词
文本信息抽取:
情感分析:在舆情监控、话题审核、口碑分析聚类等商业领域有广大的应用空间
命名实体:挖掘各实体间的关系，是进行深度文本挖掘，知识库构建等常用自然语言处理领域里的必备工具

NLP基础任务(二)

NLP introduction