NLP

NLP基础任务(二)

NLP introduction

Posted by Nova on 2020-09-19

通常. 绝大多数Nlp问题可以归入四类任务中:

  • 序列标注
  • 分类任务
  • 句子关系判断
  • 生成式任务

序列标注

序列标注是 典型的NLP任务,比如 中文分词,词性标注,命名实体识别,语义角色标注等。都可以归入这一类问题。

特点是: 句子中每个单词要求模型根据上下文都要给出一个分类类别。

分词/ POS tag/NER/语义标注…

分类任务

常见的 文本分类/情感计算… 意图识别…

特点是 不管文章有多长, 总体给出一个分类类别即可

句子关系判断

Entailment/QA/自然语言推理… 语义改写,自然语言推理等任务 都是这个模式

它的特点是 给定两个句子, 模型判断出两个句子是否具备某种语义关系.

生成式任务

比如机器翻译, 文本摘要, 写诗造句, 看图说话 等都属于这一类。

特点是 输入文本内容后,需要自主生成另一段文字.

解决这些不同的任务, 从模型角度来讲什么最重要? 是特征抽取器的能力.
尤其是深度学习流行开来后, 这一点更凸显出来。

因为以前研发人员待考虑设计抽取哪些特征,而端到端时代后, 这些你完全不用管,把原始输入扔给好的特征抽取器, 它自己会把有用的特征抽取出来.

  1. 选择一个好的特征抽取器. 喂给它大量的训练数据;设定好优化目标(loss function)

  2. 然后大量时间其实在调参上.

三大特征抽取器

RNN

CNN

单卷积层无法捕获远距离特征

Dilated CNN捕获远距离特征

加深CNN网络来捕获远距离特征

NLP界主流的CNN长什么样子.

Transformer

谷歌在17年做机器翻译任务的“Attention is all you need”的论文中提出的

参考: 放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较

应用场景

智能问答、对话机器人、舆情分析、内容推荐、电商评价分析等场景中.
中心词提取:搜索query、标题及其他类似短文本(一般小于25个词)的中心词
文本信息抽取:
情感分析:在舆情监控、话题审核、口碑分析聚类等商业领域有广大的应用空间
命名实体:挖掘各实体间的关系,是进行深度文本挖掘,知识库构建等常用自然语言处理领域里的必备工具