通常. 绝大多数Nlp问题可以归入四类任务中:
- 序列标注
- 分类任务
- 句子关系判断
- 生成式任务
序列标注
序列标注是 典型的NLP任务,比如 中文分词,词性标注,命名实体识别,语义角色标注等。都可以归入这一类问题。
特点是: 句子中每个单词要求模型根据上下文都要给出一个分类类别。
分词/ POS tag/NER/语义标注…
分类任务
常见的 文本分类/情感计算… 意图识别…
特点是 不管文章有多长, 总体给出一个分类类别即可
句子关系判断
Entailment/QA/自然语言推理… 语义改写,自然语言推理等任务 都是这个模式
它的特点是 给定两个句子, 模型判断出两个句子是否具备某种语义关系.
生成式任务
比如机器翻译, 文本摘要, 写诗造句, 看图说话 等都属于这一类。
特点是 输入文本内容后,需要自主生成另一段文字.
解决这些不同的任务, 从模型角度来讲什么最重要? 是特征抽取器的能力.
尤其是深度学习流行开来后, 这一点更凸显出来。
因为以前研发人员待考虑设计抽取哪些特征,而端到端时代后, 这些你完全不用管,把原始输入扔给好的特征抽取器, 它自己会把有用的特征抽取出来.
-
选择一个好的特征抽取器. 喂给它大量的训练数据;设定好优化目标(loss function)
-
然后大量时间其实在调参上.
三大特征抽取器
RNN
CNN
单卷积层无法捕获远距离特征
Dilated CNN捕获远距离特征
加深CNN网络来捕获远距离特征
NLP界主流的CNN长什么样子.
Transformer
谷歌在17年做机器翻译任务的“Attention is all you need”的论文中提出的
参考: 放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较
应用场景
智能问答、对话机器人、舆情分析、内容推荐、电商评价分析等场景中.
中心词提取:搜索query、标题及其他类似短文本(一般小于25个词)的中心词
文本信息抽取:
情感分析:在舆情监控、话题审核、口碑分析聚类等商业领域有广大的应用空间
命名实体:挖掘各实体间的关系,是进行深度文本挖掘,知识库构建等常用自然语言处理领域里的必备工具