Nova Blog

To Be A Lean Developer!

自然语言处理的挑战

Nlp基础概论

自然语言处理是计算机科学的一部分,它并不是简单地研究人类语言,而是融语言学、计算机科学、数学于一体的一门科学。 深度学习在自然语言处理方面取得了重大进展。本文总结下深度学习在自然语言处理方面的最新进展,并讨论它的优势和挑战。 可以把自然语言处理主要分五个任务,及分类,匹配,翻译,结构预测和序贯决策过程。 对于前四个任务,深度学习方法已经超越或者明显超越了传统方法。 端到端的训练和表征学习是深......
NLP

再看FastText

What is fastText

再次整理下fastText的原理~ word2vec以及CBOW和Skip-gram 先看看word2vec以及CBOW和skip-gram.Word2vec 是一群用来产生词向量的相关模型.一款用于训练词向量的软件工具.Word2vec 可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式,为自然语言处理领域的应用研究提供了新的工具。 Word2vec依赖skip-......

神奇的Flink

What is Apache Flink? 一个框架 数据流状态计算 分布式处理引擎 Flink可以处理有界和无界的数据流, 应用场景有日志分析,用户行为,信用卡交易,传感器测量,所有这些数据都是作为流生成的. 简单的case 来看一个Sliding Window的需求:每隔5分钟输出过去一小时内点击量最多的前 N 个商品. 关键词: 1小时窗口, 5分钟滑动一次, 点击最多, 前N个 ......

神奇的Flink

What is Apache Flink? 一个框架 数据流状态计算 分布式处理引擎 Flink可以处理有界和无界的数据流, 应用场景有日志分析,用户行为,信用卡交易,传感器测量,所有这些数据都是作为流生成的. 简单的case 来看一个Sliding Window的需求:每隔5分钟输出过去一小时内点击量最多的前 N 个商品. 关键词: 1小时窗口, 5分钟滑动一次, 点击最多, 前N个 ......

原来你是这样的Stream

Java 8 API添加了一个新的抽象称为流Stream,可以让你以一种声明的方式处理数据。 Stream 使用一种类似用 SQL 语句从数据库查询数据的直观方式来提供一种对 Java 集合运算和表达的高阶抽象。 Stream API可以极大提高Java程序员的生产力,让程序员写出高效率、干净、简洁的代码。 这种风格将要处理的元素集合看作一种流, 流在管道中传输, 并且可以在管道的节点上进行......

原来你是这样的Stream

Java 8 API添加了一个新的抽象称为流Stream,可以让你以一种声明的方式处理数据。 Stream 使用一种类似用 SQL 语句从数据库查询数据的直观方式来提供一种对 Java 集合运算和表达的高阶抽象。 Stream API可以极大提高Java程序员的生产力,让程序员写出高效率、干净、简洁的代码。 这种风格将要处理的元素集合看作一种流, 流在管道中传输, 并且可以在管道的节点上进行......

FastText4j相关字符编码问题

fastText4j

背景 自2016年facebook开源 文本分类工具以来. 为实现工程上快速方便使用, 急需java版本的fasttext工具. 调研之后fasttext4j是最为方便和准确的选择, 但存在一个问题: 中文文本的预测部分出现偏差. 因此对fasttext4j进行改造. 编码 编码问题主要是在于数据在处理过程中,到底加载成什么样子,是不是期望的01长度序列,或者字节长度. 比如: 对于输入字符......

FastText原理探索

What is fastText

Facebook于2016年开源的一个词向量计算和文本分类工具。 它的有点非常明显,在文本分类任务中,fasttext(浅层网络)往往能取得和深度网络相媲美的精度,却在训练时间上比深度网络快许多数量级。 预备知识 softmax、ngram、word2vec原理 之后在介绍fasttext的原理、使用keras搭建简单的分类器 1. softmax softmax回归又被称作多项逻辑回归,它......

初识NLP

NLP introduction

NLP (Natural Language Processing) 是人工智能(AI)的一个子领域。研究如何让计算机读懂人类语言。 首先,在这里介绍下NLP的应用级别入门,了解一些基本的概念、应用场景,学会使用之后,再去深究其中的技术实现和算法原理。 能做什么 一些相关概念 现有NLP库 百度的自然语言处理服务API 书籍推荐 能做什么 简单的例子:百度搜索[4个又念什么],出现的结果是......
NLP

系统load average详解及问题排查思路

load average

load average指的是top命令输出的表示系统负载的展示项。 有三个值:load average: 18.89, 17.93, 16.33。他们表示系统平均负载。 系统平均负载被定义为特定时间间隔内运行队列中的平均进程数。 如果一个进程满足以下条件则其就会位于运行队列中: 它没有再等待I/O操作的结果 它没有主动进入等待状态(也就是没有调用wait) 没有被停止(例如:等待终止) ......