机器学习概述

机器学习

Posted by Nova on 2020-05-26

机器学习可以揭示 数据背后的真实含义。

基础:编程、数据结构、数学(线性代数、概率论)

数据挖掘十大算法

数据挖掘

先看看什么是数据挖掘?就是从大量的数据中,提取隐藏在其中的,事先不知道的、但潜在有用的信息的过程.

  • 数据挖掘的目标:建立一个决策模型,根据过去的行为数据 来预测未来的行为.
  • 是一门交叉学科,它涉及了数据库,人工智能,统计学,可视化等不同的学科和领域
1
2
3
数据挖掘往往需要更大数据量,而数据量越大,对于技术的要求也就越高。
数据挖掘对于技术的要求更高,需要比较强的编程能力,数学能力和机器学习的能力。
从结果上来说,数据分析更多侧重的是结果的呈现,需要结合业务知识来进行解读。而数据挖掘的结果是一个模型,通过这个模型来分析整个数据的规律,一次来实现对于未来的预测,比如判断用户的特点,用户适合什么样的营销活动。显然,数据挖掘比数据分析要更深一个层次。

数据驱动、数据挖掘关系

数据挖掘是 数据驱动的一个环节,是实现数据驱动的一个步骤.

数据驱动、数据挖掘怎么做?

数据驱动包括:数据平台建设(数仓、存储、计算等)、数据分析和数据挖掘、可视化和业务决策.

数据挖掘:从定义上看包括负责的流程和技术

1
2
3
4
5
6
7
8
[干货 :手把手教你做数据挖掘](https://blog.csdn.net/Tw6cy6uKyDea86Z/article/details/102982266)
数据清理(消除噪声和不一致数据)
数据集成(不同来源与格式的数据组合到一起)
数据选择(挖掘所需的数据)
数据变换(数据变换成适合挖掘的形式,如汇总,聚集操作)
数据挖掘(方法,建模)
模式评估(结果模型)
知识表示(可视化)

数据挖掘十大算法

数据 以及基于数据做出决策 是非常重要的。

决策树、K-均值、支持向量机(SVM)、Apriori、最大期望算法(EM)、PageRank算法、AdaBoost算法、k-近邻(kNN)、朴素贝叶斯算法(NB)、分类回归树(CART)算法。

最大期望涉及很多数据知识。PageRank是Google构建早期的搜索系统原型时提出的链接分析算法。

机器学习基础知识

分类

  • kNN(k-近邻)
  • 决策树
  • 朴素贝叶斯
  • Logistic回归(引入算法优化的主题)
  • 支持向量机
  • AdaBoost集成方法

数据集合中的缺失值处理.

训练样本非均匀分布时所引发的非均衡分类问题.