机器学习可以揭示 数据背后的真实含义。
基础:编程、数据结构、数学(线性代数、概率论)
数据挖掘十大算法
数据挖掘
先看看什么是数据挖掘?就是从大量的数据中,提取隐藏在其中的,事先不知道的、但潜在有用的信息的过程.
- 数据挖掘的目标:建立一个决策模型,根据过去的行为数据 来预测未来的行为.
- 是一门交叉学科,它涉及了数据库,人工智能,统计学,可视化等不同的学科和领域
1 | 数据挖掘往往需要更大数据量,而数据量越大,对于技术的要求也就越高。 |
数据驱动、数据挖掘关系
数据挖掘是 数据驱动的一个环节,是实现数据驱动的一个步骤.
数据驱动、数据挖掘怎么做?
数据驱动包括:数据平台建设(数仓、存储、计算等)、数据分析和数据挖掘、可视化和业务决策.
数据挖掘:从定义上看包括负责的流程和技术
1 | [干货 :手把手教你做数据挖掘](https://blog.csdn.net/Tw6cy6uKyDea86Z/article/details/102982266) |
数据挖掘十大算法
数据 以及基于数据做出决策 是非常重要的。
决策树、K-均值、支持向量机(SVM)、Apriori、最大期望算法(EM)、PageRank算法、AdaBoost算法、k-近邻(kNN)、朴素贝叶斯算法(NB)、分类回归树(CART)算法。
最大期望涉及很多数据知识。PageRank是Google构建早期的搜索系统原型时提出的链接分析算法。
机器学习基础知识
分类
- kNN(k-近邻)
- 决策树
- 朴素贝叶斯
- Logistic回归(引入算法优化的主题)
- 支持向量机
- AdaBoost集成方法
数据集合中的缺失值处理.
训练样本非均匀分布时所引发的非均衡分类问题.