Python金融数据挖掘|Python金融数据挖掘蓝桥杯|职场和发展|金融

一、随便说说？使用底层code构建（包、模块——模板）。
实验是干啥的呀？我也不知道,yinweimeiyoutingke。

def 层层封装:
1、欧式距离计算（手工计算、）
2、数学语言到机器语言的转变

文章图片

二、K近邻（KNN，K Nearest Neighbors）算法 1、定义属于分类算法。样本数据集中除了数据点的坐标，每个点还有一个分类标签。如果现在新出现了一个待分类的数据点A，KNN算法是根据与A相邻的K个样本点分类归属情况，来决定A应该归属到哪一类。决策树算法、贝叶斯算法和K近邻算法都属于分类算法。
2、逻辑待分类的这个数据点归属到哪一类，由它的K个近邻样本点的分类情况决定。

文章图片

文章图片

3、K近邻分类算法的流程图：

文章图片

三、K均值（K-Means）算法 1、定义属于聚类算法。样本数据集中只有数据点的坐标，并没有其分类标签。但是这些点并不是均匀分布在整个坐标空间中，而是相对密集地聚集在几个较小的范围内。
2、聚类算法的目标是发现这些聚集的范围，将所有那些没有分类标签的点，划分到某个聚集范围内。
3、作用不需要事先对样本点的类别归属进行判定和标识，而是能够挖掘出现有样本点的分布聚集规律，对样本点自动进行归属划分。
4、应用聚类算法被广泛应用于客户群体划分、热点区域发现等业务场景。例如：某证券公司一共有N个客户，每个客户的资金量、交易频次等数据构成一个样本点。
5、准备应用聚类算法前，通常需要根据数据集的分布情况确定一个合理的聚类数K，因此，事先探查数据集的空间分布情况有利于提高聚类的效果。在众多的数据可视化工具中，Excel便是一个非常有效的探查样本数据（样本数据量太大时，可以先随机抽取出少量样本）空间分布特征的工具。
6、几何意义 K均值算法思想有直观的几何意义：将样本点聚集（归属）到距离它最近的那个聚类中心。找出数据集中的K个聚类中心是算法的目标（简单起见，这里使用欧式距离来度量样本间的相似度）。