无监督学习的目标
利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习。
有监督学习和无监督学习的最大区别在于数据是否有标签
无监督学习最常应用的场景是聚类(clustering)和降维(Dimension Reduction)
聚类(clustering),就是根据数据的“相似性”将数据分为多类的过程。评估两个不同样本之间的“相似性”,通常使用的方法就是计算两个样本之间的“距离”。使用不同的方法计算样本间的距离会关系到聚类结果的好坏。距离的常见算法有欧氏距离,曼哈顿距离,马氏距离,夹角余弦。
降维,就是在保证数据所具有的代表性特性或者分布的情况下,将高维数据转化为低维数据的过程。降维可以精简数据和数据可视化。
聚类常见算法(sklearn.cluster)
算法名称 | 参数 | 可拓展性 | 相似性度量 |
---|---|---|---|
K-means | 聚类个数 | 大规模数据 | 点间距离 |
DBSCAN | 邻域大小 | 大规模数据 | 点间距离 |
Gaussian Mixtures | 聚类个数及其他超参 | 复杂度高,不适合处理大规模数据 | 马氏距离 |
Birch | 分支因子,阈值等其他超参 | 大规模数据 | 两点间的欧式距离 |
常见降维算法(sklearn.decomposition)
算法 | 参数 | 可拓展性 | 适用任务 |
---|---|---|---|
PCA | 所降维度及其他超参 | 大规模数据 | 信号处理等 |
FastICA | 所降维度及其他超参 | 超大规模数据 | 图形图像特征提取 |
NMF | 所降维度及其他超参 | 大规模数据 | 图形图像特征提取 |
LDA | 所降维度及其他超参 | 大规模数据 | 文本数据,主题挖掘 |