无监督学习简介-聚类和降维

利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习。

有监督学习和无监督学习的最大区别在于数据是否有标签
无监督学习最常应用的场景是聚类(clustering)和降维(Dimension Reduction)
聚类(clustering)，就是根据数据的“相似性”将数据分为多类的过程。评估两个不同样本之间的“相似性”，通常使用的方法就是计算两个样本之间的“距离”。使用不同的方法计算样本间的距离会关系到聚类结果的好坏。距离的常见算法有欧氏距离，曼哈顿距离，马氏距离，夹角余弦。
降维，就是在保证数据所具有的代表性特性或者分布的情况下，将高维数据转化为低维数据的过程。降维可以精简数据和数据可视化。

算法名称	参数	可拓展性	相似性度量
K-means	聚类个数	大规模数据	点间距离
DBSCAN	邻域大小	大规模数据	点间距离
Gaussian Mixtures	聚类个数及其他超参	复杂度高，不适合处理大规模数据	马氏距离
Birch	分支因子，阈值等其他超参	大规模数据	两点间的欧式距离