聚类

聚类问题:假定样本集$$D={x1,x_2,...,x_m}$$包含m个无标样本,每个样本$$x_i=(x{i1},x{i2},...x{in})$$共n维特征向量,

聚类算法将样本集D划分为k个不相关的簇$${Cl|l=1,2,...,k}$$,其中$$C{l}\cap{l\ne t}C_t=\emptyset$$且$$D=\cup^k{l=1}Cl$$.用$$$$$$\lambda_j \in {1,2,...,k}$$表示样本$$x_j$$的“簇标记”,即$$x_j \in C{\lambda_j}$$.于是聚类的结果可用包含m个元素的簇标记向量$$\lambda =(\lambda_1;\lambda_2;...;\lambda_m)$$表示。

聚类即能作为一个单独过程,用于搭建数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。例如,先对数据分类,根据聚类结果将每个簇定义为一个类,然后再基于这些类训练分类模型,用于判别新用户的类型。

聚类算法:

K-means:需要事先指定K值

AP算法

results matching ""

    No results matching ""