K-Means Clustering MATLAB Tutorial

Você pode muitas vezes deseja particionar os dados em grupos significativos com base em um certo grau de ” proximidade “. No entanto, decidir como ir realmente sobre o particionamento é altamente subjetivo e, portanto, aberto a críticas por parte de outros pesquisadores. A solução para este problema é k-means clustering. K-means clusters é um algoritmo que particiona automaticamente os dados para você. É uma forma de aprendizado de máquina que dá um particionamento de dados ideal sob um conjunto de restrições . MATLAB oferece uma função de agrupamento k- significa que você pode facilmente aplicar para o seu conjunto de dados. Instruções

1

Leia seus dados em MATLAB como uma matriz . Localize o arquivo de dados no seu computador e lembre-se o nome do arquivo (por exemplo, ” datafile.dat ” ) . Use o comando ” [ dat, vars , casos ] = tblread (filename) “, onde “nome do arquivo ” é o nome do arquivo que contém seus dados , como ” datafile.dat “. Aperte enter ea variável ” que” será uma matriz de dados que contém os dados.

2

Decidir sobre o número de meios para o algoritmo K-means clustering. O número de meios que você escolher vai ser exatamente igual ao número de grupos rendeu . Use as propriedades de seus dados e do problema em questão a decidir quantos grupos você deseja particionar os dados.

3

Decida como o algoritmo K-means cluster deve calcular a distância entre pontos . Há dois métodos comuns de cálculo de distância para este algoritmo : euclidianas e correlacionais . Euclidiana só olha para a distância ” física ” entre os pontos como se você grafada -los em um plano cartesiano . Distância Correlational leva em conta a variação dos dados e pode ser mais adequado quando você está lidando com os dados que tem uma distribuição conhecida (como a distribuição normal).

4

Execute o k- means clustering algoritmo . Use o comando ” ind = kmeans ( dat, g, ‘distância’ ) “, onde “g” é um número que representa o número de grupos que você quer e “distância” é o tipo de distância que você quer que o algoritmo K-means clustering para usar : ” sqEuclidean ” para a distância euclidiana e ” correlação ” para a distância de correlação

.

Deixe um comentário