k-means 알고리즘 예제

K-Means는 특정 순진한 베이즈 모델에 적용된 EM(기대 최대화) 알고리즘에 불과합니다. K-means 클러스터링은 최대 수그린 영역의 이러한 위치를 클러스터로 그룹화하고 각 클러스터에 대한 클러스터 센터를 정의하며, 이 위치는 응급 장치가 열리는 위치입니다. 이러한 클러스터 중심은 각 클러스터의 중심이며 특정 클러스터의 모든 지점에서 최소 거리에 있으며, 이제부터는 비상 장치가 클러스터 내의 모든 사고가 발생하기 쉬운 영역에서 최소 거리가 됩니다. 유클리드 메트릭은 두 점을 연결하는 벡터를 기준으로 거리를 측정하며, 저울이 다른 데이터에 대한 일부 편향을 유발합니다. 예를 들어 RNA-seq 데이터에서 유전자 발현 값은 0.001에서 천까지 다양하여 축을 따라 데이터 포인트를 늘릴 수 있습니다. 즉, 축을 따라 클러스터가 분산되기 때문에 축이 작은 변수는 쉽게 지배하고 수렴에서 거의 재생되지 않습니다. 따라서 k-means 클러스터링을 사용하기 전에 변수가 동일한 축척인지 확인해야 합니다. 다음은 K-means 클러스터링에 대한 이해를 바탕으로 솔루션을 찾아내고 시도해 볼 수 있는 또 다른 예입니다. 문제는 전체 지역이 커버되도록 이러한 응급 장치의 위치를 결정하는 것입니다. K-평균 클러스터링이 구출될 때입니다! 범주형 데이터(예: 성별, 국가, 브라우저 유형 과 같은 범주 레이블)는 알고리즘으로 계속 작업할 수 있는 방식으로 인코딩하거나 분리해야 합니다. 아래 의 숫자 예제는 이 간단한 반복을 이해하기 위해 제공됩니다. 이 숫자 예제의 구현을 Matlab 코드로 다운로드할 수 있습니다.

대화형 k-의 또 다른 예는 비주얼 베이직(VB)을 사용하여 클러스터링을 의미합니다. 이 수치 예제에 대한 MS 엑셀 파일은 이 페이지 하단에서 다운로드할 수 있습니다. 데이터를 시각화하고 임의의 중심을 선택 (이 예제에서 4) 여기 는 데이터 집합에 k-means를 실행 하는 의사 파이썬 코드입니다. 그것은 자세한 코멘트에 의해 더 이상 만든 짧은 알고리즘입니다. k-means가 하는 첫 번째 일은 데이터 집합(4개의 녹색 점)에서 K 예제(데이터 포인트)를 초기 중심으로 임의로 선택하는 것이며, 이는 각 클러스터의 중심이 어디에 있는지 아직 알지 못하기 때문입니다. (중심은 클러스터의 중심입니다). 아래 차트는 결과를 보여줍니다. 시각적으로 K-means 알고리즘이 거리 피처에 따라 두 그룹을 분할하는 것을 볼 수 있습니다. 각 클러스터 중심은 별표로 표시됩니다. 다음은 k-means 클러스터링 알고리즘에 대한 5가지 간단한 단계와 그림의 예입니다: 거리 행렬의 각 열은 객체를 상징합니다.

Spread the love