Sự khác biệt giữa phân cụm bậc và phân vùng

Anonim

Phân cụm bậc thang vs phân vùng

Clustering là một kỹ thuật học máy để phân tích dữ liệu và chia thành các nhóm dữ liệu tương tự. Các nhóm hoặc bộ dữ liệu tương tự được gọi là các cụm. Phân tích cụm xem các thuật toán phân cụm có thể xác định các cụm tự động. Hierarchical và Partitional là hai loại thuật toán clustering như vậy. Các thuật toán phân cụm theo bậc phân chia dữ liệu thành một phân cấp các cụm. Thuật toán Paritional chia bộ dữ liệu thành các phân vùng lẫn nhau.

Clustering phân cấp là gì?

Các thuật toán phân cụm theo cấp bậc lặp lại chu kỳ hoặc hợp nhất các nhóm nhỏ hơn vào các nhóm lớn hơn hoặc chia các cụm lớn hơn cho các nhóm nhỏ hơn. Dù bằng cách nào, nó tạo ra một thứ bậc của các cụm được gọi là dendogram. Chiến lược gom cụm phân tán sử dụng cách tiếp cận từ dưới lên của việc hợp nhất các cụm vào thành các cụm lớn hơn, trong khi chiến lược phân cụm chia tách sử dụng cách tiếp cận từ trên xuống dưới để phân chia thành các nhóm nhỏ hơn. Thông thường, cách tiếp cận tham lam được sử dụng để quyết định những cụm lớn hơn / nhỏ hơn được sử dụng để hợp nhất / chia. Khoảng cách Euclide, Khoảng cách Manhattan và độ tương tự cosin là một số các số liệu được sử dụng phổ biến nhất cho tính tương tự cho dữ liệu số. Đối với dữ liệu không số, các chỉ số như khoảng cách Hamming được sử dụng. Điều quan trọng cần lưu ý là các quan sát thực tế (trường hợp) không cần thiết cho phân cụm theo cấp bậc, bởi vì chỉ có ma trận khoảng cách là đủ. Dendogram là một biểu diễn trực quan của các cụm, hiển thị phân cấp rất rõ ràng. Người sử dụng có thể thu được các nhóm khác nhau tùy thuộc vào mức độ cắt dendogram.

Clustering phân vùng là gì?

Thuật toán phân cụm phân vùng tạo ra các phân vùng khác nhau và sau đó đánh giá chúng bằng một số tiêu chí. Chúng cũng được gọi là nonhierarchical như mỗi trường hợp được đặt trong chính xác một trong k cụm riêng biệt. Bởi vì chỉ có một tập hợp các cụm là đầu ra của một thuật toán phân cụm phân chia điển hình, người dùng được yêu cầu nhập vào số lượng mong muốn của các cụm (thường được gọi là k). Một trong những thuật toán clustering phân vùng được sử dụng phổ biến nhất là thuật toán phân cụm k-means. Người dùng được yêu cầu cung cấp số lượng các cụm (k) trước khi bắt đầu và thuật toán đầu tiên sẽ khởi tạo trung tâm (hoặc centroids) của phân vùng k. Tóm lại, Thuật toán phân cụm k-means cho phép các thành viên dựa trên các trung tâm hiện tại và ước tính lại các trung tâm dựa trên các thành viên hiện tại. Hai bước này được lặp lại cho đến khi một đối tượng mục tiêu giống nhau trong cụm tương ứng nhất định và chức năng khách quan không giống nhau giữa các nhóm được tối ưu hóa.Vì vậy, khởi tạo hợp lý các trung tâm là một yếu tố rất quan trọng trong việc đạt được các kết quả chất lượng từ các thuật toán phân cụm phân vùng.

Sự khác biệt giữa phân cụm theo bậc và phân vùng là gì?

Phân cụm theo bậc và phân vùng có sự khác biệt chính trong thời gian chạy, các giả định, các tham số đầu vào và các cụm kết quả. Thông thường, phân nhóm phân vùng nhanh hơn phân cụm theo cấp bậc. Phân cụm theo chiều dọc chỉ đòi hỏi một phép đo tương tự, trong khi việc phân cụm theo phân vùng yêu cầu các giả định mạnh hơn như số lượng các cụm và các trung tâm ban đầu. Phân cụm theo bậc không yêu cầu bất kỳ tham số đầu vào, trong khi các thuật toán phân cụm theo phân vùng yêu cầu số lượng các cụm để bắt đầu chạy. Phân cụm theo cấp bậc mang lại một sự phân chia các cụm rất có ý nghĩa và chủ quan hơn, nhưng các phân cụm clustering phân chia thành các cụm chính xác. Các thuật toán phân cụm theo cấp bậc phù hợp hơn cho dữ liệu phân loại miễn là một phép đo tương tự có thể được định nghĩa cho phù hợp.