Sự khác biệt giữa xu hướng trung ương và phân tán

Anonim

Trong thống kê mô tả và suy diễn, một số chỉ số được sử dụng để mô tả một bộ dữ liệu tương ứng với trung tâm của nó xu hướng, phân tán, và skewness: ba đặc tính quan trọng nhất để xác định hình dạng tương đối của việc phân phối một tập dữ liệu.

xu hướng trung tâm là gì?

xu hướng trung tâm đề cập đến và xác định trung tâm của sự phân bố các giá trị. Trung bình, chế độ và trung vị là các chỉ số được sử dụng phổ biến nhất trong việc mô tả xu hướng trung tâm của tập dữ liệu. Nếu tập dữ liệu là đối xứng, thì cả trung vị và trung bình của tập dữ liệu trùng với nhau.

Cho một bộ dữ liệu, giá trị trung bình được tính bằng cách lấy tổng của tất cả giá trị dữ liệu và chia cho số lượng dữ liệu. Ví dụ, trọng lượng 10 người (tính bằng kilôgam) được đo là 70, 62, 65, 72, 80, 70, 63, 72, 77 và 79. Sau đó, trọng lượng trung bình của mười người (tính bằng kilôgam) có thể là được tính như sau. Tổng trọng lượng là 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Mean = (tổng hợp) / (số lượng dữ liệu) = 710/10 = 71 (tính bằng kilôgam). Điều này được hiểu rằng các ngoại lệ (các điểm dữ liệu đi chệch khỏi xu hướng bình thường) có xu hướng ảnh hưởng đến trung bình. Do đó, với sự hiện diện của các giá trị ngoài cùng có ý nghĩa riêng lẻ sẽ không đưa ra một bức tranh chính xác về trung tâm dữ liệu.

Trung vị là điểm dữ liệu được tìm thấy ở chính giữa tập dữ liệu. Một cách để tính toán trung vị là đặt hàng các điểm dữ liệu theo thứ tự tăng dần, và sau đó xác định điểm dữ liệu ở giữa. Ví dụ: nếu một lần được yêu cầu bộ dữ liệu trước đó trông như thế, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Vì vậy, (70 + 72) / 2 = 71 nằm ở giữa. Từ đó, người ta thấy rằng trung vị không cần phải có trong bộ dữ liệu. Trung bình không bị ảnh hưởng bởi sự có mặt của các bên ngoài. Do đó, trung vị sẽ phục vụ như là một biện pháp tốt hơn của xu hướng trung tâm trong sự hiện diện của các bên ngoài.

Chế độ là giá trị xảy ra thường xuyên nhất trong bộ dữ liệu. Trong ví dụ trước, giá trị 70 và 72 đều xuất hiện hai lần và do đó, cả hai đều là các chế độ. Điều này cho thấy rằng, trong một số phân bố, có nhiều hơn một giá trị phương thức. Nếu chỉ có một chế độ, bộ dữ liệu được gọi là unimodal, trong trường hợp này, tập dữ liệu là hai chiều.

Sự phân tán là gì?

Sự tán sắc là lượng lan truyền dữ liệu về trung tâm phân phối. Phạm vi và độ lệch tiêu chuẩn là các biện pháp phổ biến nhất của sự phân tán.

Phạm vi chỉ đơn giản là giá trị cao nhất trừ giá trị thấp nhất. Trong ví dụ trước, giá trị cao nhất là 80 và giá trị thấp nhất là 62, vì vậy phạm vi là 80-62 = 18. Nhưng phạm vi không cung cấp một hình ảnh đầy đủ về phân tán.

Để tính độ lệch tiêu chuẩn, đầu tiên các độ lệch của giá trị dữ liệu từ trung bình được tính toán. Giá trị gốc của độ lệch được gọi là độ lệch chuẩn. Trong ví dụ trước, độ lệch tương ứng với trung bình là (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - (71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 và (79 - 71) = 8. Tổng của (2)

2

+ (-9) 2 + (-1) 2 + (-8) 2 + 1 2 + 6 2 8 2 = 366. Độ lệch tiêu chuẩn là √ (366/10) = 6. 05 (tính bằng kilôgam). Trừ khi bộ dữ liệu bị lệch rất nhiều, từ điều này có thể kết luận rằng phần lớn dữ liệu nằm trong khoảng 71 ± 6. 05, và nó thực sự là như vậy trong ví dụ cụ thể này. Sự khác biệt giữa xu hướng trung và phân tán là gì? • Xu hướng trung tâm đề cập đến và xác định trung tâm của sự phân bố các giá trị • Độ tán sắc là lượng lan truyền dữ liệu về trung tâm của tập dữ liệu.