Cổng Thông Tin Đại Học, Cao Đẳng Lớn Nhất Việt Nam

Nhóm dữ liệu là gì? Xem xong 5 phút hiểu luôn.

KHOA Y DƯỢC HÀ NỘI

Thẳng tiến vào đại học chỉ với: Điểm lớp 12 Từ 6,5 Điểm thi từ 18 năm 2021

Nhóm dữ liệu đóng một vai trò quan trọng khi chúng ta phải xử lý dữ liệu lớn. Thông tin này cũng có thể được hiển thị bằng hình ảnh hoặc biểu đồ thanh. Dữ liệu được hình thành bằng cách sắp xếp các quan sát riêng lẻ về một biến thành các nhóm, để bảng phân phối tần suất của các nhóm này cung cấp một cách thuận tiện để tóm tắt hoặc phân tích dữ liệu được gọi là dữ liệu nhóm.

Bảng phân phối tần suất cho dữ liệu được nhóm

Khi dữ liệu thu thập được lớn, chúng ta có thể làm theo cách tiếp cận dưới đây để phân tích nó một cách dễ dàng bằng cách sử dụng các dấu kiểm đếm .

Thí dụ:

Xét điểm của 50 sinh viên khóa VII đạt được trong một kỳ kiểm tra. Điểm tối đa của kỳ thi là 50.

23, 8, 13, 18, 32, 44, 19, 8, 25, 27, 10, 30, 22, 40, 39, 17, 25, 9, 15, 20, 30, 24, 29, 19, 16, 33, 38, 46, 43, 22, 37, 27, 17, 11, 34, 41, 35, 45, 31, 26, 42, 18, 28, 30, 22, 20, 33, 39, 40, 32

Nếu chúng ta tạo một bảng phân phối tần số cho mỗi và mọi quan sát, thì nó sẽ tạo thành một bảng lớn. Vì vậy, để dễ hiểu, chúng ta có thể lập một bảng với một nhóm các quan sát từ 0 đến 10, 10 đến 20, v.v.

Bảng phân phối tần số

Phân bố thu được trong bảng trên được gọi là phân bố tần số được nhóm lại. Điều này giúp chúng tôi đưa ra nhiều suy luận quan trọng như:

(i) Nhiều học sinh đạt từ 20-40, tức là 20-30 và 30-40.

(ii) 8 học sinh đạt trên 40 điểm, tức là các em đạt trên 80% trong bài thi.

Trong bảng thu được ở trên, các nhóm 0-10, 10-20, 20-30,… được gọi là các khoảng lớp (hoặc các lớp). Người ta quan sát thấy rằng 10 xuất hiện trong cả hai khoảng thời gian, chẳng hạn như 0-10 và 10-20. Tương tự, 20 xuất hiện trong cả hai khoảng thời gian, chẳng hạn như 10-20 và 20-30. Nhưng việc quan sát 10 hoặc 20 có thể thuộc hai lớp đồng thời là không khả thi. Để tránh sự mâu thuẫn này, chúng tôi chọn quy tắc rằng kết luận chung sẽ thuộc về lớp cao hơn. Có nghĩa là 10 thuộc khoảng lớp 10-20 nhưng không thuộc 0-10. Tương tự, 20 thuộc về 20-30 nhưng không thuộc 10-20, v.v.

Hãy xem xét một lớp giả sử là 10-20, trong đó 10 là khoảng của lớp dưới và 20 là khoảng của lớp trên. Sự khác biệt giữa giới hạn lớp trên và lớp dưới được gọi là chiều cao lớp hoặc kích thước lớp hoặc chiều rộng lớp của khoảng cách lớp.

Làm thế nào để xác định quy mô lớp học?

Để tránh nhầm lẫn về kích thước của các khoảng lớp mà chúng ta cần thực hiện trong khi nhóm dữ liệu, người ta phải làm theo các bước dưới đây.

Bước 1: Xác định các giá trị dữ liệu cao nhất và thấp nhất (nhỏ nhất) trong các quan sát đã cho.

Bước 2: Tìm sự khác biệt giữa giá trị cao nhất và giá trị nhỏ nhất.

Bước 3: Bây giờ, giả sử số lượng khoảng thời gian của lớp học mà chúng ta cần (thường từ 5 đến 20 lớp được đề xuất để thực hiện dựa trên số lượng quan sát).

Bước 4: Chia sự khác biệt của giá trị cao nhất và nhỏ nhất cho số lớp, điều này dẫn đến kích thước của khoảng lớp.

Bước 5: Trong trường hợp có bất kỳ số thập phân nào thu được dưới dạng sĩ số lớp thì lấy số nguyên gần nhất lớn hơn số thập phân thu được làm kích thước lớp học.

Biểu đồ

Chúng ta có thể hiển thị bảng phân phối tần suất ở trên bằng đồ thị bằng biểu đồ. Xem xét các khoảng lớp trên trục hoành và tần số trên trục tung.

Biểu đồ

Chiều cao của các thanh thể hiện tần số của khoảng lớp. Không có khoảng cách giữa các thanh vì không có khoảng cách giữa các lớp.

Câu hỏi thường gặp – Câu hỏi thường gặp

Dữ liệu được nhóm và dữ liệu không được nhóm là gì?

Dữ liệu được nhóm có nghĩa là dữ liệu (hoặc thông tin) được cung cấp dưới dạng các khoảng lớp như 0-20, 20-40, v.v. Dữ liệu chưa nhóm được định nghĩa là dữ liệu được cung cấp dưới dạng các điểm riêng lẻ (tức là các giá trị hoặc số) như 15, 63, 34, 20, 25, v.v.

Ví dụ về dữ liệu được nhóm là gì?

Giả sử chúng ta có một dải dữ liệu từ 0 đến 50 như 2, 17, 0, 1, 8, 19, 43, 2, 1, 32, v.v. Trong trường hợp này, chúng ta có thể nhóm dữ liệu thành các lớp như 0-10, 10-20,…, 40-50. Đây là một ví dụ đơn giản về dữ liệu được nhóm.

Ưu điểm của việc phân nhóm dữ liệu là gì?

Ưu điểm chính của việc nhóm dữ liệu là:
Hỗ trợ chúng tôi tập trung chủ yếu vào các nhóm con thiết yếu và bỏ qua những nhóm nhỏ
Giúp tăng hiệu quả và tính đúng đắn của ước tính cần thiết

Làm thế nào để bạn nhóm dữ liệu vào một lớp?

Một kỹ thuật quan trọng được sử dụng để nhóm dữ liệu đã cho là đánh dấu kiểm đếm. Với sự trợ giúp của bảng đánh dấu kiểm đếm, có thể chuyển đổi dữ liệu thành các lớp mà không có bất kỳ sự nhầm lẫn nào. Sau đó, tìm chiều cao (hoặc kích thước) của khoảng lớp bằng cách chia hiệu số của giá trị dữ liệu cao nhất và nhỏ nhất cho số lớp chúng ta muốn (trong trường hợp giá trị thập phân, số nguyên gần nhất xác định kích thước lớp).

Một dữ liệu được nhóm có thể có bao nhiêu lớp?

Đối với một dữ liệu được nhóm lý tưởng, chúng ta nên có số lượng khoảng lớp tối thiểu là 5 và tối đa là 20. Nhưng chúng ta cũng có thể quan sát dữ liệu được nhóm với khoảng cách lớp ít hơn 5 trong nhiều tình huống.
0 0 votes
Article Rating
Theo dõi
Thông báo của
guest
0 Comments
Inline Feedbacks
View all comments

Khoa Y Dược Hà Nội tuyển sinh chính quy

Bài viết mới nhất

Thi trắc nghiệm online
https://tintuctuyensinh.vn/wp-content/uploads/2021/12/FDSF.png
0
Would love your thoughts, please comment.x
()
x