Contents
Ý nghĩa của tập dữ liệu
Tập dữ liệu là một tập hợp dữ liệu có thứ tự. Trong khi xử lý dữ liệu , tập dữ liệu có thể là một loạt các bảng, lược đồ và các đối tượng khác. Dữ liệu về cơ bản được tổ chức theo một mô hình nhất định giúp xử lý thông tin cần thiết. Tập hợp dữ liệu là bất kỳ tập hợp thông tin nào được lưu vĩnh viễn thường chứa dữ liệu mức trường hợp, dữ liệu được thu thập hoặc dữ liệu mức hướng dẫn thống kê.
Ngoài ra, hãy đọc:
|
Các loại tập dữ liệu
Trong Thống kê, chúng tôi có các loại tập dữ liệu khác nhau có sẵn cho các loại thông tin khác nhau. Họ đang:
- Bộ dữ liệu số
- Tập dữ liệu biến nhị phân
- Tập dữ liệu đa biến
- Bộ dữ liệu phân loại
- Tập dữ liệu tương quan
Hãy để chúng tôi thảo luận về tất cả các tập dữ liệu này với các ví dụ.
Tập dữ liệu số
Tập dữ liệu số là một tập dữ liệu, trong đó dữ liệu được thể hiện bằng số chứ không phải ngôn ngữ tự nhiên. Dữ liệu số đôi khi được gọi là dữ liệu định lượng. Tập hợp của tất cả dữ liệu định lượng / dữ liệu số được gọi là tập dữ liệu số. Dữ liệu số luôn ở dạng số để chúng ta có thể thực hiện các phép toán số học trên nó.
- Cân nặng và chiều cao của một người
- Số lượng RBC trong một báo cáo y tế
- Số trang có trong một cuốn sách
Tập dữ liệu hai biến
Tập dữ liệu có hai biến được gọi là tập dữ liệu Bivariate. Nó giải quyết mối quan hệ giữa hai biến. Tập dữ liệu hai biến thường chứa hai loại dữ liệu có liên quan.
Ví dụ: Để tìm tỷ số phần trăm và tuổi của các học sinh trong một lớp. Điểm và tuổi có thể được coi là hai biến
- Doanh số bán kem so với nhiệt độ vào ngày hôm đó. Ở đây, hai biến được sử dụng là kem và nhiệt độ.
(Lưu ý: Trong trường hợp, nếu bạn chỉ có một tập dữ liệu, chẳng hạn như nhiệt độ, thì nó được gọi là tập dữ liệu đơn biến)
Tập dữ liệu đa biến
Một tập dữ liệu có nhiều biến. Khi tập dữ liệu chứa ba hoặc nhiều hơn ba kiểu dữ liệu (biến), thì tập dữ liệu được gọi là tập dữ liệu đa biến. Nói cách khác, tập dữ liệu đa biến bao gồm các phép đo riêng lẻ được thu thập dưới dạng một hàm của ba hoặc nhiều hơn ba biến.
Ví dụ: Muốn đo chiều dài, chiều rộng, chiều cao, thể tích của một hình hộp chữ nhật, chúng ta phải sử dụng nhiều biến để phân biệt giữa các thực thể đó.
Tập dữ liệu phân loại
Tập dữ liệu phân loại đại diện cho các tính năng hoặc đặc điểm của một người hoặc một đối tượng. Tập dữ liệu phân loại bao gồm một biến phân loại còn được gọi là biến định tính, có thể nhận chính xác hai giá trị. Do đó, nó được gọi là một biến phân đôi. Dữ liệu phân loại / biến có nhiều hơn hai giá trị có thể được gọi là biến đa tử. Các biến định tính / phân loại thường được giả định là biến đa thể trừ khi có quy định khác.
Thí dụ:
- Giới tính của một người (nam hoặc nữ)
- Tình trạng hôn nhân (đã kết hôn / chưa kết hôn)
Tập dữ liệu tương quan
Tập hợp các giá trị chứng minh một số mối quan hệ với nhau chỉ ra các tập dữ liệu tương quan. Ở đây các giá trị được tìm thấy là phụ thuộc vào nhau.
Nói chung, mối tương quan được định nghĩa là mối quan hệ thống kê giữa hai thực thể / biến. Trong một số tình huống, bạn có thể phải dự đoán mối tương quan giữa các thứ. Điều cần thiết là phải hiểu cách thức hoạt động của mối tương quan. Mối tương quan được phân thành ba loại. Họ đang:
- Tương quan thuận – Hai biến di chuyển theo cùng một hướng (Cả hai đều tăng hoặc cả hai hoặc giảm)
- Tương quan nghịch – Hai biến chuyển động ngược chiều nhau. (Một biến tăng và một biến khác giảm và ngược lại)
- Không có hoặc không có tương quan – Không có mối quan hệ giữa hai biến.
Ví dụ: Người cao được coi là nặng hơn người thấp. Vì vậy, ở đây các biến cân nặng và chiều cao phụ thuộc vào nhau.
Trung bình, Trung vị, Chế độ và Phạm vi của Tập dữ liệu
Giá trị trung bình, giá trị trung bình và chế độ cùng với phạm vi là các chủ đề chính trong Thống kê. Hãy để chúng tôi tìm hiểu về các tập dữ liệu ở đây.
Giá trị trung bình của một tập dữ liệu là giá trị trung bình của tất cả các quan sát có trong bảng. Nó là tỷ lệ giữa tổng số quan sát với tổng số phần tử có trong tập dữ liệu. Công thức của giá trị trung bình được đưa ra bởi;
Trung bình = Tổng số lần quan sát / Tổng số phần tử trong Tập dữ liệu
Trung vị của tập dữ liệu là giá trị giữa của tập hợp dữ liệu khi được sắp xếp theo thứ tự tăng dần và giảm dần.
Chế độ của tập dữ liệu là biến hoặc số hoặc giá trị được lặp lại số lần tối đa trong tập hợp.
Phạm vi của một tập dữ liệu là sự khác biệt giữa giá trị lớn nhất và giá trị nhỏ nhất.
Phạm vi = Giá trị tối đa – Giá trị nhỏ nhất
Thuộc tính của Dataset
Trước khi thực hiện bất kỳ phân tích thống kê nào, điều cần thiết là phải hiểu bản chất của dữ liệu. Chúng ta có thể sử dụng các kỹ thuật Phân tích Dữ liệu Khám phá (EDA) khác nhau, giúp xác định các thuộc tính của dữ liệu, để có thể áp dụng các phương pháp thống kê thích hợp trên dữ liệu. Với sự trợ giúp của các kỹ thuật EDA, chúng ta có thể kiểm tra các thuộc tính sau của tập dữ liệu.
- Trung tâm dữ liệu
- Độ chắc chắn của dữ liệu
- Chia sẻ giữa các thành viên dữ liệu
- Sự hiện diện của các ngoại lệ
- Tương quan giữa các dữ liệu
- Loại phân phối xác suất mà dữ liệu tuân theo
Ví dụ về tập dữ liệu
Ví dụ 1:
Tìm giá trị trung bình, chế độ, giá trị trung bình và phạm vi của tập dữ liệu đã cho.
{2, 4, 6, 8, 2, 10, 12}
Giải pháp:
Cho trước, {2, 4, 6, 8, 2, 10, 12} là một tập dữ liệu.
Trung bình = 2 + 4 + 6 + 8 + 2 + 10 + 12/7 = 44/7
Để tìm giá trị trung bình, trước tiên chúng ta phải sắp xếp dữ liệu đã cho theo thứ tự tăng dần hoặc giảm dần
Vì vậy, {2,2,4,6,8,10,12}. Vì vậy,
Trung vị = 6
Chế độ = 2
Phạm vi = 12-2 = 10
Ví dụ 2:
Tìm chế độ cho tập dữ liệu đã cho: 2, 3, 3, 4, 6, 7
Giải pháp :
Đã cho tập dữ liệu: 2, 3, 3, 4, 6, 7
Chúng tôi biết rằng chế độ là giá trị thường xuyên lặp lại trong tập dữ liệu.
Từ tập dữ liệu đã cho, có thể quan sát thấy dữ liệu “3” được lặp lại hai lần.
Do đó, chế độ cho tập dữ liệu đã cho là 3.
Vấn đề thực hành
Giải quyết các vấn đề sau:
- Tìm giá trị trung bình cho tập dữ liệu: 5, 3, 1, 6, 8, 9.
- Tìm giá trị trung bình cho tập dữ liệu: 6, 2, 4, 5, 7.
- Tìm chế độ và phạm vi cho tập dữ liệu sau: 3, 9, 12, 23, 7, 16, 5.
Câu hỏi thường gặp về Tập dữ liệu
Tập dữ liệu có nghĩa là gì?
Tập hợp hoặc tập hợp dữ liệu được gọi là tập dữ liệu. Nói cách khác, tập dữ liệu là tập hợp dữ liệu có thứ tự.
Các đặc điểm khác nhau được sử dụng để đo lường tập dữ liệu là gì?
Trong thống kê, các đặc điểm khác nhau được sử dụng để đo lường tập dữ liệu là trung bình, trung vị, chế độ, phạm vi, v.v.
Làm thế nào để tính toán phạm vi của tập dữ liệu đã cho?
Phạm vi của tập dữ liệu đã cho là chênh lệch giữa giá trị lớn nhất và nhỏ nhất của tập dữ liệu.
Các loại tập dữ liệu khác nhau là gì?
Các loại khác nhau của tập dữ liệu là: Tập
dữ liệu số Tập dữ liệu
lưỡng biến Tập dữ liệu
đa biến Tập dữ liệu
phân loại Tập dữ liệu
tương quan
Trung bình của tập dữ liệu là gì?
Giá trị trung bình là giá trị giữa của tập dữ liệu, trong đó dữ liệu được sắp xếp theo thứ tự tăng dần.
Xem thêm: