Bài 18: Thu thập và phân loại dữ liệu
📊 Dữ liệu — Nền tảng của thống kê
Dữ liệu xuất hiện khắp nơi trong cuộc sống và là cơ sở cho mọi quyết định!
Điểm số, tỉ lệ đỗ đại học
Chiều cao, cân nặng, nhịp tim
Doanh thu, lợi nhuận, khách hàng
📖 1. Khái niệm dữ liệu
Định nghĩa: Dữ liệu là thông tin được thu thập về một vấn đề nghiên cứu nào đó.
Ví dụ về dữ liệu:
- Điểm kiểm tra của học sinh trong lớp
- Chiều cao và cân nặng của học sinh
- Màu sắc yêu thích của mọi người
- Số lượng sách bán ra mỗi tháng
- Nhiệt độ trung bình hàng ngày
🔍 2. Phân loại dữ liệu
Hai loại dữ liệu chính:
- Dữ liệu định lượng (Quantitative Data): Dữ liệu có thể đo đếm được bằng số
- Dữ liệu định tính (Qualitative Data): Dữ liệu mô tả tính chất, đặc điểm
Bảng so sánh:
| Loại | Đặc điểm | Ví dụ |
|---|---|---|
| Định lượng | Có thể đo, đếm, tính toán | Chiều cao (165 cm), Điểm số (8.5), Tuổi (15) |
| Định tính | Mô tả tính chất, không tính toán | Màu sắc (đỏ), Giới tính (nam/nữ), Nghề nghiệp |
Ví dụ 1: Phân loại các dữ liệu sau:
a) Số học sinh trong lớp: Định lượng (đếm được) b) Màu tóc: Định tính (mô tả tính chất) c) Nhiệt độ: Định lượng (đo được) d) Môn học yêu thích: Định tính (mô tả sở thích)
📋 3. Phương pháp thu thập dữ liệu
Các phương pháp thu thập dữ liệu:
- Điều tra, khảo sát: Sử dụng phiếu điều tra, bảng hỏi
- Quan sát, đo đạc: Quan sát trực tiếp và ghi chép
- Thí nghiệm: Tiến hành thí nghiệm và ghi kết quả
- Tra cứu tài liệu: Tìm kiếm từ sách, báo, internet
Ví dụ 2: Điều tra chiều cao của 30 học sinh lớp 8A (đơn vị: cm):
155, 160, 158, 162, 165, 157, 161, 159, 163, 156,
158, 160, 162, 164, 157, 159, 161, 163, 165, 158,
160, 162, 156, 159, 161, 163, 157, 160, 164, 162Đây là dữ liệu định lượng, thu thập bằng phương pháp đo đạc.
📊 4. Phân loại và sắp xếp dữ liệu
Bước 1: Sắp xếp dữ liệu
Sắp xếp dữ liệu chiều cao theo thứ tự tăng dần:
155, 156, 156, 157, 157, 157, 158, 158, 158, 158,
159, 159, 159, 159, 160, 160, 160, 160, 161, 161,
161, 161, 162, 162, 162, 162, 163, 163, 163, 164,
164, 165, 165Bước 2: Đếm tần số
| Chiều cao (cm) | Số học sinh |
|---|---|
| 155 | 1 |
| 156 | 2 |
| 157 | 3 |
| 158 | 4 |
| 159 | 4 |
| 160 | 4 |
| 161 | 4 |
| 162 | 4 |
| 163 | 3 |
| 164 | 2 |
| 165 | 2 |
Ví dụ 3: Điều tra môn học yêu thích của 40 học sinh:
- Toán: 15 học sinh (37,5%)
- Văn: 10 học sinh (25%)
- Anh: 8 học sinh (20%)
- Lý: 7 học sinh (17,5%)
Luyện tập
Dữ liệu là:
🌍 Vận dụng thực tế
📝 Bài toán 1 — Điều tra sở thích: Một lớp có 45 học sinh được hỏi về môn thể thao yêu thích:
- Bóng đá: 18 học sinh
- Bóng rổ: 12 học sinh
- Cầu lông: 10 học sinh
- Bơi lội: 5 học sinh
a) Đây là dữ liệu định lượng hay định tính?
b) Tính tỉ lệ phần trăm mỗi môn.
Giải:
a) Đây là dữ liệu định tính (mô tả sở thích)
b) Tỉ lệ phần trăm:
- Bóng đá:
- Bóng rổ:
- Cầu lông:
- Bơi lội:
📝 Bài toán 2 — Điều tra chiều cao: Điều tra chiều cao 20 học sinh (cm):
155, 160, 158, 162, 160, 157, 160, 159, 158, 160,
158, 161, 162, 160, 157, 159, 160, 163, 158, 160a) Sắp xếp dữ liệu theo thứ tự tăng dần.
b) Lập bảng tần số.
c) Chiều cao nào xuất hiện nhiều nhất?
Giải:
a) Sắp xếp: 155, 157, 157, 158, 158, 158, 158, 159, 159, 160, 160, 160, 160, 160, 160, 160, 160, 161, 162, 162, 163
b) Bảng tần số:
| Chiều cao | 155 | 157 | 158 | 159 | 160 | 161 | 162 | 163 |
|---|---|---|---|---|---|---|---|---|
| Số HS | 1 | 2 | 4 | 2 | 8 | 1 | 2 | 1 |
c) Chiều cao 160 cm xuất hiện nhiều nhất (8 học sinh)
- Dữ liệu: thông tin thu thập về vấn đề nghiên cứu
- Dữ liệu định lượng: đo đếm được bằng số
- Dữ liệu định tính: mô tả tính chất, đặc điểm
- Phương pháp thu thập: điều tra, quan sát, thí nghiệm, tra cứu
- Tần số: số lần xuất hiện của mỗi giá trị
- Tỉ lệ phần trăm:
📝 Bài tập tự luận
Bài 1: Phân loại các dữ liệu sau thành định lượng hoặc định tính:
a) Số điện thoại của học sinh
b) Cân nặng của học sinh
c) Màu sắc yêu thích
d) Số sách đọc trong tháng
Bài 2: Điều tra 50 học sinh về phương tiện đi học:
- Xe đạp: 20 học sinh
- Xe máy: 15 học sinh
- Đi bộ: 10 học sinh
- Xe buýt: 5 học sinh
a) Đây là dữ liệu gì?
b) Tính tỉ lệ phần trăm mỗi phương tiện.
c) Phương tiện nào được sử dụng nhiều nhất?
d) Vẽ biểu đồ cột thể hiện dữ liệu.
Bài 3: Điểm kiểm tra Toán của 25 học sinh:
7, 8, 6, 9, 7, 8, 7, 6, 8, 9,
7, 8, 7, 9, 8, 7, 6, 8, 9, 7,
8, 7, 9, 8, 7
a) Sắp xếp dữ liệu theo thứ tự tăng dần.
b) Lập bảng tần số.
c) Điểm nào xuất hiện nhiều nhất?
d) Tính tỉ lệ phần trăm học sinh đạt điểm 8 trở lên.
Bài 4: Thiết kế phiếu điều tra:
a) Thiết kế phiếu điều tra về sở thích đọc sách của học sinh.
b) Nêu ít nhất 5 câu hỏi trong phiếu.
c) Xác định loại dữ liệu của mỗi câu hỏi.
d) Đề xuất cách thu thập và xử lý dữ liệu.
Bài 5: Điều tra thời gian học bài mỗi ngày của 30 học sinh (phút):
60, 90, 75, 120, 60, 90, 75, 60, 90, 120,
75, 90, 60, 75, 90, 120, 75, 90, 60, 75,
90, 120, 75, 90, 60, 75, 90, 120, 75, 90
a) Lập bảng tần số.
b) Tính tỉ lệ phần trăm mỗi mức thời gian.
c) Thời gian nào phổ biến nhất?
d) Tính thời gian trung bình.
Bài 6 (Thực tế): Điều tra thu nhập hàng tháng của 40 gia đình (triệu đồng):
8, 10, 12, 15, 8, 10, 12, 8, 10, 15,
12, 10, 8, 12, 10, 15, 12, 10, 8, 12,
10, 15, 12, 10, 8, 12, 10, 15, 12, 10,
8, 12, 10, 15, 12, 10, 8, 12, 10, 15
a) Lập bảng tần số.
b) Tính tỉ lệ phần trăm mỗi mức thu nhập.
c) Mức thu nhập nào chiếm tỉ lệ cao nhất?
d) Nhận xét về phân bố thu nhập.
📊 Đáp số
Bài 1: a) Định tính; b) Định lượng; c) Định tính; d) Định lượng
Bài 2: a) Định tính; b) Xe đạp 40%, Xe máy 30%, Đi bộ 20%, Xe buýt 10%; c) Xe đạp; d) Vẽ biểu đồ
Bài 3: a) Sắp xếp; b) Điểm 6: 3, Điểm 7: 9, Điểm 8: 8, Điểm 9: 5; c) Điểm 7; d) 52%
Bài 4: Tự thiết kế
Bài 5: a) 60 phút: 6, 75 phút: 9, 90 phút: 11, 120 phút: 4; b) 20%, 30%, 36,7%, 13,3%; c) 90 phút; d) 82,5 phút
Bài 6: a) 8 triệu: 8, 10 triệu: 13, 12 triệu: 13, 15 triệu: 6; b) 20%, 32,5%, 32,5%, 15%; c) 10 và 12 triệu (32,5%); d) Phân bố tương đối đều