Các số đặc trưng đo xu thế trung tâm của mẫu số liệu không ghép nhóm
Nội dung chính của bài viết trình bày về các số đặc trưng của mẫu số liệu không ghép nhóm: Số trung bình, số trung vị, tứ phân vị, mốt. Đây là kiến thức mới hoàn toàn, học sinh chưa được làm quen ở lớp dưới.
Ảnh minh họa |
1. Kiến thức cần đạt
- Hiểu được khái niệm số gần đúng, sai số, sai số tuyệt đối.- Xác định được số quy tròn số gần đúng với độ chính xác cho trước.
- Lựa chọn và tính được các số đặc trưng đo xu thế trung tâm của một mẫu số liệu: Số trung bình, số trung vị, tứ phân vị, mốt.
- Lựa chọn và tính được các số đặc trưng đo độ phân tán của một mẫu số liệu: Khoảng biến thiên và khoảng tứ phân vị, phương sai, độ lệch chuẩn.
- Phát hiện số liệu bất thường hoặc không chính xác bằng biểu đồ hộp.
2. Các số đặc trưng đo xu thế trung tâm.
Các số đặc trưng đo xu thế trung tâm là các số cho ta biết thông tin về vị trí trung tâm của mẫu số liệu.- Số trung bình của mẫu số liệu $x_1,x_2,...,x_n$, kí hiệu là $\bar{x}$ được tính bằng công thức:
- $\bar{x} = \frac{x_1 + x_2 + ... + x_n}{n}$
- Trong trường hợp mẫu số liệu cho dưới dạng bảng tần số thì số trung bình được tính theo công thức: $\bar{x} = \frac{m_1x_1 + m_2x_2 + ... + m_kx_k}{n}$
- Trong đó $m_i$ là tần số của giá trị $x_i$ và $n = m_1 + m_2 + ... + m_k$.
- Ý nghĩa: Số trung bình là giá trị trung bình cộng của các số trong mẫu số liệu, nó cho biết vị trí trung tâm của mẫu số liệu và có thể dùng để đại diện cho mẫu số liệu.
- Trung vị (kí hiệu là $Me$) là giá trị chia đôi mẫu số liệu, nghĩa là trong dãy số liệu được sắp xếp theo thứ tự tăng dần thì trung vị ở vị trí chính giữa.
- Để tìm trung vị của một mẫu số liệu, ta thực hiện như sau:
- Sắp xếp các giá trị trong mẫu số liệu theo thứ tự không giảm.
- Nếu số giá trị của mẫu số liệu là số lẻ thì giá trị chính giữa của dãy là trung vị, còn nếu là số chẵn thì trung vị là trung bình cộng của hai giá trị chính giữa dãy.
- Ý nghĩa: Trung vị không bị ảnh hưởng bởi giá trị bất thường trong khi số trung bình bị ảnh hưởng bởi giá trị bất thường
- Các điểm $Q_1$, $Q_2$, $Q_3$ chia dãy dữ liệu đã sắp xếp theo thứ tự không giảm thành bốn phần, mỗi phần đều chứa 25% giá trị được gọi là các tứ phân vị.
- Sắp xếp mẫu số liệu theo thứ tự không giảm.
- Tìm trung vị. Giá trị này là $Q_2$.
- Tìm trung vị của nửa số liệu bên trái $Q_2$ (không bao gồm $Q_2$ nếu $n$ lẻ). Giá trị này là $Q_1$.
- Tìm trung vị của nửa số liệu bên phải $Q_2$ (không bao gồm $Q_2$ nếu $n$ lẻ). Giá trị này là $Q_3$.
- $Q_1$ được gọi là tứ phân vị thứ nhất hay tứ phân vị dưới, $Q_3$ được gọi là tứ phân vị thứ ba hay tứ phân vị trên. $Q_2$ chính là trung vị.
- Mốt của mẫu số liệu là giá trị hoặc những giá trị xuất hiện với tần số lớn nhất. Người ta thường dùng mốt để đo xu thế trung tâm của mẫu số liệu khi mẫu số liệu có nhiều giá trị trùng nhau. Mốt có thể không là duy nhất.
3. Các dạng bài tập về Số đặc trưng đo xu thế trung tâm của mẫu số liệu không ghép nhóm
Ví dụ 1. Theo báo cáo của WTTC (World Travel and Tourism Council),
mức tăng đóng góp của ngành du lịch cho GDP năm 2021 so với năm 2020 tại
một khố khu vực (đơn vị: %) như sau:
-42; -58; -41; -52; -50; -56; -37; -53; -45; -54.
a) Tính số trung bình, trung vị của dãy số liệu trên.
b) Giải thích ý nghĩa giá trị thu được.
Giải
a) Cỡ mẫu $n = 10$. Số trung bình là: $\bar{x} = \frac{-42+(-58)
+...+(-54)}{10} = -48,8$.
Sắp xếp các giá trị trên theo thứ tự không giảm: -58 -56 -54 -53 -52 -50 -45 -42 -41 -37
Vì $n = 10$ là số chẵn nên trung vị là trung bình cộng của của hai giá trị
ở các vị trí thứ 5 và thứ 6:
$Me = \frac{-52+(-50)}{2} = -51$
b) Về trung bình, mức đóng góp của ngành du lịch cho GDP năm 2021 giảm
khoảng -48,8% so với mức đóng góp của nh=gành du lịch cho GDP năm 2020.
Trung vị $Me = -51%$ tức là có 50% số khu vực (5 khu vực) có mữa giảm dưới
51% và có 50% số khu vực (5 khu vực) có mức giảm trên 51%.
Ví dụ 2. Tính các tứ phân vị cho dữ liệu về diện tích đất (đơn vị:
$km^2$) của 266 quốc gia và vùng lãnh thổ cho số liệu như sau:
$Q_1 = 20 574$;$Q_2 =194 690$;$Q_3 = 1 249 825$.
(Theo World Bank)
a) Có bao nhiêu quốc gia, vùng lãnh thổ có diện tích đất lớn hơn 194 690
$km^2$?
b) Diện tích đất của Việt Nam khoảng 310070 $km^2$ có thuộc nhóm 25% quốc
gia và vùng lãnh thổ có diện tích đất lớn nhất không?
Giải
a) Vì $Q_2 =194 690$ nên có 133 số quốc gia, vùng lãnh thổ (50%) có diện
tích đất lớn hơn 194 690 $km^2$.
b) Do diện tích đất của Việt Nam nhỏ hơn $Q_3 = 1 249 825$ nên Việt Nam
không thuộc nhóm 25% quốc gia và vùng lãnh thổ có diện tích đất lớn
nhất.
4. Bài tập đề nghị
Bài 1. Để ước lượng xem trung bình cần thực hiện bao nhiêu lần gieo xú xắc để xuất hiện mặt 6 chấm, một nhóm học sinh đã gieo xác xắc và đếm số lần thực hiện cho đến khi xuất hiện mặt 6 chấm cho kết quả như sau:8 5 7 10 4 6 7 5 7 6 4 5 5 7 6 5 4 2
Tính số lần gieo trung bình để xuất hiện mặ 6 chấm.
Bài 2. Tại một lớp học chứng chỉ Tin học, nếu mức độ hoàn thành trung bình của 5 bài kiểm tra của học viên lớn hơn hoặc bằng 85% thì học viên sẽ được giảm 30% học phí. An đã làm 4 bài kiểm tra với kết quả là 94%, 82%, 78%, 80%. Hỏi bài cuối cùng An cần đạt được ít nhất bao nhiêu phần tram để được giảm 30% học phí?
Bài 3. Tổng số ca mắc Covid-19 tính đến ngày 26-8-2021 tại Thành phố Hồ Chí Minh và một số tỉnh lân cận được thống kê như sau:
190174; 81182; 19728; 19048; 8155; 6103; 5807; 4544; 3760; 3297; 2541; 2000; 1934; 1602; 1195.
(Theo Bộ Y tế)
a) Tính số trung bình và trung vị cho dãy số liệu trên.
b) Giải thích tại sao số trung bình và trung vị lại khác nhau nhiều?
Bài 4. Lan thống kê số anh, chị, em ruột của các bạn trong lớp thu được bảng số liệu sau:
Số anh, chị, em ruột 0 1 2 3
Số bạn 4 25 5 1
Xác định mốt cho mẫu số liệu trên và giải thích ý nghĩa.
Bài 5. Thống kê GDP năm 2020 (đơn vị: tỉ đô la Mỹ) của 10 nước tại khu vực Đông Nam Á được kết quả như sau:
Brunei: 12,02, Myanmar: 81,26; Campuchia: 25,95; Indonesia: 1059,64; Lào: 19,08; Malaysia: 338,28; Philippines: 362,24; Singapore: 339,98; Thái Lan: 501,89; Việt Nam: 340,82
(Theo statista.com)
a) Tìm các tứ phân vị cho dãy số liệu trên
b) Giải thích ý nghĩa của các tứ phân vị này. Việt Nam có thuộc nhóm 25% quốc gia có GDP năm 2020 cao nhất trong khu vực Đông Nam Á không?
Bài 6. Diện tích của các tỉnh đồng bằng sông Cửu Long năm 2022 (đơn vị: nghìn $km^2$) là: 1,44; 3,54; 2,67; 2,39; 4,49; 5,29; 3,31; 1,62; 2,36; 3,38; 1,53; 6,35; 2,51.
a) Tính số trung bình, trung vị cho dãy số liệu trên.
b) Giải thích ý nghĩa của mỗi số thu được ở câu a.