Thống kê mô tả: Trình bày dạng bảng và đồ họa
Sau khi học chương này và thực hiện các bài tập, bạn sẽ có khả năng xây dựng và diễn giải nhiều loại bảng và biểu đồ tóm tắt dữ liệu khác nhau:
- MỤC TIÊU
- Thống kê mô tả qua báo cáo thường niên của Vinamilk
- Tóm tắt dữ liệu định tính
- Bài tập Thống kê Định tính: Phương thức thanh toán ưa thích
- Bài tập Thống kê định tính: Thu nhập hàng tháng
- Bài tập thống kê định tính: Xu hướng sử dụng xe điện tại Hà Nội
- Phân tích định tính: Phân tích Hệ điều hành Di động tại Việt Nam (2024)
- Tóm tắt dữ liệu định lượng
MỤC TIÊU
Sau khi học chương này và thực hiện các bài tập, bạn sẽ có khả năng xây dựng và diễn giải nhiều loại bảng và biểu đồ tóm tắt dữ liệu khác nhau:
- Đối với biến định tính đơn lẻ:
- Các bảng phân phối tần số, tần số tương đối và tần số phần trăm.
- Biểu đồ cột và biểu đồ tròn.
- Đối với biến định lượng đơn lẻ:
- Các bảng phân phối tần số, tần số tương đối và tần số phần trăm.
- Các bảng phân phối tần số tích lũy, tần số tích lũy tương đối và tần số tích lũy phần trăm.
- Biểu đồ chấm (dot plots), biểu đồ thân-lá (stem-and-leaf plots), biểu đồ histogram và biểu đồ phân phối tích lũy (ogives).
- Đối với cặp dữ liệu định tính và định lượng:
- Bảng chéo (cross-tabulations), với phần trăm theo hàng và cột.
- Đối với cặp biến định lượng:
- Biểu đồ phân tán (scatter diagrams).
- Bạn sẽ có khả năng:
- Đưa ra một ví dụ về nghịch lý Simpson (Simpson’s paradox) và giải thích ý nghĩa của nghịch lý này đối với việc phân tích bảng chéo của các biến.
Thống kê mô tả qua báo cáo thường niên của Vinamilk
Vinamilk, tên đầy đủ là Công ty Cổ phần Sữa Việt Nam, là một trong những doanh nghiệp hàng đầu trong ngành thực phẩm và đồ uống tại Việt Nam. Được thành lập vào năm 1976, hiện nay Vinamilk không chỉ là thương hiệu quốc dân trong nước mà còn mở rộng thị trường ra nhiều quốc gia trên thế giới.
Như nhiều công ty niêm yết khác, Vinamilk phát hành báo cáo thường niên hàng năm nhằm minh bạch thông tin đến cổ đông và nhà đầu tư. Trong các báo cáo này, bên cạnh những hình ảnh thương hiệu quen thuộc, còn có những biểu đồ thống kê mô tả, thể hiện các thông tin tài chính và hoạt động kinh doanh một cách trực quan, dễ hiểu.
Doanh thu quốc tế
Vinamilk đang đẩy mạnh chiến lược quốc tế hóa, mở rộng thị phần tại nhiều quốc gia. Dưới đây là doanh thu từ một số thị trường quốc tế trong năm qua:
-
Singapore và Philippines là hai thị trường mang lại doanh thu cao nhất, lần lượt là 1.500 tỷ đồng và 1.200 tỷ đồng.
-
Các thị trường như Úc, Mỹ, Campuchia cũng góp phần quan trọng, thể hiện định hướng toàn cầu hóa rõ ràng của doanh nghiệp.
Biểu đồ thanh dưới đây minh họa rõ ràng doanh thu quốc tế của Vinamilk:
Điểm đánh giá bí mật từ khách hàng (Mystery Shopper)
Vinamilk đã triển khai chương trình Mystery Shopper nhằm đánh giá chất lượng dịch vụ tại các điểm bán lẻ trên toàn quốc. Dữ liệu gần đây cho thấy:
-
Điểm số trung bình dao động từ 78% đến 85%, cho thấy mức độ hài lòng của khách hàng khá cao.
-
Xu hướng tăng điểm đều đặn trong năm 2023 và quý I/2024 là tín hiệu tích cực cho chất lượng dịch vụ.
Biểu đồ đường dưới đây mô tả sự thay đổi qua các quý:
Tăng trưởng diện tích bán lẻ
Để đáp ứng xu hướng mua sắm mới của người tiêu dùng, Vinamilk liên tục mở rộng hệ thống cửa hàng và không gian trưng bày tại các siêu thị. Cụ thể:
-
Tỷ lệ tăng trưởng diện tích bán lẻ mỗi năm dao động từ 1.2% đến 2.2% trong 5 năm gần đây.
-
Năm 2024, tăng trưởng đạt 2.2%, phù hợp với chiến lược mở rộng kênh phân phối.
Biểu đồ sau đây mô tả rõ xu hướng này:
Kết luận
Thông qua các biểu đồ mô tả ở trên, ta thấy rõ vai trò quan trọng của thống kê mô tả trong việc trình bày thông tin một cách dễ hiểu và sinh động. Đây là công cụ không thể thiếu trong việc quản trị, báo cáo, cũng như giúp nhà đầu tư và cổ đông hiểu rõ hơn về tình hình hoạt động của doanh nghiệp.
Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft
Tóm tắt dữ liệu định tính
Dữ liệu định tính (qualitative data) là loại dữ liệu mô tả các đặc điểm hoặc thuộc tính mà không thể đo lường bằng số. Ví dụ trong thực tế bao gồm loại phương tiện giao thông ưa thích, thương hiệu điện thoại di động, hoặc sự hài lòng của khách hàng qua khảo sát.
Mặc dù dữ liệu định tính không thể đo lường bằng số, nhưng chúng ta vẫn có thể đếm số lần một giá trị xuất hiện – và đó chính là “tần suất” (frequency).
Định tính (Qualitative): Những yếu tố không thể đo đếm trực tiếp mà mô tả đặc điểm, tính chất hoặc phân loại. Ví dụ, các thương hiệu xe như Toyota, Kia, Hyundai, Honda, và VinFast thuộc về nhóm định tính vì chúng đại diện cho các phân loại hoặc nhóm sản phẩm, không thể đo đếm số lượng trực tiếp từ chính bản thân tên thương hiệu mà phải thông qua các chỉ số như doanh thu, số lượng xe bán ra của từng hãng
Để hiểu và phân tích dữ liệu định tính một cách hiệu quả, chúng ta thường sử dụng các phương pháp tóm tắt như bảng phân phối tần suất, biểu đồ cột (bar chart), hoặc biểu đồ tròn (pie chart). Những phương pháp này giúp thể hiện số lượng hoặc tỷ lệ xuất hiện của từng hạng mục một cách trực quan, dễ hiểu.
1. Phân phối tần suất (Frequency Distribution)
Định nghĩa
Phân phối tần suất là một bảng tóm tắt dữ liệu, hiển thị số lượng (tần suất) các mục rơi vào từng nhóm (lớp) không trùng lặp.
Hiểu đơn giản: Nó giúp bạn trả lời câu hỏi “Có bao nhiêu lần mỗi mục xuất hiện?” trong một danh sách.
Tại sao dùng Frequency Distribution?
-
Dễ đọc – dễ hiểu hơn danh sách dữ liệu thô.
-
So sánh nhanh giữa các nhóm hoặc loại dữ liệu.
-
Là nền tảng để xây dựng biểu đồ như bar chart, pie chart, histogram…
Ví dụ
Phân phối tần suất theo thương hiệu xe bán ra trong 1 tháng (tháng 3/2025) tại TP.HCM
Bối cảnh
Dữ liệu được thu thập từ một số đại lý ô tô lớn tại TP.HCM, ghi nhận 50 xe ô tô mới được bán ra trong tháng 3 năm 2025, thuộc 5 thương hiệu phổ biến:
-
Toyota
-
Kia
-
Hyundai
-
Honda
-
VinFast
2. Tần suất tương đối
Định nghĩa: Là tỷ lệ (hoặc phần của tổng thể) mà một giá trị xuất hiện trong dữ liệu.
Công thức:
3. Tần suất phần trăm
Định nghĩa: Là tần suất tương đối nhưng được chuyển thành phần trăm.
Giả sử bạn có dữ liệu bán xe ô tô tại TP.HCM trong tháng 3/2025, gồm 50 chiếc xe bán ra:
Hãng xe | Tần suất | Tần suất tương đối | Tần suất phần trăm |
---|---|---|---|
Toyota | 16 | 16/50 = 0.32 | 32% |
Kia | 11 | 11/50 = 0.22 | 22% |
Hyundai | 10 | 10/50 = 0.20 | 20% |
Honda | 7 | 7/50 = 0.14 | 14% |
VinFast | 6 | 6/50 = 0.12 | 12% |
4. Phân biệt Tần suất phân phối, Tần suất tương đối, Tần suất phần trăm
Loại | Nội dung |
---|---|
Phân phối | Số lần xuất hiện (vd: Toyota bán được 16 chiếc) |
Tương đối | Tỷ lệ trong tổng số (vd: Toyota chiếm 32% trong 50 xe bán ra) |
Phần trăm | Tần suất tương đối chuyển thành phần trăm (vd: 32%) |
Biểu đồ cột (Bar chart) và biểu đồ tròn (Pie chart)
Biểu đồ cột (Bar chart)
Biểu đồ cột, hay còn gọi là biểu đồ thanh, là một cách thể hiện trực quan của bảng phân phối tần suất, tần suất tương đối, hoặc tần suất phần trăm.
Trên một trục của biểu đồ (thường là trục ngang), ta ghi nhãn cho các nhóm (loại) dữ liệu. Trục còn lại (thường là trục dọc) sẽ thể hiện giá trị tần suất, tần suất tương đối hoặc tần suất phần trăm.
Sau đó, ta vẽ các thanh dọc có độ rộng bằng nhau trên từng nhãn, chiều cao của mỗi thanh sẽ tương ứng với giá trị tần suất của nhóm đó.
Với dữ liệu định tính (ví dụ: thương hiệu xe, ngành nghề...), các cột nên được cách nhau để nhấn mạnh rằng các nhóm là riêng biệt.
Biểu đồ tròn (Pie chart)
Biểu đồ tròn là một cách khác để thể hiện tần suất tương đối hoặc tần suất phần trăm.
Cách vẽ:
-
Vẽ một hình tròn đại diện cho toàn bộ dữ liệu (100%).
-
Chia hình tròn thành các hình quạt tương ứng với tần suất của từng nhóm.
-
Vì một hình tròn có 360 độ, nên:
-
Nếu một nhóm chiếm 38% (tần suất tương đối 0.38), thì góc hình quạt là:
0.38 × 360 = 136.8 độ -
Tương tự, nhóm Mercedes chiếm 26% thì có góc:
0.26 × 360 = 93.6 độ
-
Những con số hiển thị trên biểu đồ tròn có thể là số lượng (frequency), tần suất tương đối, hoặc phần trăm.
Ứng dụng trong kiểm soát chất lượng:
Biểu đồ cột còn được dùng trong quản lý chất lượng để thể hiện nguyên nhân chính của lỗi.
Khi các cột được sắp xếp theo thứ tự giảm dần từ trái qua phải, với nguyên nhân phổ biến nhất đứng đầu,
Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft
Bài tập Thống kê Định tính: Phương thức thanh toán ưa thích
Một khảo sát về phương thức thanh toán ưa thích của người tiêu dùng Việt Nam năm 2024 thu được 120 phản hồi với 3 lựa chọn:
-
A: Thanh toán qua Ví điện tử (Momo, ZaloPay, VNPay)
-
B: Thanh toán bằng Thẻ tín dụng (Visa, Mastercard)
-
C: Thanh toán Tiền mặt truyền thống
Kết quả thu được như sau:
-
60 người chọn A (Ví điện tử)
-
24 người chọn B (Thẻ tín dụng)
-
36 người chọn C (Tiền mặt)
Yêu cầu:
-
Xây dựng bảng phân phối tần số (frequency distribution).
-
Tính phân phối tần số tương đối (relative frequency distribution) theo tỷ lệ phần trăm.
-
Vẽ biểu đồ hình tròn (pie chart) để minh họa dữ liệu.
Hướng dẫn giải
1. Bảng phân phối tần số
2. Giải thích
-
Ví điện tử (50%) là phương thức phổ biến nhất, phản ánh xu hướng thanh toán không tiền mặt tại Việt Nam.
-
Tiền mặt (30%) vẫn được ưa chuộng, đặc biệt ở khu vực nông thôn hoặc người lớn tuổi.
-
Thẻ tín dụng (20%) chủ yếu được dùng bởi nhóm có thu nhập cao hoặc khách hàng trẻ.
3. Biểu đồ minh họa
Bài tập mở rộng
-
Nếu mẫu tăng lên 240 người với tỷ lệ tương tự, hãy tính số lượng người chọn mỗi phương thức.
-
Gợi ý: Nhân tỷ lệ phần trăm với 240.
-
-
So sánh kết quả này với dữ liệu năm 2020 (A: 30%, B: 10%, C: 60%). Nhận xét xu hướng thay đổi.
-
Gợi ý: Thanh toán điện tử tăng mạnh nhờ chính sách của Chính phủ và Covid-19.
-
-
Thiết kế bảng câu hỏi khảo sát 5 lựa chọn (thêm "Chuyển khoản ngân hàng" và "QR Code").
Ứng dụng thực tế:
Các doanh nghiệp như Shopee, Grab sử dụng dữ liệu này để tối ưu hóa hệ thống thanh toán, giảm tỷ lệ bỏ giỏ hàng.
Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft
Bài tập Thống kê định tính: Thu nhập hàng tháng
Một nghiên cứu về thu nhập hàng tháng của nhân viên văn phòng tại TP.HCM phân loại dữ liệu thành 4 nhóm (đơn vị: triệu VNĐ/tháng):
Nhóm (Class) | Phạm vi thu nhập | Tần số tương đối (Relative Frequency) |
---|---|---|
A | Dưới 10 | 0.22 |
B | 10 – 15 | 0.18 |
C | 15 – 25 | 0.40 |
D | Trên 25 | ? |
Yêu cầu:
-
Tính tần số tương đối của nhóm D.
-
Biết tổng mẫu là 200 người, tính tần số (số lượng) của nhóm D.
-
Xây dựng bảng phân phối tần số đầy đủ.
-
Xây dựng bảng phân phối tần số phần trăm.
Hướng dẫn giải
1. Tính tần số tương đối của nhóm D
2. Tính tần số (số lượng) của nhóm D
3. Bảng phân phối tần số đầy đủ
Nhóm | Phạm vi thu nhập (triệu VNĐ) | Tần số (Frequency) | Tần số tương đối (Relative Frequency) |
---|---|---|---|
A | Dưới 10 | 0.22×200=44 | 0.22 |
B | 10 – 15 | 0.18×200=36 | 0.18 |
C | 15 – 25 | 0.40×200=80 | 0.40 |
D | Trên 25 | 40 | 0.20 |
Tổng | 200 | 1.00 |
4. Bảng phân phối tần số phần trăm
Nhóm | Phạm vi thu nhập | Tần số phần trăm (%) |
---|---|---|
A | Dưới 10 | 22% |
B | 10 – 15 | 18% |
C | 15 – 25 | 40% |
D | Trên 25 | 20% |
Tổng | 100% |
Nhận xét dữ liệu
-
Nhóm C (15–25 triệu VNĐ) chiếm tỷ trọng cao nhất (40%), phản ánh mức lương phổ biến của nhân viên văn phòng tại TP.HCM.
-
Nhóm D (trên 25 triệu) chiếm 20%, thường là quản lý cấp trung hoặc ngành IT/tài chính.
-
Nhóm A (dưới 10 triệu) chiếm 22%, có thể là thực tập sinh hoặc nhân viên mới vào nghề.
Bài tập mở rộng
-
Vẽ biểu đồ cột thể hiện phân phối tần số phần trăm.
(Gợi ý: Trục ngang là các nhóm A-D, trục dọc là %) -
Nếu mẫu tăng lên 500 người với tỷ lệ tương tự, tính số người trong nhóm B.
(Đáp án: 0.18×500=90 người) -
Phỏng đoán lý do nhóm C có tần số cao nhất:
-
Do lương khởi điểm của sinh viên mới ra trường?
-
Hay ngành nghề nào chiếm đa số trong mẫu?
-
Ứng dụng: Các công ty có thể sử dụng dữ liệu này để điều chỉnh chính sách lương hoặc tuyển dụng nhân sự phù hợp với thị trường TP.HCM.
Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft
Bài tập thống kê định tính: Xu hướng sử dụng xe điện tại Hà Nội
Một khảo sát về xu hướng sử dụng xe điện tại Hà Nội với 120 người tham gia đã thu được kết quả như sau:
-
58 người trả lời "Có" (đang sử dụng hoặc có ý định mua xe điện)
-
42 người trả lời "Không" (không quan tâm đến xe điện)
-
20 người "Không có ý kiến"
Yêu cầu:
-
Tính số độ chiếm bởi câu trả lời "Có" trong biểu đồ tròn.
-
Tính số độ chiếm bởi câu trả lời "Không" trong biểu đồ tròn.
-
Vẽ biểu đồ tròn thể hiện tỷ lệ các câu trả lời.
-
Vẽ biểu đồ cột thể hiện tần số các câu trả lời.
Hướng dẫn giải
1. Tính số độ cho câu trả lời "Có"
2. Tính số độ cho câu trả lời "Không"
3. Biểu đồ tròn(Dành cho bạn)
4. Biểu đồ cột(Dành cho bạn)
Nhận xét dữ liệu
-
Xu hướng tích cực: Gần 50% người được hỏi quan tâm đến xe điện, phù hợp với chính sách khuyến khích của Chính phủ.
-
Rào cản: 35% từ chối có thể do giá cao hoặc thiếu trạm sạc.
-
Nhóm trung lập (20%): Cần thêm thông tin để thuyết phục.
Bài tập mở rộng
-
Nếu mẫu tăng lên 240 người với tỷ lệ tương tự, tính số người trả lời "Không ý kiến".
-
Thiết kế bảng câu hỏi 5 lựa chọn (thêm "Đang cân nhắc", "Chỉ sử dụng xe máy xăng").
-
So sánh với dữ liệu 2020 ("Có": 20%, "Không": 60%). Nhận xét về sự thay đổi sau 4 năm.
Ứng dụng: Các hãng xe điện (VinFast, Tesla) có thể sử dụng dữ liệu này để:
Tập trung vào nhóm "Có" bằng chính sách ưu đãi.
Cải thiện nhận thức cho nhóm "Không ý kiến" qua truyền thông.
Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft
Phân tích định tính: Phân tích Hệ điều hành Di động tại Việt Nam (2024)
Công ty VNMobile Research thực hiện nghiên cứu thị trường về hệ điều hành di động được sử dụng tại Việt Nam. Mẫu dữ liệu gồm 50 lượt truy cập website từ thiết bị di động được ghi nhận như sau:
Android, Android, iOS, Android, iOS, Android, HarmonyOS, iOS, HarmonyOS, iOS, Android, Android, HarmonyOS, HarmonyOS, HarmonyOS, HarmonyOS, iOS, iOS, iOS, HarmonyOS, iOS, iOS, iOS, Android, Android, iOS, Android, HarmonyOS, Android, Android, HarmonyOS, iOS, Android, iOS, iOS, iOS, iOS, iOS, iOS, Android, HarmonyOS, iOS, iOS, Android, Android, HarmonyOS, Android, iOS, iOS, Android
Yêu cầu:
-
Dữ liệu này là định tính hay định lượng?
-
Xây dựng bảng phân phối tần số và tần số phần trăm.
-
Vẽ biểu đồ cột và biểu đồ tròn.
-
Hệ điều hành nào phổ biến nhất và đứng thứ hai theo mẫu này?
Hướng dẫn giải
1. Loại dữ liệu
-
Định tính (Qualitative): Dữ liệu là các nhãn tên hệ điều hành, không phải số liệu đo lường.
2. Bảng phân phối tần số
Hệ điều hành | Tần số (Frequency) | Tần số phần trăm (%) |
---|---|---|
Android | 18 | 36% |
iOS | 20 | 40% |
HarmonyOS | 12 | 24% |
Tổng | 50 | 100% |
Giải thích:
-
iOS (Apple) chiếm tỷ lệ cao nhất (40%), phản ánh xu hướng người dùng Việt ưa chuộng iPhone.
-
HarmonyOS (của Huawei) chiếm 24%, dù mới gia nhập thị trường.
3. Biểu đồ minh họa
a. Biểu đồ cột(Dành cho bạn)
b. Biểu đồ tròn(Dành cho bạn)
4. Kết luận phổ biến
-
Hệ điều hành phổ biến nhất: iOS (40%)
-
Hệ điều hành đứng thứ hai: Android (36%)
Nhận xét thị trường Việt Nam
-
iOS dẫn đầu do:
-
Sự phổ biến của iPhone trong giới trẻ.
-
Trải nghiệm người dùng ổn định.
-
-
Android giảm tỷ trọng so với 5 năm trước (từ 60% xuống 36%) do cạnh tranh từ iOS và HarmonyOS.
-
HarmonyOS đang tăng trưởng nhờ phân khúc giá rẻ của Huawei.
Bài tập mở rộng
-
Nếu mẫu tăng lên 200 lượt truy cập với tỷ lệ tương tự, tính số lượt của HarmonyOS.
(Đáp án: 0.24×200=48 lượt) -
Thiết kế bảng câu hỏi nghiên cứu lý do chọn hệ điều hành (giá cả, tính năng, thương hiệu...).
-
So sánh với dữ liệu 2020 (Android: 65%, iOS: 30%, HarmonyOS: 5%). Nhận xét xu hướng.
Ứng dụng:
Các nhà phát triển app nên tối ưu cho iOS trước.
Huawei có thể tăng thị phần bằng quảng cáo tính năng độc quyền của HarmonyOS.
Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft
Tóm tắt dữ liệu định lượng
Dữ liệu định lượng (Quantitative data) là loại dữ liệu thể hiện bằng số lượng hoặc con số, phản ánh mức độ, số lần, trọng lượng, chiều dài, thời gian, v.v. Đây là dữ liệu có thể đo lường được bằng các đơn vị cụ thể và có thể thực hiện các phép tính toán học (cộng, trừ, trung bình, độ lệch chuẩn, v.v.).
Phân loại dữ liệu định lượng
Dữ liệu định lượng được chia thành hai loại chính:
-
Dữ liệu rời rạc (Discrete data)
-
Là dữ liệu chỉ nhận các giá trị nguyên, thường là kết quả của việc đếm.
-
Ví dụ: số sinh viên trong lớp, số xe bán ra mỗi tháng, số cuộc gọi trong ngày.
-
-
Dữ liệu liên tục (Continuous data)
-
Là dữ liệu có thể nhận bất kỳ giá trị nào trong một khoảng, thường là kết quả của việc đo lường.
-
Ví dụ: chiều cao, cân nặng, nhiệt độ, thời gian, tốc độ...
-
Đặc điểm của dữ liệu định lượng
-
Có thể sắp xếp theo thứ tự và tính toán được.
-
Có thể biểu diễn bằng các biểu đồ như: biểu đồ cột, biểu đồ histogram, biểu đồ đường, biểu đồ tròn (nếu đã phân nhóm).
Phân phối tần số dữ liệu định lượng
Như đã định nghĩa trong Mục 2.1, phân phối tần số là một bảng tóm tắt dữ liệu cho thấy số lượng (tần số) của các mục trong mỗi lớp không chồng lấp nhau. Định nghĩa này áp dụng cho cả dữ liệu định tính lẫn định lượng. Tuy nhiên, với dữ liệu định lượng, việc xác định các lớp không chồng lấp thường phức tạp hơn.
Hãy xét đến dữ liệu định lượng trong Bảng 2.4. Dữ liệu này cho biết số ngày cần thiết để hoàn thành các cuộc kiểm toán cuối năm đối với một mẫu gồm 20 khách hàng của công ty kế toán nhỏ Sanderson và Clifford. Dữ liệu đã được làm tròn đến ngày gần nhất. Có ba bước cần thiết để xác định các lớp trong phân phối tần số đối với dữ liệu định lượng như sau:
-
Xác định số lượng lớp không chồng lấp.
-
Xác định độ rộng của mỗi lớp.
-
Xác định giới hạn của mỗi lớp.
1. Số lượng lớp
Các lớp được hình thành bằng cách xác định các khoảng giá trị sẽ được sử dụng để nhóm dữ liệu. Theo nguyên tắc chung, chúng tôi khuyến nghị sử dụng từ 5 đến 20 lớp.
Với mẫu dữ liệu nhỏ, chỉ cần khoảng 5 hoặc 6 lớp là đủ để tóm tắt dữ liệu. Đối với các mẫu lớn hơn, thường cần nhiều lớp hơn.
Mục tiêu là sử dụng đủ số lớp để thể hiện được mô hình biến thiên trong dữ liệu, nhưng không nên quá nhiều đến mức khiến một số lớp chỉ chứa rất ít giá trị.
Vì mẫu dữ liệu trong Bảng 2.4 tương đối nhỏ (n = 20), nên chúng tôi chọn xây dựng bảng phân phối tần số gồm năm lớp.
STT | Thời gian (ngày) | STT | Thời gian (ngày) |
---|---|---|---|
1 | 12 | 11 | 33 |
2 | 22 | 12 | 15 |
3 | 14 | 13 | 28 |
4 | 23 | 14 | 18 |
5 | 19 | 15 | 14 |
6 | 22 | 16 | 17 |
7 | 18 | 17 | 18 |
8 | 21 | 18 | 20 |
9 | 15 | 19 | 16 |
10 | 15 | 20 | 27 |
21 | 13 |
12, 22, 14, 23, 19, 22, 18, 21, 15, 33, 15, 28, 18, 14, 17, 18, 20, 16, 27, 13
có 20 giá trị, mỗi giá trị đại diện cho thời gian kiểm toán (tính bằng ngày) của một khách hàng.
Khi bạn có dữ liệu định lượng như thời gian (ngày, giờ, số tiền, số sản phẩm...), để dễ phân tích, người ta chia dữ liệu thành các khoảng giá trị, mỗi khoảng gọi là một lớp.
Ví dụ:
Nếu thời gian dao động từ 12 đến 33 ngày, bạn có thể chia như sau:
-
Lớp 1: 12–16
-
Lớp 2: 17–21
-
Lớp 3: 22–26
-
Lớp 4: 27–31
-
Lớp 5: 32–36
➡ Mỗi lớp là một khoảng không chồng lấp, dùng để đếm số lần xuất hiện các giá trị thuộc khoảng đó.
Tại sao chọn 5 lớp?
-
Nguyên tắc chung:
Trong thống kê mô tả, người ta thường chọn từ 5 đến 20 lớp, tùy thuộc vào:-
Kích thước mẫu
-
Mức độ chi tiết bạn muốn phân tích
-
-
Trường hợp bạn đang làm:
-
Bạn có 20 quan sát (n = 20)
-
Mẫu này không lớn, nên 5 lớp là đủ để thấy xu hướng mà không quá chi tiết
-
Nếu chia quá nhiều lớp (ví dụ 10 lớp), có thể mỗi lớp chỉ chứa 1–2 giá trị, làm cho phân tích không có ý nghĩa
-
Vì vậy, chọn 5 lớp giúp:
-
Đơn giản hóa dữ liệu
-
Dễ đọc, dễ vẽ biểu đồ
-
Thể hiện xu hướng rõ ràng
2. Độ rộng của các lớp
Bước thứ hai là chọn độ rộng cho các lớp. Theo một nguyên tắc chung, chúng tôi khuyến nghị nên dùng cùng một độ rộng cho tất cả các lớp. Điều này giúp giảm khả năng diễn giải sai lệch. Việc lựa chọn số lượng lớp và độ rộng lớp không phải là hai quyết định độc lập. Nếu số lượng lớp tăng lên thì độ rộng lớp sẽ nhỏ lại, và ngược lại.
Để xác định độ rộng lớp xấp xỉ, ta cần xác định giá trị lớn nhất và nhỏ nhất trong tập dữ liệu. Sau đó, có thể dùng biểu thức sau để tính độ rộng lớp xấp xỉ:
Độ rộng lớp xấp xỉ = (Giá trị lớn nhất – Giá trị nhỏ nhất) / Số lượng lớp
Độ rộng lớp xấp xỉ thu được có thể được làm tròn lên thành một giá trị dễ sử dụng hơn.
Ví dụ: nếu độ rộng lớp xấp xỉ là 9.28, ta có thể làm tròn lên thành 10.
Ví dụ cụ thể – Dữ liệu thời gian kiểm toán cuối năm
-
Giá trị lớn nhất: 33
-
Giá trị nhỏ nhất: 12
-
Số lớp: 5
Áp dụng công thức:
(33 – 12) / 5 = 4.2
Chúng tôi quyết định làm tròn lên và sử dụng độ rộng lớp là 5 ngày.
3. Giới hạn lớp (Class limits)
Giới hạn lớp cần được chọn sao cho mỗi giá trị dữ liệu chỉ thuộc vào duy nhất một lớp.
-
Giới hạn dưới của lớp xác định giá trị dữ liệu nhỏ nhất có thể nằm trong lớp đó.
-
Giới hạn trên của lớp xác định giá trị dữ liệu lớn nhất có thể nằm trong lớp đó.
Khi xây dựng bảng phân phối tần số cho dữ liệu định tính, chúng ta không cần xác định giới hạn lớp, vì mỗi mục dữ liệu đã tự nhiên thuộc về một lớp (hay một danh mục riêng biệt).
Tuy nhiên, với dữ liệu định lượng, việc xác định giới hạn lớp là cần thiết để biết giá trị dữ liệu nằm ở đâu.
Ví dụ: Dữ liệu thời gian kiểm toán
-
Chúng tôi chọn 10 ngày làm giới hạn dưới và 14 ngày làm giới hạn trên cho lớp đầu tiên.
→ Lớp này được ký hiệu là 10–14 trong Bảng 2.5.
→ Giá trị nhỏ nhất là 12, nằm trong lớp 10–14. -
Tiếp theo, lớp thứ hai có giới hạn là 15–19, rồi tiếp tục với:
-
20–24
-
25–29
-
30–34
-
→ Tổng cộng có năm lớp.
→ Giá trị lớn nhất là 33, nằm trong lớp 30–34.
Khoảng cách giữa hai giới hạn dưới liên tiếp chính là độ rộng lớp.
→ Ví dụ: 15 – 10 = 5
Bảng phân phối tần số
Bây giờ ta có thể tạo bảng phân phối tần số bằng cách đếm số lượng dữ liệu thuộc vào từng lớp.
Ví dụ:
-
Lớp 10–14 có 4 giá trị (12, 14, 14 và 13) → tần số là 4
-
Lớp 15–19 có 8 giá trị
-
Lớp 20–24 có 5 giá trị
-
Lớp 25–29 có 2 giá trị
-
Lớp 30–34 có 1 giá trị
Thời gian kiểm toán (ngày) | Tần số |
---|---|
10–14 | 4 |
15–19 | 8 |
20–24 | 5 |
25–29 | 2 |
30–34 | 1 |
Tổng cộng | 20 |
Một số nhận xét từ bảng phân phối tần số
-
Thời gian kiểm toán xuất hiện nhiều nhất nằm trong lớp 15–19 ngày. Có 8/20 lần kiểm toán nằm trong lớp này.
-
Chỉ có một lần kiểm toán kéo dài từ 30 ngày trở lên.
Người đọc có thể rút ra các nhận xét khác tùy theo mục đích và mối quan tâm của họ.
Giá trị thực tiễn của bảng phân phối tần số là giúp chúng ta hiểu dữ liệu dễ dàng hơn so với khi nhìn vào danh sách dữ liệu chưa được tổ chức.
Lớp mở (Open-ended class)
Lớp mở là lớp chỉ có giới hạn dưới hoặc giới hạn trên.
Ví dụ: nếu có hai giá trị kiểm toán là 58 và 65 ngày, thay vì tạo thêm các lớp:
-
35–39
-
40–44
-
45–49
v.v...
→ ta có thể đơn giản hóa bằng cách tạo một lớp mở: “35 ngày trở lên”, với tần số là 2.
Thông thường, lớp mở được dùng ở cuối bảng phân phối.
Trung điểm lớp (Class midpoint)
Trong một số trường hợp, chúng ta muốn biết trung điểm của các lớp trong bảng phân phối tần số của dữ liệu định lượng.
Trung điểm lớp là giá trị nằm giữa giới hạn dưới và giới hạn trên của một lớp.
Ví dụ với dữ liệu thời gian kiểm toán:
-
Năm trung điểm lớp tương ứng là: 12, 17, 22, 27 và 32.
Phân phối tần số tương đối và tần số phần trăm
Chúng ta định nghĩa tần số tương đối và tần số phần trăm cho dữ liệu định lượng giống như với dữ liệu định tính.
-
Tần số tương đối là tỷ lệ giữa số quan sát thuộc về một lớp so với tổng số quan sát.
Với nn là tổng số quan sát: -
Tần số phần trăm là tần số tương đối nhân với 100.
Dựa vào tần số lớp trong Bảng 2.5 và tổng số quan sát n=20n = 20, Bảng 2.6 thể hiện tần số tương đối và tần số phần trăm cho dữ liệu thời gian kiểm toán.
Ví dụ:
-
Có 0.40, hay 40% các cuộc kiểm toán kéo dài từ 15 đến 19 ngày.
-
Chỉ có 0.05, hay 5% các cuộc kiểm toán kéo dài từ 30 ngày trở lên.
Những phân tích và nhận định sâu hơn có thể được rút ra từ Bảng 2.6.
BẢNG 2.6 – Phân phối tần số tương đối và phần trăm cho dữ liệu thời gian kiểm toán
Thời gian kiểm toán (ngày) | Tần số tương đối | Tần số phần trăm |
---|---|---|
10–14 | 0.20 | 20% |
15–19 | 0.40 | 40% |
20–24 | 0.25 | 25% |
25–29 | 0.10 | 10% |
30–34 | 0.05 | 5% |
Tổng cộng | 1.00 | 100% |
Biểu đồ chấm (Dot plot)
Một trong những cách đơn giản nhất để tóm tắt dữ liệu bằng đồ họa là biểu đồ chấm.
Trục ngang thể hiện khoảng giá trị của các quan sát.
Mỗi giá trị dữ liệu được biểu diễn bằng một dấu chấm đặt phía trên trục ngang.
Hình 2.3 là biểu đồ chấm được tạo bằng phần mềm MINITAB cho dữ liệu thời gian kiểm toán trong Bảng 2.4.
Ba dấu chấm nằm phía trên số 18 trên trục ngang cho thấy có ba lần kiểm toán kéo dài 18 ngày.
Biểu đồ chấm giúp thể hiện chi tiết dữ liệu và rất hữu ích khi so sánh phân phối dữ liệu giữa hai hoặc nhiều mẫu.
Biểu đồ Tần số (Histogram)
Định nghĩa
Biểu đồ tần số là dạng biểu đồ hiển thị dữ liệu định lượng đã được tổng hợp trong bảng phân phối tần số, tần số tương đối hoặc tần số phần trăm. Trong đó:
-
Trục hoành (ngang): Thể hiện biến số cần phân tích (ví dụ: thời gian, giá trị).
-
Trục tung (dọc): Thể hiện tần số, tần số tương đối hoặc tần số phần trăm của từng lớp dữ liệu.
Mỗi lớp dữ liệu được biểu diễn bằng một hình chữ nhật có:
-
Đáy: Xác định bởi giới hạn lớp trên trục hoành.
-
Chiều cao: Tương ứng với tần số/tần số phần trăm của lớp đó.
Ví dụ minh họa
Hình 2.5 dưới đây là biểu đồ tần số cho dữ liệu thời gian kiểm toán (đơn vị: ngày). Lớp có tần số cao nhất (15–19 ngày) được biểu diễn bằng hình chữ nhật cao nhất với tần số là 8. Nếu thay trục tung bằng tần số tương đối hoặc phần trăm, hình dạng biểu đồ vẫn giữ nguyên, chỉ khác ở giá trị trục dọc.