# Dữ liệu phân loại và dữ liệu định lượng Dữ liệu có thể được phân loại thêm thành **dữ liệu phân loại (categorical data)** hoặc **dữ liệu định lượng (quantitative data)**. - **Dữ liệu phân loại** bao gồm các **nhãn hoặc tên dùng để xác định một thuộc tính của từng phần tử**. Chúng sử dụng **thang đo định danh (nominal)** hoặc **thang đo thứ bậc (ordinal)** và có thể **không phải là số** hoặc **được mã hóa bằng số** (ví dụ: 1 = Nam, 2 = Nữ). - **Dữ liệu định lượng** là dữ liệu yêu cầu **giá trị số biểu thị số lượng hoặc mức độ**, và được thu thập bằng **thang đo khoảng (interval)** hoặc **thang đo tỷ lệ (ratio)**. #### **Biến phân loại và biến định lượng** - **Biến phân loại (categorical variable)** là biến mà giá trị của nó là dữ liệu phân loại. - **Biến định lượng (quantitative variable)** là biến có giá trị định lượng. Việc lựa chọn phương pháp phân tích thống kê phù hợp phụ thuộc vào loại biến: **biến phân loại hay biến định lượng**. #### **Khi là biến phân loại** - Phân tích thống kê thường **hạn chế hơn**. - Ta có thể **đếm số lượng quan sát** trong mỗi nhóm hoặc **tính tỷ lệ** phần trăm. - Ngay cả khi dữ liệu được mã hóa bằng số (ví dụ: 1, 2, 3), các phép toán như cộng, trừ, nhân, chia **không mang ý nghĩa**. 🔸 *Ví dụ*: Nếu bạn khảo sát ngành học của 100 sinh viên (Kinh tế, Kế toán, Marketing), thì việc cộng "Kế toán + Marketing" hoàn toàn **không có ý nghĩa gì cả**. #### **Khi là biến định lượng** - Các phép toán số học **có ý nghĩa thực tiễn**. - Bạn có thể cộng các giá trị và chia trung bình để ra **giá trị trung bình**, hoặc đo **độ lệch chuẩn**, **phương sai**, v.v. 🔸 *Ví dụ*: Bạn có dữ liệu về **thu nhập hàng tháng** của 1.000 người lao động → bạn có thể: - Tính **thu nhập trung bình** - Tính **thu nhập tối đa, tối thiểu** - Vẽ biểu đồ phân phối - Phân tích xu hướng theo ngành hoặc khu vực #### **Thực tế trong kinh doanh:**
**Loại dữ liệu****Ví dụ kinh doanh****Loại biến****Phân tích được áp dụng**
Tên sản phẩmVinamilk, CocaColaPhân loạiĐếm số sản phẩm, phân tích tỷ lệ
Ngành hàngSữa, Bia, Đồ gia dụngPhân loại (Ordinal)Xếp hạng doanh số theo ngành
Doanh thu tháng12 tỷ, 15 tỷ, 10 tỷĐịnh lượngTrung bình, độ lệch chuẩn, biểu đồ
Mức độ hài lòng (1-5)1 = rất không hài lòng → 5 = rất hài lòngThứ bậc (Ordinal)Tính trung bình, phân tích xu hướng
#### **Dữ liệu chéo và dữ liệu chuỗi thời gian** Trong phân tích thống kê, việc phân biệt giữa **dữ liệu chéo (cross-sectional data)** và **dữ liệu chuỗi thời gian (time series data)** là rất quan trọng. - **Dữ liệu chéo** là dữ liệu được thu thập **tại cùng một thời điểm hoặc trong một khoảng thời gian rất ngắn**, từ **nhiều đối tượng khác nhau** (Vinamilk, FPT, Hòa Phát...) - Ví dụ, bảng dữ liệu dưới đây thể hiện thông tin về khối lượng giao dịch và giá trị giao dịch của 6 công ty niêm yết trên sàn HOSE trong **ngày 1 tháng 4 năm 2025** → Đây là **dữ liệu chéo**. - **Dữ liệu chuỗi thời gian** là dữ liệu được thu thập **trong nhiều khoảng thời gian liên tiếp** (ví dụ: theo tháng, theo quý, theo năm...). - Ví dụ: nếu bạn theo dõi giá cổ phiếu VNM từ năm 2020 đến 2025 mỗi tháng → đó là **dữ liệu chuỗi thời gian**.
Công tyMã CKNgành hàngKL giao dịch (cổ phiếu)Giá trị giao dịch (tỷ VNĐ)
VinamilkVNMSữa & Đồ uống1,200,00072.5
FPTFPTCông nghệ thông tin850,00095.8
Hòa PhátHPGThép & VLXD2,100,000102.3
Thế Giới Di ĐộngMWGBán lẻ điện tử640,00047.6
VietcombankVCBNgân hàng1,750,000135.2
SabecoSABBia & Giải khát300,00050.1
Bảng 1.2 – Dữ liệu chéo minh họa thị trường chứng khoán Việt Nam (01/04/2025) ### **Phân tích :** - **Dữ liệu định lượng:** Khối lượng giao dịch, Giá trị giao dịch. - **Dữ liệu phân loại:** Tên công ty, Mã cổ phiếu, Ngành hàng. - **Thang đo:** - Tên công ty, Mã cổ phiếu: **Định danh (Nominal)**. - Ngành hàng: **Thứ bậc (Ordinal)** – có thể phân loại theo mức độ ảnh hưởng thị trường. - Khối lượng, Giá trị giao dịch: **Tỷ lệ (Ratio)** – có số 0 và đơn vị đo lường có ý nghĩa. #### **Phân biệt dữ liệu rời rạc và liên tục** - **Dữ liệu rời rạc (discrete):** Là dữ liệu định lượng dùng để **đo đếm số lượng**, ví dụ: **số lượng cổ phiếu giao dịch**, **số lượng nhân viên**. - **Dữ liệu liên tục (continuous):** Là dữ liệu định lượng dùng để **đo lường**, ví dụ: **giá trị giao dịch (VNĐ)**, **thu nhập**, **trọng lượng hàng hóa** → không có khoảng cách giữa các giá trị liên tiếp. [![image.png](https://docs.vhterp.com/uploads/images/gallery/2025-04/scaled-1680-/dnsimage.png)](https://docs.vhterp.com/uploads/images/gallery/2025-04/dnsimage.png) **Biểu đồ chuỗi thời gian** thể hiện sự biến động giá cổ phiếu của **VNM (Vinamilk)** từ tháng 1 năm 2024 Biểu đồ này minh họa rõ cách dữ liệu **time series** ghi lại sự thay đổi của một biến số (ở đây là giá cổ phiếu) theo thời gian. Ví dụ như: - Tháng 1/2024: 78.2 nghìn VNĐ - Tháng 6/2024: 83.0 nghìn VNĐ - Tháng 12/2024: 85.5 nghìn VNĐ - Tháng 4/2025: 87.3 nghìn VNĐ **Tác giả: Đỗ Ngọc Tú** **Công Ty Phần Mềm [VHTSoft](https://vhtsoft.com/ "Công Ty Phần Mềm VHTSoft")**