Phân tích thống kê cho doanh nghiệp

Trong bối cảnh nền kinh tế ngày càng phát triển và cạnh tranh khốc liệt, việc ra quyết định dựa trên dữ liệu đã trở thành một yêu cầu tất yếu đối với các doanh nghiệp. Cuốn sách "Thống kê cho doanh nghiệp" được biên soạn nhằm cung cấp một nền tảng vững chắc về thống kê ứng dụng trong kinh doanh và kinh tế. Với cách tiếp cận thực tiễn, dễ hiểu cùng nhiều ví dụ minh họa sinh động, sách giúp người đọc nắm vững các khái niệm thống kê cơ bản, hiểu rõ cách thu thập, phân tích và diễn giải dữ liệu để phục vụ cho việc ra quyết định trong môi trường kinh doanh hiện đại.

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Sau khi đọc chương này và hoàn thành các bài tập, bạn sẽ có thể:
- Hiểu và đánh giá được phạm vi ứng dụng rộng lớn của thống kê trong kinh doanh và kinh tế.
- Hiểu ý nghĩa của các thuật ngữ đối tượng nghiên cứu (elements), biến (variables) và quan sát (observations) trong ngữ cảnh thống kê.
- Phân biệt được giữa dữ liệu định tính (qualitative), dữ liệu định lượng (quantitative), dữ liệu theo không gian (cross-sectional) và dữ liệu theo chuỗi thời gian (time series).
- Tìm hiểu về các nguồn dữ liệu phục vụ cho phân tích thống kê, bao gồm cả nguồn nội bộ và bên ngoài doanh nghiệp.
- Nhận thức được cách mà lỗi (errors) có thể phát sinh trong dữ liệu và ảnh hưởng đến kết quả phân tích.
- Hiểu khái niệm thống kê mô tả (descriptive statistics) và suy luận thống kê (statistical inference).
Phân biệt được giữa tổng thể (population) và mẫu (sample) trong nghiên cứu thống kê.
- Hiểu vai trò của mẫu trong việc đưa ra các suy luận thống kê về tổng thể.

Dữ liệu và Thống kê

Ứng dụng thống kê trong kinh doanh

Kinh doanh và kinh tế toàn cầu hiện nay, bất kỳ ai cũng có thể tiếp cận một khối lượng lớn thông tin thống kê. Tuy nhiên, những nhà quản lý và người ra quyết định thành công nhất là những người hiểu rõ dữ liệu thống kê và biết cách vận dụng chúng một cách hiệu quả.
Trong phần này, chúng ta sẽ xem một số ví dụ minh họa cho việc thống kê được ứng dụng như thế nào trong lĩnh vực kinh doanh và kinh tế, từ đó giúp bạn hình dung rõ hơn vai trò quan trọng của thống kê trong việc hỗ trợ phân tích và ra quyết định.

Kế toán (Accounting)

Các công ty kiểm toán độc lập thường sử dụng các phương pháp chọn mẫu thống kê (statistical sampling) khi tiến hành kiểm toán cho khách hàng.
Ví dụ, giả sử một công ty kiểm toán muốn xác định liệu số dư phải thu khách hàng (accounts receivable) được trình bày trên bảng cân đối kế toán của khách hàng có phản ánh trung thực giá trị thực tế hay không. Trong thực tế, số lượng các khoản phải thu thường rất lớn, nên việc kiểm tra từng khoản một sẽ tốn quá nhiều thời gian và chi phí.

Do đó, một thông lệ phổ biến là nhóm kiểm toán sẽ chọn một tập hợp con của các khoản phải thu, gọi là mẫu (sample). Sau khi kiểm tra độ chính xác của các khoản trong mẫu, kiểm toán viên sẽ đưa ra kết luận liệu con số phải thu được trình bày trong báo cáo tài chính có hợp lý và chấp nhận được hay không.

Phương pháp chọn mẫu thống kê trong kiểm toán không chỉ giúp tiết kiệm nguồn lực mà còn tạo điều kiện để áp dụng các kỹ thuật suy luận thống kê (statistical inference) vào việc đưa ra nhận định cho cả tổng thể.

Một điều quan trọng trong quá trình này là lựa chọn mẫu ngẫu nhiên và đại diện, nhằm đảm bảo rằng kết quả từ mẫu có thể suy rộng đáng tin cậy cho toàn bộ dữ liệu. Ngoài ra, các kiểm toán viên còn phải xác định mức sai số chấp nhận được (margin of error)mức độ tin cậy (confidence level) để làm căn cứ cho các kết luận của mình.

Tài chính (Finance)

Các chuyên gia phân tích tài chính sử dụng nhiều loại thông tin thống kê khác nhau để đưa ra khuyến nghị đầu tư.
Trong trường hợp cổ phiếu, họ thường xem xét nhiều dữ liệu tài chính như tỷ số giá trên thu nhập (P/E - price/earnings ratio)lợi suất cổ tức (dividend yield).

Tỷ số P/E = Giá thị trường của cổ phiếu / Lợi nhuận trên mỗi cổ phiếu (EPS)

Nó thể hiện nhà đầu tư sẵn sàng trả bao nhiêu tiền cho 1 đồng lợi nhuận mà công ty tạo ra.
Ví dụ: P/E = 15 nghĩa là nhà đầu tư trả 15 đồng để thu về 1 đồng lợi nhuận.

Bằng cách so sánh thông tin của một cổ phiếu cụ thể với các chỉ số trung bình của thị trường chứng khoán, nhà phân tích tài chính có thể đưa ra nhận định liệu cổ phiếu đó đang được định giá quá cao (overpriced) hay quá thấp (underpriced).

Tương tự, các xu hướng giá cổ phiếu trong quá khứ (historical price trends) cũng có thể cung cấp những chỉ báo quan trọng giúp nhà đầu tư xác định thời điểm nên tham gia hoặc quay lại thị trường.

Ví dụ, vào ngày 3 tháng 4 năm 2009, tạp chí Money Week đưa tin về một phân tích của Goldman Sachs cho rằng, do giá cổ phiếu lúc đó đang ở mức đặc biệt thấp, nhà đầu tư có thể kỳ vọng mức lợi nhuận trung bình thực tế lên tới 6% tại Hoa Kỳ7% tại Vương quốc Anh trong vòng một thập kỷ tới – dựa trên tỷ lệ P/E được điều chỉnh theo chu kỳ dài hạn.

Lĩnh vực tài chính là một trong những môi trường ứng dụng thống kê mạnh mẽ và rộng rãi nhất. Các nhà phân tích không chỉ sử dụng thống kê mô tả để tóm tắt dữ liệu, mà còn thường xuyên sử dụng các mô hình thống kê suy luận và mô hình dự báo (forecasting models), chẳng hạn như hồi quy tuyến tính, phân tích chuỗi thời gian, và mô hình ARIMA.

Thống kê giúp giảm thiểu rủi ro trong các quyết định tài chính bằng cách cung cấp một nền tảng dữ liệu có hệ thống, giúp nhà đầu tư không ra quyết định dựa trên cảm tính, mà dựa trên các chỉ số và mô hình có cơ sở khoa học.

Tiếp thị (Marketing)

Các thiết bị quét mã vạch (electronic scanners) tại quầy thanh toán của các cửa hàng bán lẻ thu thập dữ liệu phục vụ cho nhiều mục đích nghiên cứu thị trường khác nhau.

Ví dụ, các nhà cung cấp dữ liệu như ACNielsen mua lại dữ liệu từ máy quét tại điểm bán (point-of-sale scanner data) từ các cửa hàng tạp hóa, xử lý dữ liệu đó, và sau đó bán lại các bảng tổng hợp thống kê cho các nhà sản xuất.
Các nhà sản xuất thường chi một khoản tiền lớn cho từng nhóm sản phẩm để sở hữu loại dữ liệu này.

Ngoài ra, họ còn mua dữ liệu và các bản tổng hợp thống kê liên quan đến hoạt động xúc tiến bán hàng (promotional activities) như:
Chương trình giảm giá đặc biệt (special pricing)
Trưng bày sản phẩm trong cửa hàng (in-store displays)

Các quản lý thương hiệu (brand managers) có thể phân tích thống kê từ dữ liệu máy quétthống kê từ hoạt động khuyến mãi để hiểu rõ hơn mối quan hệ giữa các chương trình khuyến mãi và doanh số bán hàng.

Những phân tích này thường cung cấp thông tin có giá trị để xây dựng chiến lược tiếp thị hiệu quả hơn cho từng sản phẩm trong tương lai.

Đây là ví dụ điển hình về cách thống kê giúp chuyển đổi dữ liệu thô thành tri thức chiến lược.
Thông qua phân tích mối quan hệ giữa biến số khuyến mãikết quả bán hàng, các nhà tiếp thị có thể:

Ngày nay, với sự phát triển của phân tích dữ liệu lớn (big data analytics)AI trong marketing, vai trò của thống kê càng trở nên quan trọng và sâu sắc hơn bao giờ hết.

Sản xuất (Production)

Ngày nay, khi chất lượng được đặt lên hàng đầu, thì kiểm soát chất lượng (quality control) trở thành một ứng dụng quan trọng của thống kê trong lĩnh vực sản xuất.

Nhiều loại biểu đồ kiểm soát thống kê (statistical quality control charts) được sử dụng để giám sát đầu ra của quy trình sản xuất.
Trong đó, biểu đồ trung bình x̄ (x-bar chart) là một công cụ phổ biến để theo dõi giá trị trung bình của sản phẩm đầu ra.

Ví dụ, giả sử một máy chiết rót nước giải khát được lập trình để rót 330g mỗi chai.
Định kỳ, công nhân sản xuất sẽ lấy một mẫu ngẫu nhiên các chai và tính trung bình lượng nước (x̄) trong mẫu.
Giá trị trung bình này được vẽ lên biểu đồ x-bar.

Quy trình được coi là "đang trong kiểm soát" (in control)có thể tiếp tục nếu các điểm dữ liệu nằm giữa hai giới hạn kiểm soát.

Khi được phân tích đúng cách, biểu đồ x̄ giúp xác định thời điểm cần điều chỉnh máy móc hoặc quy trình để đảm bảo chất lượng sản phẩm luôn đạt tiêu chuẩn.

rong ngành sản xuất sữa tiệt trùng, một nhà máy đóng gói sữa hộp 1 lít.
Cứ sau mỗi 30 phút, kỹ thuật viên lấy ngẫu nhiên 5 hộp sữa, cân từng hộp, và tính trung bình.
Nếu trung bình nằm ngoài giới hạn cho phép (ví dụ dưới 980ml hoặc trên 1020ml), kỹ thuật viên ngay lập tức điều chỉnh máy chiết rót.

Phân tích thống kê này giúp giảm tỷ lệ hàng lỗi, tiết kiệm chi phí sản xuất,duy trì uy tín thương hiệu.

Kinh tế học (Economics)

Các nhà kinh tế học thường đưa ra dự báo về tương lai của nền kinh tế hoặc một khía cạnh cụ thể nào đó của nó.
Để xây dựng các dự báo này, họ sử dụng nhiều loại dữ liệu thống kê khác nhau.

Ví dụ, trong việc dự báo tỷ lệ lạm phát, các nhà kinh tế thường sử dụng các chỉ số thống kê như:

Thông thường, các chỉ số thống kê này được đưa vào các mô hình dự báo được máy tính hóa, từ đó tạo ra các ước tính về tỷ lệ lạm phát trong tương lai.

Chẳng hạn, Ngân hàng Trung ương Việt Nam (SBV) có thể dựa vào dữ liệu PPI, CPI, tăng trưởng GDP và tỷ lệ thất nghiệp để:

Một ví dụ khác, Quỹ Tiền tệ Quốc tế (IMF)Ngân hàng Thế giới (WB) thường sử dụng mô hình kinh tế lượng (econometric models) để dự báo mức tăng trưởng của các nền kinh tế đang phát triển, trong đó Việt Nam là một trường hợp điển hình.

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

DỮ LIỆU (DATA)

I. Dữ liệu

Dữ liệucác sự kiện và con số được thu thập, phân tích và tóm tắt nhằm phục vụ cho việc trình bày và diễn giải.

Toàn bộ dữ liệu được thu thập trong một nghiên cứu cụ thể được gọi là tập dữ liệu (data set) của nghiên cứu đó.

Company Ticker Sector Volume Traded (shares) Price (VND) Market Capitalization (Billion VND) Price Change (%) Date
VinGroup VIC Real Estate 2,500,000 100,000 250,000 1.5 2024-03-01
Vietcombank VCB Banking 3,500,000 120,000 420,000 -0.5 2024-03-01
HoaPhat HPG Steel 4,200,000 55,000 300,000 0.3 2024-03-01
Masangroup MSN Food & Beverage 3,000,000 150,000 120,000 2.0 2024-03-01
BIDV BID Banking 2,800,000 42,000 220,000 -1.2 2024-03-01

Dưới đây là Bảng 1.1 minh họa dữ liệu giao dịch cổ phiếu tại Sở Giao dịch Chứng khoán Việt Nam (VNX) cho tháng 3 năm 2024:

Giải thích:

Theo báo cáo cập nhật từ Sở Giao dịch Chứng khoán London (LSE) tháng 3/2024, tổng khối lượng giao dịch cổ phiếu đạt hơn 1.1 nghìn tỷ GBP, với các ngành năng lượng và AI tăng trưởng mạnh nhất.

Tập dữ liệu được sử dụng trong báo cáo này bao gồm:

 Những tập dữ liệu như vậy đang ngày càng trở nên phổ biến nhờ sự phát triển của dữ liệu lớn (big data)AI phân tích dữ liệu (data analytics AI).

II. Các yếu tố (Elements), Biến số (Variables), Quan sát (Observations)

Các yếu tố (Elements): Là các thực thể mà dữ liệu được thu thập trên đó. Trong bảng dữ liệu này, mỗi công ty niêm yết là một yếu tố (VinGroup, Vietcombank, HoaPhat...). Có 5 công ty nên bộ dữ liệu chứa 5 yếu tố.

Biến số (Variables): Là các đặc tính quan tâm của các yếu tố. Bảng này gồm 7 biến:

Quan sát (Observations): Là tập hợp các giá trị đo lường thu thập được cho một yếu tố cụ thể. Mỗi hàng trong bảng là một quan sát. Ví dụ quan sát đầu tiên (VinGroup) có các giá trị: VIC, Real Estate, 2,500,000, 100,000, 250,000, 1.5%, 2024-03-01.

Phân tích bảng dữ liệu
  1. Các yếu tố (Elements): 5 công ty niêm yết trên sàn chứng khoán Việt Nam

    • VinGroup (VIC)

    • Vietcombank (VCB)

    • HoaPhat (HPG)

    • Masangroup (MSN)

    • BIDV (BID)

  2. Các biến số (Variables):

    • Biến định tính (Qualitative):

      • Company: Tên công ty

      • Ticker: Mã chứng khoán

      • Sector: Ngành hoạt động

      • Date: Ngày giao dịch

    • Biến định lượng (Quantitative):

      • Volume Traded: Khối lượng cổ phiếu giao dịch (liên tục)

      • Price: Giá cổ phiếu (liên tục)

      • Market Capitalization: Vốn hóa thị trường (liên tục)

      • Price Change: % thay đổi giá (liên tục)

  3. Quan sát (Observations): 5 quan sát tương ứng với 5 công ty

  4. Phân tích ngành:

    • 2 công ty ngành ngân hàng (VCB, BID)

    • 1 công ty bất động sản (VIC)

    • 1 công ty thép (HPG)

    • 1 công ty thực phẩm & đồ uống (MSN)

  5. Giá trị nổi bật:

    • Giá cao nhất: MSN (150,000 VND)

    • Giá thấp nhất: BID (42,000 VND)

    • Khối lượng giao dịch lớn nhất: HPG (4,200,000 shares)

    • Vốn hóa lớn nhất: VCB (420,000 tỷ VND)

    • Tăng giá mạnh nhất: MSN (+2.0%)

    • Giảm giá nhiều nhất: BID (-1.2%)

III. Thang đo trong thống kê và phân tích dữ liệu

Việc thu thập dữ liệu đòi hỏi phải xác định thang đo phù hợp, bao gồm: định danh (nominal), thứ bậc (ordinal), khoảng cách (interval) hoặc tỷ lệ (ratio). Thang đo quyết định lượng thông tin chứa trong dữ liệu và giúp lựa chọn phương pháp tổng hợp, phân tích thống kê phù hợp.

1. Thang đo định danh (Nominal Scale)

2. Thang đo thứ bậc (Ordinal Scale)

3. Thang đo khoảng cách (Interval Scale)

4. Thang đo tỷ lệ (Ratio Scale)

Lưu ý quan trọng

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Dữ liệu phân loại và dữ liệu định lượng

Dữ liệu có thể được phân loại thêm thành dữ liệu phân loại (categorical data) hoặc dữ liệu định lượng (quantitative data).

Biến phân loại và biến định lượng

Việc lựa chọn phương pháp phân tích thống kê phù hợp phụ thuộc vào loại biến: biến phân loại hay biến định lượng.

Khi là biến phân loại

🔸 Ví dụ: Nếu bạn khảo sát ngành học của 100 sinh viên (Kinh tế, Kế toán, Marketing), thì việc cộng "Kế toán + Marketing" hoàn toàn không có ý nghĩa gì cả.

Khi là biến định lượng

🔸 Ví dụ: Bạn có dữ liệu về thu nhập hàng tháng của 1.000 người lao động → bạn có thể:

Thực tế trong kinh doanh:

Loại dữ liệu Ví dụ kinh doanh Loại biến Phân tích được áp dụng
Tên sản phẩm Vinamilk, CocaCola Phân loại Đếm số sản phẩm, phân tích tỷ lệ
Ngành hàng Sữa, Bia, Đồ gia dụng Phân loại (Ordinal) Xếp hạng doanh số theo ngành
Doanh thu tháng 12 tỷ, 15 tỷ, 10 tỷ Định lượng Trung bình, độ lệch chuẩn, biểu đồ
Mức độ hài lòng (1-5) 1 = rất không hài lòng → 5 = rất hài lòng Thứ bậc (Ordinal) Tính trung bình, phân tích xu hướng

Dữ liệu chéo và dữ liệu chuỗi thời gian

Trong phân tích thống kê, việc phân biệt giữa dữ liệu chéo (cross-sectional data)dữ liệu chuỗi thời gian (time series data) là rất quan trọng.

Công ty Mã CK Ngành hàng KL giao dịch (cổ phiếu) Giá trị giao dịch (tỷ VNĐ)
Vinamilk VNM Sữa & Đồ uống 1,200,000 72.5
FPT FPT Công nghệ thông tin 850,000 95.8
Hòa Phát HPG Thép & VLXD 2,100,000 102.3
Thế Giới Di Động MWG Bán lẻ điện tử 640,000 47.6
Vietcombank VCB Ngân hàng 1,750,000 135.2
Sabeco SAB Bia & Giải khát 300,000 50.1

Bảng 1.2 – Dữ liệu chéo minh họa thị trường chứng khoán Việt Nam (01/04/2025)

 

Phân tích :

Phân biệt dữ liệu rời rạc và liên tục

image.png

Biểu đồ chuỗi thời gian thể hiện sự biến động giá cổ phiếu của VNM (Vinamilk) từ tháng 1 năm 2024

Biểu đồ này minh họa rõ cách dữ liệu time series ghi lại sự thay đổi của một biến số (ở đây là giá cổ phiếu) theo thời gian. Ví dụ như:

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Nguần dữ liệu(DATA SOURCES)

Nguồn dữ liệu có thể đến từ các nguồn sẵn có hoặc được thu thập mới thông qua khảo sát và nghiên cứu thực nghiệm.

Nguồn dữ liệu sẵn có

Trong một số trường hợp, dữ liệu cần thiết cho một ứng dụng cụ thể đã tồn tại. Các công ty tại Việt Nam hiện nay thường lưu trữ nhiều cơ sở dữ liệu khác nhau về nhân viên, khách hàng và hoạt động kinh doanh. Dữ liệu về mức lương, độ tuổi và số năm kinh nghiệm của nhân viên thường có thể lấy từ hồ sơ nhân sự nội bộ. Các hồ sơ nội bộ khác có thể chứa thông tin về:

Ngoài ra, nhiều doanh nghiệp cũng quản lý dữ liệu rất chi tiết về khách hàng như hành vi mua hàng, tần suất giao dịch, khu vực sinh sống v.v...

Nhóm dữ liệu Ví dụ dữ liệu có thể thu thập
Nhân sự Mức lương, chức vụ, số năm làm việc
Khách hàng Tên, độ tuổi, khu vực, lịch sử mua hàng
Bán hàng Doanh số theo quý, sản phẩm bán chạy
Quảng cáo Chi phí chạy quảng cáo trên Facebook, Google
Chuỗi cung ứng Chi phí vận chuyển, số lượng tồn kho, nhà cung cấp
Sản xuất Sản lượng, tỉ lệ lỗi sản phẩm, thời gian hoàn thành

Bảng 1.3: Một số dữ liệu thường có trong hệ thống nội bộ của công ty (Việt Nam)

Các nguồn dữ liệu bên ngoài tại Việt Nam

Nhiều tổ chức trong và ngoài nước chuyên thu thập và cung cấp dữ liệu về kinh tế, thị trường và doanh nghiệp tại Việt Nam. Một số nguồn thông tin phổ biến:

Doanh nghiệp có thể tiếp cận các nguồn này thông qua thuê bao, mua dữ liệu hoặc qua nền tảng mở của cơ quan nhà nước.

Internet – nguồn dữ liệu ngày càng quan trọng

Ngày nay, Internet trở thành một kho dữ liệu khổng lồ. Hầu hết các công ty tại Việt Nam đều có website cung cấp:

Ngoài ra, nhiều nền tảng chuyên biệt như:

Cơ quan nhà nước – nguồn dữ liệu đáng tin cậy

Các cơ quan nhà nước cũng là nguồn cung cấp dữ liệu rất giá trị. Ví dụ:

Cơ quan Dữ liệu cung cấp
Tổng cục Thống kê (GSO) Dân số, GDP, tỉ lệ thất nghiệp, chỉ số giá tiêu dùng
Bộ Giáo dục & Đào tạo Số lượng sinh viên, điểm thi trung bình, phân tích ngành học
Ngân hàng Nhà nước Lãi suất, tỷ giá, báo cáo tiền tệ, tín dụng
Tổng cục Hải quan Kim ngạch xuất – nhập khẩu, đối tác thương mại chủ yếu
Bộ Y tế Số ca bệnh, cơ sở khám chữa bệnh, phân bổ nhân lực y tế

Hầu hết dữ liệu đều có thể tải về miễn phí tại các cổng thông tin điện tử như:

https://www.gso.gov.vn
https://data.gov.vn

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Nghiên cứu thống kê

Đôi khi dữ liệu cần thiết cho một ứng dụng cụ thể không có sẵn từ các nguồn hiện tại. Trong những trường hợp như vậy, dữ liệu có thể được thu thập thông qua một nghiên cứu thống kê. Các nghiên cứu thống kê có thể được phân loại thành nghiên cứu thực nghiệm hoặc nghiên cứu quan sát.

I. Nghiên cứu thực nghiệm

Trong một nghiên cứu thực nghiệm, trước tiên cần xác định biến cần quan tâm. Sau đó, một hoặc nhiều biến khác sẽ được kiểm soát để thu thập dữ liệu về cách các biến đó ảnh hưởng đến biến cần quan tâm.

Ví dụ, một công ty dược phẩm có thể muốn tiến hành một thí nghiệm để tìm hiểu tác động của một loại thuốc mới đến huyết áp. Huyết áp là biến được quan tâm. Liều lượng của thuốc mới là biến được kỳ vọng có ảnh hưởng đến huyết áp. Để thu thập dữ liệu, các nhà nghiên cứu chọn một mẫu người tham gia và chia thành nhiều nhóm nhận các liều lượng khác nhau. Dữ liệu về huyết áp trước và sau khi dùng thuốc sẽ được thu thập cho mỗi nhóm. Phân tích thống kê dữ liệu thực nghiệm sẽ giúp xác định ảnh hưởng thực sự của thuốc đến huyết áp.

Tình hình tại Việt Nam:

Các nghiên cứu thực nghiệm hiện nay thường được thực hiện tại các bệnh viện lớn như Bệnh viện Chợ Rẫy, Bạch Mai, hoặc tại các trường đại học như Đại học Y Dược TP.HCM, trong các đề tài nghiên cứu thuốc mới, thực phẩm chức năng hoặc các liệu pháp điều trị mới.

Nghiên cứu quan sát (không thực nghiệm)

Nghiên cứu thống kê không thực nghiệm hay còn gọi là nghiên cứu quan sát không cố gắng kiểm soát các biến. Khảo sát là dạng nghiên cứu quan sát phổ biến nhất. Ví dụ, trong một khảo sát phỏng vấn cá nhân, các câu hỏi nghiên cứu được xác định trước, sau đó thiết kế một bảng câu hỏi và thực hiện với một mẫu người tham gia.

Một số nhà hàng sử dụng khảo sát quan sát để thu thập ý kiến khách hàng về chất lượng món ăn, dịch vụ, không gian, v.v. Một bảng khảo sát tại nhà hàng Lobster Pot ở thành phố Limerick, Ireland yêu cầu khách hàng đánh giá 5 tiêu chí: chất lượng món ăn, thái độ phục vụ, thời gian phục vụ, vệ sinh và cách quản lý. Các mức đánh giá gồm: xuất sắc, tốt, đạt yêu cầu và không đạt — được gọi là dữ liệu xếp hạng (ordinal data), giúp nhà quản lý đánh giá hoạt động của nhà hàng.

Tại Việt Nam, các chuỗi như Highlands Coffee, The Coffee House, hoặc nhà hàng Gogi House thường đính kèm mã QR khảo sát trên hóa đơn để thu thập ý kiến khách hàng. Ngoài ra, các doanh nghiệp cũng sử dụng khảo sát online qua Google Forms hoặc các nền tảng như Zoho, SurveyMonkey để nghiên cứu thị trường hoặc đánh giá mức độ hài lòng của khách hàng.

Chi phí và thời gian thu thập dữ liệu

Các nhà quản lý cần hiểu rõ về thời gian và chi phí liên quan khi thu thập dữ liệu. Sử dụng các nguồn dữ liệu có sẵn sẽ thuận tiện hơn nếu cần dữ liệu trong thời gian ngắn. Nếu dữ liệu quan trọng không có sẵn, cần xem xét kỹ chi phí và thời gian để thu thập chúng. Dù sao, việc ra quyết định nên dựa trên phân tích thống kê hiệu quả về chi phí — tức là chi phí thu thập và phân tích dữ liệu không nên vượt quá lợi ích thu được từ quyết định cải thiện.

II. Sai sót trong thu thập dữ liệu

Các nhà quản lý cũng cần chú ý đến khả năng sai sót trong quá trình thu thập dữ liệu. Việc sử dụng dữ liệu sai còn nguy hiểm hơn việc không có dữ liệu.

Sai sót có thể xảy ra khi:

Những nhà phân tích dữ liệu có kinh nghiệm thường rất cẩn trọng trong việc thu thập và ghi chép dữ liệu. Họ sử dụng các kỹ thuật kiểm tra độ nhất quán nội bộ, ví dụ: nếu một người khai 22 tuổi nhưng có 20 năm kinh nghiệm làm việc thì cần kiểm tra lại dữ liệu. Ngoài ra, họ cũng xem xét các giá trị bất thường (gọi là outliers) để loại trừ khả năng sai sót.

Tại Việt Nam, trong các khảo sát trực tiếp tại sự kiện hay qua điện thoại, sai sót thường gặp do người ghi phiếu vội vàng, người trả lời không hợp tác hoặc hiểu sai câu hỏi. Do đó, nên tổ chức các buổi huấn luyện cho người khảo sát và kiểm tra lại phiếu sau khi thu thập để đảm bảo độ chính xác.

III. Mẫu khảo sát thực tế

1. Mẫu khảo sát khách hàng cho Quán Cà Phê

Tiêu đề:

Khảo sát trải nghiệm khách hàng tại [Tên quán cà phê]

Lời mở đầu:

Chúng tôi rất mong nhận được góp ý của bạn để cải thiện chất lượng dịch vụ. Khảo sát chỉ mất khoảng 1 phút.

Câu hỏi:

  1. Bạn đến quán vào thời điểm nào trong ngày?

    • Sáng

    • Chiều

    • Tối

  2. Bạn đánh giá chất lượng đồ uống như thế nào?

    • Xuất sắc

    • Tốt

    • Bình thường

    • Kém

  3. Không gian quán có phù hợp với bạn không?

    • Rất phù hợp

    • Tạm được

    • Không phù hợp

  4. Thái độ phục vụ của nhân viên:

    • Thân thiện, nhiệt tình

    • Bình thường

    • Cần cải thiện

  5. Bạn có quay lại quán trong tương lai không?

    • Không chắc

    • Không

  6. Góp ý thêm (tùy chọn):
    ➤ …………………………………………………

2. Mẫu khảo sát chất lượng dịch vụ Nhà Hàng

Tiêu đề:

Phiếu khảo sát chất lượng tại nhà hàng [Tên nhà hàng]

Câu hỏi:

  1. Món ăn được phục vụ có đúng món và đúng yêu cầu không?

    • Không

  2. Thời gian chờ món:

    • Nhanh

    • Trung bình

    • Quá lâu

  3. Chất lượng món ăn:

    • Rất ngon

    • Ngon

    • Bình thường

    • Kém

  4. Bạn đánh giá thế nào về thái độ nhân viên?

    • Thân thiện, chuyên nghiệp

    • Bình thường

    • Không hài lòng

  5. Bạn có giới thiệu nhà hàng cho bạn bè/đồng nghiệp không?

    • Không

  6. Góp ý khác (nếu có):
    ➤ …………………………………………………


3. Mẫu khảo sát khách hàng cửa hàng bán lẻ (shop, siêu thị mini)

Tiêu đề:

Khảo sát hài lòng khách hàng – [Tên cửa hàng]

Câu hỏi:

  1. Bạn thấy sản phẩm ở cửa hàng như thế nào?

    • Đa dạng, dễ chọn

    • Đầy đủ

    • Hạn chế

  2. Giá cả sản phẩm:

    • Hợp lý

    • Cao

    • Thấp

  3. Nhân viên tư vấn bán hàng:

    • Nhiệt tình, dễ chịu

    • Bình thường

    • Không thân thiện

  4. Không gian, bố trí cửa hàng:

    • Gọn gàng, dễ tìm

    • Hơi lộn xộn

    • Khó tìm hàng

  5. Bạn có quay lại lần sau không?

    • Không chắc

    • Không

4. Mẫu khảo sát hài lòng tại cơ sở y tế (phòng khám, bệnh viện)

Tiêu đề:

Khảo sát sự hài lòng bệnh nhân – [Tên cơ sở y tế]

Câu hỏi:

  1. Bạn có hài lòng với thời gian chờ khám không?

    • Rất hài lòng

    • Tạm chấp nhận

    • Quá lâu

  2. Bác sĩ/nhân viên y tế có tư vấn rõ ràng và tận tâm không?

    • Bình thường

    • Không

  3. Cơ sở vật chất:

    • Sạch sẽ, đầy đủ

    • Tạm ổn

    • Không tốt

  4. Thái độ nhân viên tiếp đón:

    • Lịch sự, thân thiện

    • Bình thường

    • Thiếu chuyên nghiệp

  5. Bạn có muốn giới thiệu cơ sở cho người khác không?

    • Không chắc

    • Không

  6. Góp ý hoặc phản ánh (nếu có):
    ➤ …………………………………………………

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Thống Kê Mô Tả (Descriptive Statistics)

Phần lớn thông tin thống kê trên báo chí, tạp chí, báo cáo doanh nghiệp và các ấn phẩm khác đều là dữ liệu đã được tổng hợp và trình bày dưới dạng dễ hiểu cho người đọc. Những bản tóm tắt này — có thể ở dạng bảng biểu, đồ thị hoặc số liệu — được gọi là thống kê mô tả (descriptive statistics).

Ví dụ minh họa tại thị trường Việt Nam

Xét lại bảng dữ liệu bạn cung cấp về 5 cổ phiếu niêm yết trên sàn chứng khoán Việt Nam (VinGroup, Vietcombank, Hoa Phat, Masan Group, BIDV). Chúng ta có thể sử dụng thống kê mô tả để tóm tắt thông tin như sau:

1. Tóm tắt dạng bảng (Tabular Summary)

Giả sử chúng ta muốn xem khối lượng giao dịch (Volume Traded) của các cổ phiếu này:

Công ty Khối lượng giao dịch (cổ phiếu) Tỷ trọng (%)
VinGroup (VIC) 2,500,000 15.6%
Vietcombank (VCB) 3,500,000 21.9%
Hoa Phat (HPG) 4,200,000 26.3%
Masan Group (MSN) 3,000,000 18.8%
BIDV (BID) 2,800,000 17.5%
Tổng 16,000,000 100%

→ Từ bảng này, ta thấy Hoa Phat (HPG) có khối lượng giao dịch lớn nhất (26.3%), trong khi VinGroup (VIC) thấp nhất (15.6%).

2. Tóm tắt dạng đồ thị (Graphical Summary)

Một cách trực quan hơn, ta có thể dùng biểu đồ cột (bar chart) để so sánh khối lượng giao dịch:

HPG   | █████████████████████████ (4.2)  
VCB   | █████████████████████ (3.5)  
MSN   | ████████████████ (3.0)  
BID   | █████████████████ (2.8)  
VIC   | ██████████████ (2.5)  

Biểu đồ khối lượng giao dịch 5 cổ phiếu (đơn vị: triệu cổ phiếu)

3. Tóm tắt bằng số liệu (Numerical Summary)

Nhận xét
Ứng dụng thực tế tại Việt Nam

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Suy luận thống kê (Statistical inference)

Trong nhiều trường hợp, chúng ta cần thu thập dữ liệu từ một nhóm lớn các đối tượng (cá nhân, doanh nghiệp, cử tri, hộ gia đình, sản phẩm, khách hàng, v.v.). Tuy nhiên, do hạn chế về thời gian, chi phí và các yếu tố khác, dữ liệu thường chỉ được thu thập từ một phần nhỏ của nhóm này.

Quá trình thu thập dữ liệu từ toàn bộ tổng thể được gọi là điều tra toàn bộ (census), trong khi việc thu thập từ một mẫu được gọi là điều tra mẫu (sample survey). Một trong những đóng góp quan trọng của thống kê là sử dụng dữ liệu mẫu để ước lượng và kiểm định giả thuyết về đặc điểm của tổng thể, thông qua quá trình gọi là suy luận thống kê (statistical inference).

Ví dụ minh họa

Giả sử Công ty Bóng đèn Điện Quang muốn cải tiến tuổi thọ của bóng đèn LED dân dụng. Nhóm nghiên cứu phát triển một loại chip LED mới, và tổng thể ở đây là tất cả bóng đèn có thể được sản xuất với công nghệ mới này.

Để đánh giá hiệu quả, công ty sản xuất thử nghiệm 500 bóng đèn (mẫu) và ghi lại số giờ hoạt động cho đến khi hỏng. Kết quả thu được như sau:

 Dữ liệu mẫu (500 bóng đèn)

Ước lượng thống kê

  1. Ước lượng điểm (Point Estimate):

    • Dựa trên mẫu, tuổi thọ trung bình của bóng đèn mới là 25,000 giờ.

    • Đây là ước lượng cho tuổi thọ trung bình của toàn bộ sản phẩm nếu sản xuất đại trà.

  2. Khoảng tin cậy (Interval Estimate):

    • Với độ tin cậy 95%, sai số ước lượng là ±500 giờ.
      → Khoảng ước lượng: 24,500 – 25,500 giờ.

    • Nghĩa là, có 95% khả năng tuổi thọ thực tế của toàn bộ đèn LED mới nằm trong khoảng này.

Quy trình suy luận thống kê

  1. Xác định tổng thể: Tất cả bóng đèn LED sản xuất bằng công nghệ mới.

  2. Thu thập mẫu: 500 bóng đèn thử nghiệm.

  3. Tính toán thống kê mẫu: Trung bình, độ lệch chuẩn.

  4. Suy luận về tổng thể:

    • Ước lượng điểm: 25,000 giờ.

    • Khoảng tin cậy: 24,500 – 25,500 giờ.

Ứng dụng thực tế tại Việt Nam

  1. Kiểm tra chất lượng sản phẩm:

    • Các công ty như VinFast, TH True Milk, Hòa Phát thường dùng suy luận thống kê để đánh giá độ bền, độ an toàn trước khi sản xuất hàng loạt.

  2. Nghiên cứu thị trường:

    • Ví dụ: Công ty The Coffee House muốn khảo sát mức độ hài lòng của khách hàng. Thay vì hỏi tất cả, họ chỉ khảo sát 1,000 khách hàng và suy luận cho toàn bộ thị trường.

  3. Dự báo kinh tế:

    • Tổng cục Thống kê Việt Nam (GSO) thường dùng điều tra mẫu để ước lượng GDP, tỷ lệ thất nghiệp, lạm phát.

Tóm tắt

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Ứng dụng công nghệ trong phân tích dữ liệu tại Việt Nam

1. Vai trò của máy tính trong phân tích thống kê

Phân tích thống kê thường xử lý khối lượng dữ liệu lớn, do đó các nhà phân tích thường sử dụng phần mềm chuyên dụng để:

Ví dụ: Tính tuổi thọ trung bình của 500 bóng đèn Điện Quang (như ví dụ trước) sẽ mất hàng giờ nếu tính tay, nhưng chỉ cần vài giây với phần mềm.

2. Các công cụ phổ biến tại Việt Nam

a. Phần mềm quốc tế
b. Giải pháp Việt Nam

3. Xu hướng hiện nay

4. Hướng dẫn thực hành

Để phân tích dữ liệu như ví dụ bóng đèn Điện Quang:

  1. Nhập liệu: Lưu file Excel (định dạng .xlsx) hoặc CSV.

  2. Phần mềm khuyến nghị:

    • Người mới: Excel (dùng Data Analysis ToolPak).

    • Nâng cao: R (code mẫu: mean(data$lifetime)).

  3. Tài nguyên Việt Nam:

    • Kho dữ liệu mẫu từ Tổng cục Thống kê (gso.gov.vn).

    • Diễn đàn R Vietnam trên Facebook để trao đổi chuyên môn.

Kết luận

Việc ứng dụng máy tính và phần mềm đã cách mạng hóa phân tích thống kê tại Việt Nam, giúp:
🔹 Tiết kiệm thời gian
🔹 Nâng cao độ chính xác
🔹 Mở ra cơ hội trong thời đại 4.0

Gợi ý: Các doanh nghiệp vừa và nhỏ (SMEs) có thể bắt đầu với Excel hoặc Google Sheets trước khi chuyển sang công cụ phức tạp hơn.

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Khai phá dữ liệu

Giới thiệu về Khai phá dữ liệu

Với sự hỗ trợ của máy đọc thẻ từ, máy quét mã vạch, hệ thống POS (điểm bán hàng), các doanh nghiệp ngày nay thu thập một lượng dữ liệu khổng lồ mỗi ngày. Ngay cả một quán cà phê nhỏ sử dụng phần mềm order cũng có thể tích lũy dữ liệu đáng kể về thói quen khách hàng.

Kho dữ liệu (Data Warehousing)

Khai phá dữ liệu là gì?

Là quá trình phân tích dữ liệu để phát hiện xu hướng, mẫu hình ẩn, hỗ trợ ra quyết định kinh doanh.

Công nghệ sử dụng

Ứng dụng thực tế tại Việt Nam

1. Bán lẻ & Thương mại điện tử
2. Ngân hàng & Tài chính
3. Viễn thông (Viettel, Vinaphone)

Thách thức & Giải pháp

1. Độ tin cậy mô hình (Model Reliability)
2. Hiểu sai quan hệ nhân quả (Overfitting)

Xu hướng tại Việt Nam

  1. AI & Big Data:

    • Các startup như Trusting Social, VHTSoft (phân tích tín dụng) sử dụng data mining để đánh giá rủi ro.

  2. Personalized Marketing:

    • The Coffee House dùng dữ liệu member để gửi voucher cá nhân hóa.

  3. Chính phủ số:

    • Cổng Dịch vụ công Quốc gia phân tích dữ liệu để tối ưu thủ tục hành chính.

Kết luận

Khai phá dữ liệu đang trở thành công cụ chiến lược tại Việt Nam, giúp doanh nghiệp:
Tăng doanh thu (qua recommendation systems)
Giảm rủi ro (phát hiện gian lận)
Tối ưu vận hành (dự báo nhu cầu)

Tuy nhiên, cần kết hợp thống kê truyền thống và AI để tránh sai lệch trong phân tích!

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Tóm tắt

Khái niệm cơ bản

Thống kê là nghệ thuật và khoa học thu thập, phân tích, trình bày và diễn giải dữ liệu. Đây là môn học bắt buộc với sinh viên các ngành kinh tế và quản trị kinh doanh. Chương này đã giới thiệu các ứng dụng thống kê điển hình trong lĩnh vực kinh doanh.

Dữ liệu và thang đo

4 thang đo trong thống kê

  1. Định danh (Nominal): Dùng nhãn hoặc tên để phân loại (ví dụ: ngành nghề, giới tính).

  2. Thứ bậc (Ordinal): Có thứ tự nhưng khoảng cách không đều (ví dụ: xếp hạng khách hàng VIP, Gold, Silver).

  3. Khoảng cách (Interval): Có thứ tự và khoảng cách đều, không có điểm 0 tuyệt đối (ví dụ: nhiệt độ °C).

  4. Tỷ lệ (Ratio): Có đầy đủ tính chất của interval và có điểm 0 tuyệt đối (ví dụ: doanh thu, tuổi tác).

Phân loại dữ liệu

Phương pháp thống kê

  1. Thống kê mô tả (Descriptive statistics):

    • Tổng hợp dữ liệu qua bảng biểu, đồ thị hoặc số liệu

    • Ví dụ: Báo cáo doanh thu theo quý của Vinamilk

  2. Suy luận thống kê (Statistical inference):

    • Sử dụng dữ liệu mẫu để ước lượng hoặc kiểm định cho tổng thể

    • Ví dụ: Khảo sát 1,000 hộ gia đình để dự báo chi tiêu Tết 2024

Công nghệ hỗ trợ

Thuật ngữ chính

Tiếng Anh Tiếng Việt Ví dụ ứng dụng tại VN
Population Tổng thể Toàn bộ DN niêm yết HOSE
Sample Mẫu 30 công ty vốn hóa lớn nhất
Time series data Dữ liệu chuỗi thời gian Biến động giá cổ phiếu VIC 5 năm
Cross-sectional data Dữ liệu chéo Khảo sát thu nhập hộ gia đình 2023
Data mining Khai phá dữ liệu Phân tích hành vi mua hàng trên Shopee

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Bài Tập: Sự Khác Biệt Giữa Thống Kê Là Con Số và Thống Kê Là Một Ngành Học

1. Thống kê là các con số (Statistics as Numerical Facts)

2. Thống kê là một ngành học (Statistics as a Discipline)

Bảng So Sánh Chi Tiết

Tiêu chí Thống kê là con số Thống kê là ngành học
Bản chất Dữ liệu đầu ra (kết quả) Quy trình phân tích để tạo ra kết quả
Mục đích Mô tả hiện trạng Suy luận, dự báo, ra quyết định
Ví dụ thực tế tại VN "70% người dùng Internet mua sắm online" Sử dụng phân cụm (clustering) để phân khúc khách hàng của Tiki
Tính ứng dụng Truyền thông, báo cáo Nghiên cứu thị trường, phát triển sản phẩm

Kết Luận

Ứng dụng trong kinh doanh :

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Bài tập: Thống kê về Khách sạn tại Việt Nam

Phân tích Top 10 khách sạn sang trọng nhất Việt Nam năm 2023 theo tạp chí Du lịch Heritage:

Tên khách sạn Địa điểm Hạng sao Giá phòng (USD/đêm) Loại hình
InterContinental Danang Sun Peninsula Resort Đà Nẵng 5 450 Resort biển
The Reverie Saigon TP.HCM 5 400 Khách sạn thành phố
JW Marriott Hanoi Hà Nội 5 350 Khách sạn thành phố
Amanoi Resort Ninh Thuận 5 600 Resort nghỉ dưỡng
Six Senses Ninh Van Bay Khánh Hòa 5 550 Resort biệt lập
Four Seasons Resort The Nam Hai Quảng Nam 5 500 Resort biển
Sofitel Legend Metropole Hanoi Hà Nội 5 300 Khách sạn di sản
Banyan Tree Lang Co Thừa Thiên Huế 5 480 Resort golf
Park Hyatt Saigon TP.HCM 5 380 Khách sạn boutique
Anantara Mui Ne Resort Bình Thuận 5 420 Resort biển

a. Số lượng phần tử (elements) trong tập dữ liệu

b. Số lượng biến số (variables) trong tập dữ liệu

c. Phân loại biến định tính và định lượng

d. Thang đo cho từng biến số

e. Tính số phòng trung bình của 10 khách sạn này?

f. Nếu tỷ giá hối đoái:
1 EUR = 1.3149 USD
1 EUR = 0.8986 GBP
Hãy tính giá phòng trung bình bằng EUR.

g. Tính tỷ lệ phần trăm khách sạn tọa lạc tại Đà Nẵng?
(Gợi ý: Đếm số khách sạn ở Đà Nẵng chia tổng số khách sạn)

h. Tính tỷ lệ phần trăm khách sạn có 100 phòng hoặc ít hơn?
(Gợi ý: Đếm số khách sạn có số phòng ≤ 100)

Giải bài tập

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Bài tập Thống kê về Hệ thống Âm thanh Thông minh

Dữ liệu về hệ thống âm thanh phổ biến

Dưới đây là thông tin 5 hệ thống âm thanh thông minh bán chạy nhất tại Việt Nam năm 2024:

Bài tập 1

Tên sản phẩm Đánh giá (5★) Giá (triệu VND) Bluetooth WiFi Công suất (W) Trợ lý ảo
Sony HT-A5000 4.8 15.9 Y Y 500 Google Assistant
LG S95QR 4.7 22.5 Y Y 610 Alexa
Samsung HW-Q990B 4.9 18.7 Y Y 656 Bixby
JBL Bar 1000 4.6 12.3 Y N 880 Không
Bose Smart Soundbar 900 4.5 16.8 Y Y 450 Alexa

*Ghi chú:

Câu hỏi bài tập

  1. Có bao nhiêu phần tử (elements) trong tập dữ liệu này?
    (Gợi ý: Đếm số dòng dữ liệu)

  2. Tổng thể (population) trong nghiên cứu này là gì?
    (Gợi ý: Xác định nhóm đối tượng lớn hơn mà mẫu này đại diện)

  3. Tính công suất đầu ra trung bình của mẫu hệ thống âm thanh này.
    (Gợi ý: Tính tổng công suất chia cho số lượng sản phẩm)

  4. Tính tỷ lệ phần trăm hệ thống có hỗ trợ trợ lý ảo.
    (Gợi ý: Đếm số sản phẩm có trợ lý ảo chia tổng số sản phẩm)

  5. Có bao nhiêu hệ thống có giá dưới 18 triệu VND?
    (Gợi ý: Đếm số sản phẩm thỏa điều kiện)

📌 Lưu ý: Bài tập này giúp rèn luyện kỹ năng phân tích dữ liệu thực tế trong lĩnh vực công nghệ - một ngành đang phát triển mạnh tại Việt Nam.

Bài tập 2

Tên sản phẩm Đánh giá (5★) Giá (triệu VND) Bluetooth MP3 Player Công suất (W) Loại
Sony HT-A5000 4.8 15.9 Y Y 500 Soundbar
LG S95QR 4.7 22.5 Y N 610 Home Theater
Samsung HW-Q990B 4.9 18.7 Y Y 656 Soundbar
JBL Bar 1000 4.6 12.3 Y N 880 Soundbar
Bose Smart Soundbar 900 4.5 16.8 Y Y 450 Soundbar
Harman Kardon Citation 4.3 14.2 Y N 400 Bookshelf
Sonos Arc 4.8 21.0 Y Y 500 Soundbar
Philips TAB7005 4.2 10.9 Y N 300 Soundbar

Câu hỏi bài tập

  1. Có bao nhiêu biến số (variables) trong tập dữ liệu này?

  2. Biến số nào là định lượng (quantitative) và biến số nào là định tính (categorical)?

  3. Tính tỷ lệ phần trăm hệ thống âm thanh có đánh giá từ 4 sao trở lên?

  4. Tính tỷ lệ phần trăm hệ thống âm thanh có tích hợp MP3 Player?

Dữ liệu và Thống kê

Bài tập: Thống kê Thông tin các công ty niêm yết trên HOSE (2024)

Dưới đây là bảng dữ liệu mẫu phù hợp với thị trường Việt Nam 2024 để áp dụng cho bài tập phân loại biến số:

Bảng : Thông tin các công ty niêm yết trên HOSE (2024)

Mã CK Tên công ty Ngành nghề Vốn hóa (tỷ VNĐ) EPS (VNĐ) Tăng trưởng DT (%) Xếp hạng tín nhiệm
VIC Vingroup Bất động sản 250,000 2,500 12.5 AAA
VCB Vietcombank Ngân hàng 420,000 4,500 8.2 AA+
HPG Hòa Phát Thép 300,000 3,800 15.7 AA
MSN Masan Group Tiêu dùng nhanh 120,000 1,200 10.3 A+
FPT FPT Corporation Công nghệ thông tin 180,000 5,600 22.8 AAA
MWG Thế Giới Di Động Bán lẻ điện tử 95,000 3,200 7.5 A

  1. Phân loại các biến số (định tính/định lượng)

  2. Xác định thang đo tương ứng

  3. Thực hành tính toán các chỉ số thống kê cơ bản

  4. Phân tích mối quan hệ giữa các biến

1. Phân loại biến số và xác định thang đo

Biến số Loại biến Thang đo Giải thích
Mã CK Định tính Danh nghĩa (Nominal) Dùng để nhận diện, không có thứ tự ưu tiên (VIC, VCB...)
Tên công ty Định tính Danh nghĩa (Nominal) Tên gọi phân loại, không thể xếp hạng
Ngành nghề Định tính Danh nghĩa (Nominal) Phân loại ngành (BĐS, ngân hàng...), không có thứ bậc
Vốn hóa (tỷ VNĐ) Định lượng Tỷ lệ (Ratio) Có điểm 0 tuyệt đối, có thể tính tỷ lệ (ví dụ: 420,000 gấp đôi 210,000)
EPS (VNĐ) Định lượng Tỷ lệ (Ratio) Có điểm 0 tuyệt đối, phép chia có ý nghĩa (ví dụ: EPS 5,600 gấp 2 lần 2,800)
Tăng trưởng DT (%) Định lượng Khoảng cách (Interval) Không có điểm 0 tuyệt đối (tăng trưởng âm/vô nghĩa), nhưng khoảng cách đều
Xếp hạng tín nhiệm Định tính Thứ bậc (Ordinal) Có thứ tự (AAA > AA+ > AA > A+ > A) nhưng khoảng cách không đồng nhất

2. Tính toán các chỉ số thống kê cơ bản

a. Vốn hóa thị trường (tỷ VNĐ):

image.png

b. EPS (VNĐ):

image.png

c. Tăng trưởng doanh thu (%):

image.png

3. Phân tích mối quan hệ giữa các biến

a. Vốn hóa vs. EPS:

b. Ngành nghề vs. Tăng trưởng doanh thu:

c. Xếp hạng tín nhiệm vs. Vốn hóa:

4. Bài tập thực hành thêm

Câu 1: Tính tỷ lệ công ty có vốn hóa trên 200,000 tỷ VNĐ.
Gợi ý: 4/6 ≈ 66.67% (VIC, VCB, HPG, FPT).

Câu 2: So sánh EPS trung bình giữa ngành ngân hàng (VCB) và công nghệ (FPT).
Gợi ý: Ngân hàng (4,500) < Công nghệ (5,600).

Câu 3: Vẽ biểu đồ scatter plot giữa Vốn hóa và Tăng trưởng doanh thu. Nhận xét?
Gợi ý: Không có tương quan rõ ràng, ví dụ FPT vốn hóa trung bình nhưng tăng trưởng cao nhất.

Kết luận

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Bài tập: phân loại (categorical) hay định lượng (quantitative) và chỉ ra thang đo (measurement scale)

Bảng dữ liệu mẫu (dựa trên khảo sát 10 cá nhân):

ID Thu nhập hàng năm (triệu VND) Trình độ học vấn Loại phương tiện di chuyển Số giờ làm việc/tuần Tình trạng hôn nhân
1 240 Cử nhân Xe máy 40 Đã kết hôn
2 180 THPT Xe đạp 35 Độc thân
3 300 Thạc sĩ Ô tô 45 Đã kết hôn
4 150 THPT Đi bộ 30 Độc thân
5 200 Cử nhân Xe máy 42 Ly hôn
6 270 Thạc sĩ Ô tô 50 Đã kết hôn
7 120 THPT Xe buýt 25 Độc thân
8 350 Tiến sĩ Ô tô 48 Đã kết hôn
9 190 Cử nhân Xe máy 38 Độc thân
10 220 Cử nhân Xe buýt 40 Ly hôn

Yêu cầu

Hãy xác định mỗi biến sau đây là biến phân loại (categorical) hay định lượng (quantitative) và chỉ ra thang đo (measurement scale) của nó.

a. Thu nhập hàng năm (Annual income).
b. Trình độ học vấn (Education level).
c. Loại phương tiện di chuyển (Type of transportation).
d. Số giờ làm việc mỗi tuần (Number of working hours per week).

Đáp án gợi ý:

a. Thu nhập hàng năm (Annual income):

b. Trình độ học vấn (Education level):

c. Loại phương tiện di chuyển (Type of transportation):

d. Số giờ làm việc mỗi tuần (Number of working hours per week):

e. Tình trạng hôn nhân (Marital status):

Dữ liệu và Thống kê

Bài tập thống kê: Phân tích thu nhập ròng của Volkswagen (2016–2024)

Bảng dữ liệu: Thu nhập ròng của Volkswagen (tỷ USD)

Năm

Thu nhập ròng (tỷ USD)

2016

5.71

2017

12.92

2018

14.32

2019

15.54

2020

9.61

2021

17.56

2022

15.66

2023

17.33

2024

11.60

Ghi chú: Dữ liệu thu nhập ròng được lấy từ MacroTrends và báo cáo tài chính của Volkswagen, làm tròn đến hai chữ số thập phân.

Câu hỏi

a. Dữ liệu này là phân loại (categorical) hay định lượng (quantitative)?
b. Dữ liệu này là chuỗi thời gian (time series) hay dữ liệu chéo (cross-sectional)?
c. Biến quan tâm (variable of interest) là gì?
d. Nhận xét về xu hướng thu nhập ròng của Volkswagen qua các năm. Bạn dự đoán thu nhập ròng sẽ tăng hay giảm vào năm 2025?

Đáp án gợi ý

a. Dữ liệu là định lượng (quantitative):
Thu nhập ròng được đo bằng số tiền (tỷ USD), là một giá trị số có thể thực hiện các phép toán như cộng, trừ, nhân, chia. Do đó, đây là dữ liệu định lượng.

b. Dữ liệu là chuỗi thời gian (time series):
Dữ liệu được thu thập theo thời gian (từ năm 2016 đến 2024) cho cùng một đối tượng (Volkswagen). Chuỗi thời gian ghi lại sự thay đổi của một biến qua các mốc thời gian liên tiếp, khác với dữ liệu chéo(so sánh nhiều đối tượng tại một thời điểm).

c. Biến quan tâm:
Biến quan tâm là thu nhập ròng (net income) của Volkswagen, được đo bằng tỷ USD.

d. Nhận xét về xu hướng và dự đoán cho năm 2025:

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Bài tập: Thống kê về du khách tại Việt Nam

Cục Du lịch Quốc gia Việt Nam thu thập dữ liệu về du khách đến Việt Nam. Dưới đây là các câu hỏi được đưa ra trong bảng câu hỏi phát cho hành khách trên các chuyến bay nội địa và quốc tế đến Việt Nam vào năm 2025.

  1. Chuyến đi này đến Việt Nam là lần thứ: 1, 2, 3, 4, v.v.

  2. Lý do chính cho chuyến đi này là: (10 danh mục bao gồm du lịch nghỉ dưỡng, hội nghị, tuần trăng mật, thăm thân).

  3. Nơi tôi dự định lưu trú: (10 danh mục bao gồm khách sạn, căn hộ, nhà người thân, homestay).

  4. Tổng số ngày lưu trú tại Việt Nam.

Câu hỏi:

a. Dân số được nghiên cứu là gì?
b. Việc sử dụng bảng câu hỏi có phải là cách tốt để tiếp cận dân số hành khách trên các chuyến bay đến Việt Nam không?
c. Nhận xét về từng câu hỏi trong bốn câu hỏi trên, liệu câu hỏi đó cung cấp dữ liệu định tính (categorical) hay định lượng (quantitative).

Đáp án gợi ý:

a. Dân số được nghiên cứu: Tất cả du khách đến Việt Nam bằng đường hàng không trong năm 2025.
b. Đánh giá việc sử dụng bảng câu hỏi:

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Bài tập: Thống kê về quyết định tăng lương

Một quản lý của một tập đoàn lớn tại Việt Nam đề xuất tăng lương 25 triệu VND/tháng để giữ chân một nhân viên có giá trị, nhằm ngăn họ chuyển sang công ty khác. Những nguồn dữ liệu nội bộ và bên ngoài nào có thể được sử dụng để quyết định xem việc tăng lương này có phù hợp hay không?

Câu hỏi:

Hãy liệt kê và mô tả các nguồn dữ liệu nội bộ và bên ngoài có thể được sử dụng để đánh giá đề xuất tăng lương này.

Đáp án gợi ý:

1. Nguồn dữ liệu nội bộ:

2. Nguồn dữ liệu bên ngoài:

Câu hỏi thảo luận:

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Bài tập: Thống kê về nguyên nhân tử vong ở Việt Nam

Trong một nghiên cứu gần đây tại Việt Nam về nguyên nhân tử vong ở nam giới từ 60 tuổi trở lên, một mẫu gồm 150 nam giới cho thấy 60 người tử vong do các bệnh liên quan đến tim mạch.

Câu hỏi:

a. Xây dựng một thống kê mô tả có thể được sử dụng để ước lượng tỷ lệ phần trăm nam giới từ 60 tuổi trở lên tử vong do các bệnh liên quan đến tim mạch.
b. Dữ liệu về nguyên nhân tử vong là định tính (categorical) hay định lượng (quantitative)?
c. Thảo luận về vai trò của suy luận thống kê trong loại nghiên cứu y học này.

Đáp án gợi ý:

a. Ước lượng tỷ lệ phần trăm:

Để ước lượng tỷ lệ phần trăm nam giới từ 60 tuổi trở lên tử vong do bệnh tim mạch, ta tính tỷ lệ phần trăm dựa trên mẫu:

Vậy, khoảng 40% nam giới từ 60 tuổi trở lên trong mẫu tử vong do các bệnh liên quan đến tim mạch. Đây là một thống kê mô tả dùng để ước lượng tỷ lệ trong tổng thể.

b. Loại dữ liệu:

Dữ liệu về nguyên nhân tử vong là định tính (categorical).

c. Vai trò của suy luận thống kê trong nghiên cứu y học:

Suy luận thống kê đóng vai trò quan trọng trong nghiên cứu y học, đặc biệt trong việc:

Ví dụ: Nếu nghiên cứu mở rộng, suy luận thống kê có thể sử dụng hồi quy logistic để dự đoán xác suất tử vong do bệnh tim mạch dựa trên các biến như tuổi, huyết áp, hoặc chỉ số BMI.

Câu hỏi thảo luận:

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Dữ liệu và Thống kê

Bài tập: Thống kê về độc giả tạp chí kinh tế tại Việt Nam

Trong một khảo sát năm 2025, 68.7% độc giả của một tạp chí kinh tế uy tín tại Việt Nam cho biết họ đã lưu trú tại khách sạn vì mục đích công việc trong 12 tháng qua, với 28.5% độc giả sử dụng hạng thương gia hoặc hạng nhất khi đi công tác.

Câu hỏi:

a. Tổng thể quan tâm trong nghiên cứu này là gì?
b. Hạng ghế trên phương tiện di chuyển (class of travel) là biến định tính (categorical) hay định lượng (quantitative)?
c. Nếu một độc giả đã lưu trú tại khách sạn vì mục đích công việc trong 12 tháng qua, đây là biến định tính hay định lượng?
d. Nghiên cứu này sử dụng dữ liệu cross-sectional hay time series?
e. Mô tả các suy luận thống kê mà tạp chí có thể thực hiện dựa trên khảo sát này.

Đáp án gợi ý:

a. Tổng thể quan tâm:

Tổng thể quan tâm là tất cả độc giả của tạp chí kinh tế này tại Việt Nam trong năm 2025.

b. Loại biến của hạng ghế (class of travel):

Hạng ghế trên phương tiện di chuyển là biến định tính (categorical).

c. Loại biến của việc lưu trú tại khách sạn:

Việc một độc giả đã lưu trú tại khách sạn vì mục đích công việc trong 12 tháng qua là biến định tính (categorical).

d. Loại dữ liệu:

Nghiên cứu này sử dụng dữ liệu chéo(cross-sectional).

e. Các suy luận thống kê có thể thực hiện:

Tạp chí có thể sử dụng suy luận thống kê để:

Câu hỏi thảo luận:

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Thống kê mô tả: Trình bày dạng bảng và đồ họa

Sau khi học chương này và thực hiện các bài tập, bạn sẽ có khả năng xây dựng và diễn giải nhiều loại bảng và biểu đồ tóm tắt dữ liệu khác nhau:

Thống kê mô tả: Trình bày dạng bảng và đồ họa

MỤC TIÊU

Sau khi học chương này và thực hiện các bài tập, bạn sẽ có khả năng xây dựng và diễn giải nhiều loại bảng và biểu đồ tóm tắt dữ liệu khác nhau:

  1. Đối với biến định tính đơn lẻ:
    • Các bảng phân phối tần số, tần số tương đối và tần số phần trăm.
    • Biểu đồ cột và biểu đồ tròn.
  2. Đối với biến định lượng đơn lẻ:
    • Các bảng phân phối tần số, tần số tương đối và tần số phần trăm.
    • Các bảng phân phối tần số tích lũy, tần số tích lũy tương đối và tần số tích lũy phần trăm.
    • Biểu đồ chấm (dot plots), biểu đồ thân-lá (stem-and-leaf plots), biểu đồ histogram và biểu đồ phân phối tích lũy (ogives).
  3. Đối với cặp dữ liệu định tính và định lượng:
    • Bảng chéo (cross-tabulations), với phần trăm theo hàng và cột.
  4. Đối với cặp biến định lượng:
    • Biểu đồ phân tán (scatter diagrams).
  5. Bạn sẽ có khả năng:
    • Đưa ra một ví dụ về nghịch lý Simpson (Simpson’s paradox) và giải thích ý nghĩa của nghịch lý này đối với việc phân tích bảng chéo của các biến.
Thống kê mô tả: Trình bày dạng bảng và đồ họa

Thống kê mô tả qua báo cáo thường niên của Vinamilk

Vinamilk, tên đầy đủ là Công ty Cổ phần Sữa Việt Nam, là một trong những doanh nghiệp hàng đầu trong ngành thực phẩm và đồ uống tại Việt Nam. Được thành lập vào năm 1976, hiện nay Vinamilk không chỉ là thương hiệu quốc dân trong nước mà còn mở rộng thị trường ra nhiều quốc gia trên thế giới.

Như nhiều công ty niêm yết khác, Vinamilk phát hành báo cáo thường niên hàng năm nhằm minh bạch thông tin đến cổ đông và nhà đầu tư. Trong các báo cáo này, bên cạnh những hình ảnh thương hiệu quen thuộc, còn có những biểu đồ thống kê mô tả, thể hiện các thông tin tài chính và hoạt động kinh doanh một cách trực quan, dễ hiểu.

Doanh thu quốc tế

Vinamilk đang đẩy mạnh chiến lược quốc tế hóa, mở rộng thị phần tại nhiều quốc gia. Dưới đây là doanh thu từ một số thị trường quốc tế trong năm qua:

Biểu đồ thanh dưới đây minh họa rõ ràng doanh thu quốc tế của Vinamilk:

image.png

Điểm đánh giá bí mật từ khách hàng (Mystery Shopper)

Vinamilk đã triển khai chương trình Mystery Shopper nhằm đánh giá chất lượng dịch vụ tại các điểm bán lẻ trên toàn quốc. Dữ liệu gần đây cho thấy:

Biểu đồ đường dưới đây mô tả sự thay đổi qua các quý:

image.png

Tăng trưởng diện tích bán lẻ

Để đáp ứng xu hướng mua sắm mới của người tiêu dùng, Vinamilk liên tục mở rộng hệ thống cửa hàng và không gian trưng bày tại các siêu thị. Cụ thể:

Biểu đồ sau đây mô tả rõ xu hướng này:

image.png

Kết luận

Thông qua các biểu đồ mô tả ở trên, ta thấy rõ vai trò quan trọng của thống kê mô tả trong việc trình bày thông tin một cách dễ hiểu và sinh động. Đây là công cụ không thể thiếu trong việc quản trị, báo cáo, cũng như giúp nhà đầu tư và cổ đông hiểu rõ hơn về tình hình hoạt động của doanh nghiệp.

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Thống kê mô tả: Trình bày dạng bảng và đồ họa

Tóm tắt dữ liệu định tính

Dữ liệu định tính (qualitative data) là loại dữ liệu mô tả các đặc điểm hoặc thuộc tính mà không thể đo lường bằng số. Ví dụ trong thực tế bao gồm loại phương tiện giao thông ưa thích, thương hiệu điện thoại di động, hoặc sự hài lòng của khách hàng qua khảo sát.

Mặc dù dữ liệu định tính không thể đo lường bằng số, nhưng chúng ta vẫn có thể đếm số lần một giá trị xuất hiện – và đó chính là “tần suất” (frequency).

Định tính (Qualitative): Những yếu tố không thể đo đếm trực tiếp mà mô tả đặc điểm, tính chất hoặc phân loại. Ví dụ, các thương hiệu xe như Toyota, Kia, Hyundai, Honda, và VinFast thuộc về nhóm định tính vì chúng đại diện cho các phân loại hoặc nhóm sản phẩm, không thể đo đếm số lượng trực tiếp từ chính bản thân tên thương hiệu mà phải thông qua các chỉ số như doanh thu, số lượng xe bán ra của từng hãng

Để hiểu và phân tích dữ liệu định tính một cách hiệu quả, chúng ta thường sử dụng các phương pháp tóm tắt như bảng phân phối tần suất, biểu đồ cột (bar chart), hoặc biểu đồ tròn (pie chart). Những phương pháp này giúp thể hiện số lượng hoặc tỷ lệ xuất hiện của từng hạng mục một cách trực quan, dễ hiểu.

1. Phân phối tần suất (Frequency Distribution)

Định nghĩa

Phân phối tần suất là một bảng tóm tắt dữ liệu, hiển thị số lượng (tần suất) các mục rơi vào từng nhóm (lớp) không trùng lặp.

Hiểu đơn giản: Nó giúp bạn trả lời câu hỏi “Có bao nhiêu lần mỗi mục xuất hiện?” trong một danh sách.

Tại sao dùng Frequency Distribution?

Ví dụ

Phân phối tần suất theo thương hiệu xe bán ra trong 1 tháng (tháng 3/2025) tại TP.HCM

Bối cảnh

Dữ liệu được thu thập từ một số đại lý ô tô lớn tại TP.HCM, ghi nhận 50 xe ô tô mới được bán ra trong tháng 3 năm 2025, thuộc 5 thương hiệu phổ biến:

2. Tần suất tương đối

Định nghĩa:tỷ lệ (hoặc phần của tổng thể) mà một giá trị xuất hiện trong dữ liệu.

Công thức:

image.png

3. Tần suất phần trăm

Định nghĩa: Là tần suất tương đối nhưng được chuyển thành phần trăm.

image.png

Giả sử bạn có dữ liệu bán xe ô tô tại TP.HCM trong tháng 3/2025, gồm 50 chiếc xe bán ra:

Hãng xe Tần suất Tần suất tương đối Tần suất phần trăm
Toyota 16 16/50 = 0.32 32%
Kia 11 11/50 = 0.22 22%
Hyundai 10 10/50 = 0.20 20%
Honda 7 7/50 = 0.14 14%
VinFast 6 6/50 = 0.12 12%

4. Phân biệt Tần suất phân phối, Tần suất tương đối, Tần suất phần trăm

Loại Nội dung
Phân phối Số lần xuất hiện (vd: Toyota bán được 16 chiếc)
Tương đối Tỷ lệ trong tổng số (vd: Toyota chiếm 32% trong 50 xe bán ra)
Phần trăm Tần suất tương đối chuyển thành phần trăm (vd: 32%)

Biểu đồ cột (Bar chart) và biểu đồ tròn (Pie chart)

Biểu đồ cột (Bar chart)

Biểu đồ cột, hay còn gọi là biểu đồ thanh, là một cách thể hiện trực quan của bảng phân phối tần suất, tần suất tương đối, hoặc tần suất phần trăm.
Trên một trục của biểu đồ (thường là trục ngang), ta ghi nhãn cho các nhóm (loại) dữ liệu. Trục còn lại (thường là trục dọc) sẽ thể hiện giá trị tần suất, tần suất tương đối hoặc tần suất phần trăm.

Sau đó, ta vẽ các thanh dọc có độ rộng bằng nhau trên từng nhãn, chiều cao của mỗi thanh sẽ tương ứng với giá trị tần suất của nhóm đó.
Với dữ liệu định tính (ví dụ: thương hiệu xe, ngành nghề...), các cột nên được cách nhau để nhấn mạnh rằng các nhóm là riêng biệt.

image.png

Biểu đồ tròn (Pie chart)

Biểu đồ tròn là một cách khác để thể hiện tần suất tương đối hoặc tần suất phần trăm.

Cách vẽ:

  1. Vẽ một hình tròn đại diện cho toàn bộ dữ liệu (100%).

  2. Chia hình tròn thành các hình quạt tương ứng với tần suất của từng nhóm.

  3. Vì một hình tròn có 360 độ, nên:

    • Nếu một nhóm chiếm 38% (tần suất tương đối 0.38), thì góc hình quạt là:
      0.38 × 360 = 136.8 độ

    • Tương tự, nhóm Mercedes chiếm 26% thì có góc:
      0.26 × 360 = 93.6 độ

Những con số hiển thị trên biểu đồ tròn có thể là số lượng (frequency), tần suất tương đối, hoặc phần trăm.

image.png

Ứng dụng trong kiểm soát chất lượng:

Biểu đồ cột còn được dùng trong quản lý chất lượng để thể hiện nguyên nhân chính của lỗi.
Khi các cột được sắp xếp theo thứ tự giảm dần từ trái qua phải, với nguyên nhân phổ biến nhất đứng đầu,

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Thống kê mô tả: Trình bày dạng bảng và đồ họa

Bài tập Thống kê Định tính: Phương thức thanh toán ưa thích

Một khảo sát về phương thức thanh toán ưa thích của người tiêu dùng Việt Nam năm 2024 thu được 120 phản hồi với 3 lựa chọn:

Kết quả thu được như sau:

Yêu cầu:

  1. Xây dựng bảng phân phối tần số (frequency distribution).

  2. Tính phân phối tần số tương đối (relative frequency distribution) theo tỷ lệ phần trăm.

  3. Vẽ biểu đồ hình tròn (pie chart) để minh họa dữ liệu.

Hướng dẫn giải

1. Bảng phân phối tần số

image.png

2. Giải thích

3. Biểu đồ minh họa

image.png

Bài tập mở rộng

  1. Nếu mẫu tăng lên 240 người với tỷ lệ tương tự, hãy tính số lượng người chọn mỗi phương thức.

    • Gợi ý: Nhân tỷ lệ phần trăm với 240.

  2. So sánh kết quả này với dữ liệu năm 2020 (A: 30%, B: 10%, C: 60%). Nhận xét xu hướng thay đổi.

    • Gợi ý: Thanh toán điện tử tăng mạnh nhờ chính sách của Chính phủ và Covid-19.

  3. Thiết kế bảng câu hỏi khảo sát 5 lựa chọn (thêm "Chuyển khoản ngân hàng" và "QR Code").

Ứng dụng thực tế:
Các doanh nghiệp như Shopee, Grab sử dụng dữ liệu này để tối ưu hóa hệ thống thanh toán, giảm tỷ lệ bỏ giỏ hàng.

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Thống kê mô tả: Trình bày dạng bảng và đồ họa

Bài tập Thống kê định tính: Thu nhập hàng tháng

Một nghiên cứu về thu nhập hàng tháng của nhân viên văn phòng tại TP.HCM phân loại dữ liệu thành 4 nhóm (đơn vị: triệu VNĐ/tháng):

Nhóm (Class) Phạm vi thu nhập Tần số tương đối (Relative Frequency)
A Dưới 10 0.22
B 10 – 15 0.18
C 15 – 25 0.40
D Trên 25 ?

Yêu cầu:

  1. Tính tần số tương đối của nhóm D.

  2. Biết tổng mẫu là 200 người, tính tần số (số lượng) của nhóm D.

  3. Xây dựng bảng phân phối tần số đầy đủ.

  4. Xây dựng bảng phân phối tần số phần trăm.

Hướng dẫn giải

1. Tính tần số tương đối của nhóm D
2. Tính tần số (số lượng) của nhóm D
3. Bảng phân phối tần số đầy đủ
Nhóm Phạm vi thu nhập (triệu VNĐ) Tần số (Frequency) Tần số tương đối (Relative Frequency)
A Dưới 10 0.22×200=44 0.22
B 10 – 15 0.18×200=36 0.18
C 15 – 25 0.40×200=80 0.40
D Trên 25 40 0.20
Tổng   200 1.00
4. Bảng phân phối tần số phần trăm
Nhóm Phạm vi thu nhập Tần số phần trăm (%)
A Dưới 10 22%
B 10 – 15 18%
C 15 – 25 40%
D Trên 25 20%
Tổng   100%

Nhận xét dữ liệu
  1. Nhóm C (15–25 triệu VNĐ) chiếm tỷ trọng cao nhất (40%), phản ánh mức lương phổ biến của nhân viên văn phòng tại TP.HCM.

  2. Nhóm D (trên 25 triệu) chiếm 20%, thường là quản lý cấp trung hoặc ngành IT/tài chính.

  3. Nhóm A (dưới 10 triệu) chiếm 22%, có thể là thực tập sinh hoặc nhân viên mới vào nghề.

Bài tập mở rộng
  1. Vẽ biểu đồ cột thể hiện phân phối tần số phần trăm.
    (Gợi ý: Trục ngang là các nhóm A-D, trục dọc là %)

  2. Nếu mẫu tăng lên 500 người với tỷ lệ tương tự, tính số người trong nhóm B.
    (Đáp án: 0.18×500=90 người)

  3. Phỏng đoán lý do nhóm C có tần số cao nhất:

    • Do lương khởi điểm của sinh viên mới ra trường?

    • Hay ngành nghề nào chiếm đa số trong mẫu?

Ứng dụng: Các công ty có thể sử dụng dữ liệu này để điều chỉnh chính sách lương hoặc tuyển dụng nhân sự phù hợp với thị trường TP.HCM.

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Thống kê mô tả: Trình bày dạng bảng và đồ họa

Bài tập thống kê định tính: Xu hướng sử dụng xe điện tại Hà Nội

Một khảo sát về xu hướng sử dụng xe điện tại Hà Nội với 120 người tham gia đã thu được kết quả như sau:

Yêu cầu:

  1. Tính số độ chiếm bởi câu trả lời "Có" trong biểu đồ tròn.

  2. Tính số độ chiếm bởi câu trả lời "Không" trong biểu đồ tròn.

  3. Vẽ biểu đồ tròn thể hiện tỷ lệ các câu trả lời.

  4. Vẽ biểu đồ cột thể hiện tần số các câu trả lời.

Hướng dẫn giải

1. Tính số độ cho câu trả lời "Có"
2. Tính số độ cho câu trả lời "Không"

image.png

3. Biểu đồ tròn(Dành cho bạn)
4. Biểu đồ cột(Dành cho bạn)

 

Nhận xét dữ liệu
  1. Xu hướng tích cực: Gần 50% người được hỏi quan tâm đến xe điện, phù hợp với chính sách khuyến khích của Chính phủ.

  2. Rào cản: 35% từ chối có thể do giá cao hoặc thiếu trạm sạc.

  3. Nhóm trung lập (20%): Cần thêm thông tin để thuyết phục.

Bài tập mở rộng

  1. Nếu mẫu tăng lên 240 người với tỷ lệ tương tự, tính số người trả lời "Không ý kiến".

    image.png

  2. Thiết kế bảng câu hỏi 5 lựa chọn (thêm "Đang cân nhắc", "Chỉ sử dụng xe máy xăng").

  3. So sánh với dữ liệu 2020 ("Có": 20%, "Không": 60%). Nhận xét về sự thay đổi sau 4 năm.

 Ứng dụng: Các hãng xe điện (VinFast, Tesla) có thể sử dụng dữ liệu này để:

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Thống kê mô tả: Trình bày dạng bảng và đồ họa

Phân tích định tính: Phân tích Hệ điều hành Di động tại Việt Nam (2024)

Công ty VNMobile Research thực hiện nghiên cứu thị trường về hệ điều hành di động được sử dụng tại Việt Nam. Mẫu dữ liệu gồm 50 lượt truy cập website từ thiết bị di động được ghi nhận như sau:

Android, Android, iOS, Android, iOS,  
Android, HarmonyOS, iOS, HarmonyOS, iOS,  
Android, Android, HarmonyOS, HarmonyOS, HarmonyOS,  
HarmonyOS, iOS, iOS, iOS, HarmonyOS,  
iOS, iOS, iOS, Android, Android,  
iOS, Android, HarmonyOS, Android, Android,  
HarmonyOS, iOS, Android, iOS, iOS,  
iOS, iOS, iOS, iOS, Android,  
HarmonyOS, iOS, iOS, Android, Android,  
HarmonyOS, Android, iOS, iOS, Android
Yêu cầu:
  1. Dữ liệu này là định tính hay định lượng?

  2. Xây dựng bảng phân phối tần số và tần số phần trăm.

  3. Vẽ biểu đồ cột và biểu đồ tròn.

  4. Hệ điều hành nào phổ biến nhất và đứng thứ hai theo mẫu này?

Hướng dẫn giải

1. Loại dữ liệu
2. Bảng phân phối tần số
Hệ điều hành Tần số (Frequency) Tần số phần trăm (%)
Android 18 36%
iOS 20 40%
HarmonyOS 12 24%
Tổng 50 100%

Giải thích:

3. Biểu đồ minh họa

a. Biểu đồ cột(Dành cho bạn)

b. Biểu đồ tròn(Dành cho bạn)

4. Kết luận phổ biến

Nhận xét thị trường Việt Nam

  1. iOS dẫn đầu do:

    • Sự phổ biến của iPhone trong giới trẻ.

    • Trải nghiệm người dùng ổn định.

  2. Android giảm tỷ trọng so với 5 năm trước (từ 60% xuống 36%) do cạnh tranh từ iOS và HarmonyOS.

  3. HarmonyOS đang tăng trưởng nhờ phân khúc giá rẻ của Huawei.

Bài tập mở rộng

  1. Nếu mẫu tăng lên 200 lượt truy cập với tỷ lệ tương tự, tính số lượt của HarmonyOS.
    (Đáp án: 0.24×200=48 lượt)

  2. Thiết kế bảng câu hỏi nghiên cứu lý do chọn hệ điều hành (giá cả, tính năng, thương hiệu...).

  3. So sánh với dữ liệu 2020 (Android: 65%, iOS: 30%, HarmonyOS: 5%). Nhận xét xu hướng.

Ứng dụng:

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Thống kê mô tả: Trình bày dạng bảng và đồ họa

Tóm tắt dữ liệu định lượng

Dữ liệu định lượng (Quantitative data) là loại dữ liệu thể hiện bằng số lượng hoặc con số, phản ánh mức độ, số lần, trọng lượng, chiều dài, thời gian, v.v. Đây là dữ liệu có thể đo lường được bằng các đơn vị cụ thể và có thể thực hiện các phép tính toán học (cộng, trừ, trung bình, độ lệch chuẩn, v.v.).

Phân loại dữ liệu định lượng

Dữ liệu định lượng được chia thành hai loại chính:

  1. Dữ liệu rời rạc (Discrete data)

    • Là dữ liệu chỉ nhận các giá trị nguyên, thường là kết quả của việc đếm.

    • Ví dụ: số sinh viên trong lớp, số xe bán ra mỗi tháng, số cuộc gọi trong ngày.

  2. Dữ liệu liên tục (Continuous data)

    • Là dữ liệu có thể nhận bất kỳ giá trị nào trong một khoảng, thường là kết quả của việc đo lường.

    • Ví dụ: chiều cao, cân nặng, nhiệt độ, thời gian, tốc độ...

Đặc điểm của dữ liệu định lượng

Phân phối tần số dữ liệu định lượng

Như đã định nghĩa trong Mục 2.1, phân phối tần số là một bảng tóm tắt dữ liệu cho thấy số lượng (tần số) của các mục trong mỗi lớp không chồng lấp nhau. Định nghĩa này áp dụng cho cả dữ liệu định tính lẫn định lượng. Tuy nhiên, với dữ liệu định lượng, việc xác định các lớp không chồng lấp thường phức tạp hơn.

Hãy xét đến dữ liệu định lượng trong Bảng 2.4. Dữ liệu này cho biết số ngày cần thiết để hoàn thành các cuộc kiểm toán cuối năm đối với một mẫu gồm 20 khách hàng của công ty kế toán nhỏ Sanderson và Clifford. Dữ liệu đã được làm tròn đến ngày gần nhất. Có ba bước cần thiết để xác định các lớp trong phân phối tần số đối với dữ liệu định lượng như sau:

  1. Xác định số lượng lớp không chồng lấp.

  2. Xác định độ rộng của mỗi lớp.

  3. Xác định giới hạn của mỗi lớp.

1. Số lượng lớp

Các lớp được hình thành bằng cách xác định các khoảng giá trị sẽ được sử dụng để nhóm dữ liệu. Theo nguyên tắc chung, chúng tôi khuyến nghị sử dụng từ 5 đến 20 lớp.

Với mẫu dữ liệu nhỏ, chỉ cần khoảng 5 hoặc 6 lớp là đủ để tóm tắt dữ liệu. Đối với các mẫu lớn hơn, thường cần nhiều lớp hơn.

Mục tiêu là sử dụng đủ số lớp để thể hiện được mô hình biến thiên trong dữ liệu, nhưng không nên quá nhiều đến mức khiến một số lớp chỉ chứa rất ít giá trị.

Vì mẫu dữ liệu trong Bảng 2.4 tương đối nhỏ (n = 20), nên chúng tôi chọn xây dựng bảng phân phối tần số gồm năm lớp.

STT Thời gian (ngày) STT Thời gian (ngày)
1 12 11 33
2 22 12 15
3 14 13 28
4 23 14 18
5 19 15 14
6 22 16 17
7 18 17 18
8 21 18 20
9 15 19 16
10 15 20 27
    21 13

12, 22, 14, 23, 19, 22, 18, 21, 15, 33, 15, 28, 18, 14, 17, 18, 20, 16, 27, 13

20 giá trị, mỗi giá trị đại diện cho thời gian kiểm toán (tính bằng ngày) của một khách hàng.

Khi bạn có dữ liệu định lượng như thời gian (ngày, giờ, số tiền, số sản phẩm...), để dễ phân tích, người ta chia dữ liệu thành các khoảng giá trị, mỗi khoảng gọi là một lớp.

Ví dụ:
Nếu thời gian dao động từ 12 đến 33 ngày, bạn có thể chia như sau:

➡ Mỗi lớp là một khoảng không chồng lấp, dùng để đếm số lần xuất hiện các giá trị thuộc khoảng đó.

Tại sao chọn 5 lớp?

  1. Nguyên tắc chung:
    Trong thống kê mô tả, người ta thường chọn từ 5 đến 20 lớp, tùy thuộc vào:

    • Kích thước mẫu

    • Mức độ chi tiết bạn muốn phân tích

  2. Trường hợp bạn đang làm:

    • Bạn có 20 quan sát (n = 20)

    • Mẫu này không lớn, nên 5 lớp là đủ để thấy xu hướngkhông quá chi tiết

    • Nếu chia quá nhiều lớp (ví dụ 10 lớp), có thể mỗi lớp chỉ chứa 1–2 giá trị, làm cho phân tích không có ý nghĩa

Vì vậy, chọn 5 lớp giúp:

2. Độ rộng của các lớp

Bước thứ hai là chọn độ rộng cho các lớp. Theo một nguyên tắc chung, chúng tôi khuyến nghị nên dùng cùng một độ rộng cho tất cả các lớp. Điều này giúp giảm khả năng diễn giải sai lệch. Việc lựa chọn số lượng lớp và độ rộng lớp không phải là hai quyết định độc lập. Nếu số lượng lớp tăng lên thì độ rộng lớp sẽ nhỏ lại, và ngược lại.

Để xác định độ rộng lớp xấp xỉ, ta cần xác định giá trị lớn nhấtnhỏ nhất trong tập dữ liệu. Sau đó, có thể dùng biểu thức sau để tính độ rộng lớp xấp xỉ:

Độ rộng lớp xấp xỉ = (Giá trị lớn nhất – Giá trị nhỏ nhất) / Số lượng lớp

Độ rộng lớp xấp xỉ thu được có thể được làm tròn lên thành một giá trị dễ sử dụng hơn.
Ví dụ: nếu độ rộng lớp xấp xỉ là 9.28, ta có thể làm tròn lên thành 10.

Ví dụ cụ thể – Dữ liệu thời gian kiểm toán cuối năm

Áp dụng công thức:

(33 – 12) / 5 = 4.2

Chúng tôi quyết định làm tròn lênsử dụng độ rộng lớp là 5 ngày.

3. Giới hạn lớp (Class limits)

Giới hạn lớp cần được chọn sao cho mỗi giá trị dữ liệu chỉ thuộc vào duy nhất một lớp.

Khi xây dựng bảng phân phối tần số cho dữ liệu định tính, chúng ta không cần xác định giới hạn lớp, vì mỗi mục dữ liệu đã tự nhiên thuộc về một lớp (hay một danh mục riêng biệt).
Tuy nhiên, với dữ liệu định lượng, việc xác định giới hạn lớp là cần thiết để biết giá trị dữ liệu nằm ở đâu.

Ví dụ: Dữ liệu thời gian kiểm toán

→ Tổng cộng có năm lớp.
→ Giá trị lớn nhất là 33, nằm trong lớp 30–34.

Khoảng cách giữa hai giới hạn dưới liên tiếp chính là độ rộng lớp.
→ Ví dụ: 15 – 10 = 5

Bảng phân phối tần số

Bây giờ ta có thể tạo bảng phân phối tần số bằng cách đếm số lượng dữ liệu thuộc vào từng lớp.
Ví dụ:

Thời gian kiểm toán (ngày) Tần số
10–14 4
15–19 8
20–24 5
25–29 2
30–34 1
Tổng cộng 20

Một số nhận xét từ bảng phân phối tần số

  1. Thời gian kiểm toán xuất hiện nhiều nhất nằm trong lớp 15–19 ngày. Có 8/20 lần kiểm toán nằm trong lớp này.

  2. Chỉ có một lần kiểm toán kéo dài từ 30 ngày trở lên.

Người đọc có thể rút ra các nhận xét khác tùy theo mục đích và mối quan tâm của họ.
Giá trị thực tiễn của bảng phân phối tần số là giúp chúng ta hiểu dữ liệu dễ dàng hơn so với khi nhìn vào danh sách dữ liệu chưa được tổ chức.

Lớp mở (Open-ended class)

Lớp mở là lớp chỉ có giới hạn dưới hoặc giới hạn trên.

Ví dụ: nếu có hai giá trị kiểm toán là 58 và 65 ngày, thay vì tạo thêm các lớp:

→ ta có thể đơn giản hóa bằng cách tạo một lớp mở: “35 ngày trở lên”, với tần số là 2.

Thông thường, lớp mở được dùng ở cuối bảng phân phối.

Trung điểm lớp (Class midpoint)

Trong một số trường hợp, chúng ta muốn biết trung điểm của các lớp trong bảng phân phối tần số của dữ liệu định lượng.
Trung điểm lớp là giá trị nằm giữa giới hạn dưới và giới hạn trên của một lớp.

Ví dụ với dữ liệu thời gian kiểm toán:

Phân phối tần số tương đối và tần số phần trăm

Chúng ta định nghĩa tần số tương đốitần số phần trăm cho dữ liệu định lượng giống như với dữ liệu định tính.

Dựa vào tần số lớp trong Bảng 2.5 và tổng số quan sát n=20n = 20, Bảng 2.6 thể hiện tần số tương đối và tần số phần trăm cho dữ liệu thời gian kiểm toán.

Ví dụ:

Những phân tích và nhận định sâu hơn có thể được rút ra từ Bảng 2.6.

BẢNG 2.6 – Phân phối tần số tương đối và phần trăm cho dữ liệu thời gian kiểm toán

Thời gian kiểm toán (ngày) Tần số tương đối Tần số phần trăm
10–14 0.20 20%
15–19 0.40 40%
20–24 0.25 25%
25–29 0.10 10%
30–34 0.05 5%
Tổng cộng 1.00 100%

Biểu đồ chấm (Dot plot)

Một trong những cách đơn giản nhất để tóm tắt dữ liệu bằng đồ họa là biểu đồ chấm.
Trục ngang thể hiện khoảng giá trị của các quan sát.
Mỗi giá trị dữ liệu được biểu diễn bằng một dấu chấm đặt phía trên trục ngang.

Hình 2.3 là biểu đồ chấm được tạo bằng phần mềm MINITAB cho dữ liệu thời gian kiểm toán trong Bảng 2.4.
Ba dấu chấm nằm phía trên số 18 trên trục ngang cho thấy có ba lần kiểm toán kéo dài 18 ngày.

Biểu đồ chấm giúp thể hiện chi tiết dữ liệu và rất hữu ích khi so sánh phân phối dữ liệu giữa hai hoặc nhiều mẫu.

image.png

Biểu đồ Tần số (Histogram)

Định nghĩa

Biểu đồ tần số là dạng biểu đồ hiển thị dữ liệu định lượng đã được tổng hợp trong bảng phân phối tần số, tần số tương đối hoặc tần số phần trăm. Trong đó:

Mỗi lớp dữ liệu được biểu diễn bằng một hình chữ nhật có:

Ví dụ minh họa

Hình 2.5 dưới đây là biểu đồ tần số cho dữ liệu thời gian kiểm toán (đơn vị: ngày). Lớp có tần số cao nhất (15–19 ngày) được biểu diễn bằng hình chữ nhật cao nhất với tần số là 8. Nếu thay trục tung bằng tần số tương đối hoặc phần trăm, hình dạng biểu đồ vẫn giữ nguyên, chỉ khác ở giá trị trục dọc.

image.png

 

Các thuật ngữ

Các thuật ngữ

EPS (Earnings Per Share) - Lợi nhuận trên mỗi cổ phiếu

EPS cho biết mỗi cổ phiếu của công ty tạo ra bao nhiêu lợi nhuận trong một kỳ (thường là một quý hoặc một năm).

Công thức tính:

image.png

Ví dụ:

Giả sử công ty Hòa Phát (HPG) có:

Vậy EPS sẽ là:

image.png

EPS dùng để làm gì?

  1. So sánh hiệu quả kinh doanh giữa các công ty:
    Công ty nào có EPS cao hơn thường tạo ra nhiều lợi nhuận hơn cho cổ đông.

  2. Định giá cổ phiếu:
    EPS là thành phần trong công thức P/E (Price to Earnings Ratio) – một chỉ số phổ biến dùng để định giá cổ phiếu.

Các thuật ngữ

Market Capitalization - Vốn hóa thị trường

Công thức:

image.png

Ví dụ:

Giả sử công ty Vinamilk (mã VNM) có:

image.png

Vậy vốn hóa của Vinamilk là khoảng 140 nghìn tỷ đồng.

Ghi nhớ:

Large-cap (Vốn hóa lớn)

Thường là những doanh nghiệp đầu ngành, có quy mô lớn, thanh khoản cao, ít biến động mạnh.

Mã cổ phiếu Tên công ty Ngành nghề chính
VCB Ngân hàng TMCP Ngoại thương VN Ngân hàng
VNM Công ty Cổ phần Sữa Việt Nam Sữa và thực phẩm
VIC Tập đoàn Vingroup Bất động sản, tiêu dùng, công nghệ
HPG Tập đoàn Hòa Phát Thép và công nghiệp nặng
GAS Tổng Công ty Khí Việt Nam Dầu khí
FPT Tập đoàn FPT Công nghệ và dịch vụ

Mid-cap (Vốn hóa vừa)

Các công ty có tiềm năng tăng trưởng, thanh khoản tương đối tốt.

Mã cổ phiếu Tên công ty Ngành nghề
VHC Vĩnh Hoàn Corp Thủy sản
DGW Digiworld Phân phối thiết bị công nghệ
DGC Tập đoàn Hóa chất Đức Giang Hóa chất công nghiệp
KBC Tổng Công ty Phát triển Đô thị Kinh Bắc Bất động sản khu công nghiệp
PNJ Vàng bạc Đá quý Phú Nhuận Bán lẻ trang sức

Small-cap (Vốn hóa nhỏ)

Nhóm này có rủi ro cao hơn nhưng tiềm năng tăng trưởng nhanh nếu công ty phát triển tốt.

Mã cổ phiếu Tên công ty Ngành nghề
HHS Ô tô Hoàng Huy Phân phối ô tô
TNI Tập đoàn Thành Nam Thép
IDI Đầu tư & Phát triển Đa Quốc Gia IDI Thủy sản
LCG Licogi 16 Xây dựng, hạ tầng
PXT Xây lắp Dầu khí Vũng Tàu Xây dựng ngành dầu khí