1. Trong thống kê Bayes, khái niệm `prior` đề cập đến điều gì?
A. Xác suất của dữ liệu quan sát được.
B. Phân phối xác suất ban đầu của một tham số trước khi xem xét dữ liệu.
C. Phân phối xác suất của một tham số sau khi xem xét dữ liệu.
D. Hàm правдоподобия (likelihood function).
2. Đâu là một ví dụ về dữ liệu định danh (nominal data)?
A. Nhiệt độ (độ C).
B. Chiều cao (cm).
C. Màu sắc (đỏ, xanh, vàng).
D. Điểm số bài kiểm tra.
3. Độ lệch chuẩn (standard deviation) là gì?
A. Giá trị trung bình của một tập dữ liệu.
B. Căn bậc hai của phương sai, đo lường mức độ phân tán của dữ liệu so với giá trị trung bình.
C. Mức độ lệch của phân phối dữ liệu.
D. Mối quan hệ giữa hai biến.
4. Hạn chế lớn nhất của việc sử dụng phương pháp trung bình động (moving average) trong phân tích chuỗi thời gian là gì?
A. Khó tính toán.
B. Không thể dự đoán giá trị cho các thời điểm trong quá khứ.
C. Không thể nắm bắt được các xu hướng dài hạn.
D. Làm mất thông tin ở đầu và cuối chuỗi thời gian.
5. Giá trị nào sau đây KHÔNG thể là xác suất?
6. Đâu là mục tiêu chính của thống kê mô tả?
A. Đưa ra dự đoán về một tổng thể dựa trên một mẫu.
B. Thu thập, tóm tắt và trình bày dữ liệu một cách có ý nghĩa.
C. Kiểm định các giả thuyết về các tham số của tổng thể.
D. Xây dựng mô hình toán học để mô phỏng các hiện tượng phức tạp.
7. Hệ số tương quan (correlation coefficient) đo lường điều gì?
A. Mức độ biến động của một biến.
B. Mức độ tác động của một biến độc lập lên biến phụ thuộc.
C. Mức độ liên hệ tuyến tính giữa hai biến.
D. Mức độ khác biệt giữa trung bình của hai nhóm.
8. Đâu là một đặc điểm của phân phối chuẩn (normal distribution)?
A. Bất đối xứng (skewed).
B. Có hai đỉnh (bimodal).
C. Đối xứng và có dạng hình chuông.
D. Có đuôi dày (heavy tails).
9. Mục đích của việc chuẩn hóa dữ liệu (standardization) là gì?
A. Loại bỏ các giá trị ngoại lệ.
B. Chuyển đổi dữ liệu về một thang đo chung với trung bình bằng 0 và độ lệch chuẩn bằng 1.
C. Thay đổi hình dạng của phân phối dữ liệu.
D. Tăng cường mối quan hệ giữa các biến.
10. Trong phân tích sống sót (survival analysis), hàm sống sót (survival function) biểu thị điều gì?
A. Thời gian trung bình mà một đối tượng sống sót.
B. Xác suất mà một đối tượng sống sót ít nhất đến một thời điểm nhất định.
C. Tỷ lệ các đối tượng chết tại một thời điểm nhất định.
D. Nguy cơ tử vong của một đối tượng tại một thời điểm nhất định.
11. Sai số loại I (Type I error) trong kiểm định giả thuyết xảy ra khi nào?
A. Chấp nhận giả thuyết H0 khi nó thực sự đúng.
B. Bác bỏ giả thuyết H0 khi nó thực sự sai.
C. Bác bỏ giả thuyết H0 khi nó thực sự đúng.
D. Chấp nhận giả thuyết H0 khi nó thực sự sai.
12. Điều gì KHÔNG phải là một đặc điểm của trung vị (median)?
A. Không bị ảnh hưởng bởi các giá trị ngoại lệ.
B. Là giá trị ở giữa của một tập dữ liệu đã được sắp xếp.
C. Luôn bằng giá trị trung bình (mean) trong phân phối đối xứng.
D. Có thể được sử dụng cho dữ liệu định tính.
13. Khi nào thì nên sử dụng kiểm định Chi-bình phương (Chi-square test)?
A. So sánh trung bình của hai nhóm độc lập.
B. Kiểm tra mối quan hệ giữa hai biến định tính.
C. Ước lượng khoảng tin cậy cho một tham số tổng thể.
D. Phân tích phương sai giữa nhiều nhóm.
14. Ý nghĩa của P-value trong kiểm định giả thuyết là gì?
A. Xác suất giả thuyết H0 là đúng.
B. Xác suất mắc sai số loại II.
C. Xác suất thu được kết quả như quan sát, hoặc cực đoan hơn, nếu giả thuyết H0 là đúng.
D. Mức ý nghĩa (significance level) của kiểm định.
15. Khi nào thì nên sử dụng phương pháp Bootstrap?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi muốn ước lượng sai số chuẩn hoặc khoảng tin cậy mà không cần giả định về phân phối.
C. Khi muốn kiểm tra mối quan hệ giữa hai biến.
D. Khi muốn giảm số lượng biến trong một tập dữ liệu.
16. Trong phân tích hồi quy tuyến tính, hệ số chặn (intercept) biểu thị điều gì?
A. Sự thay đổi trung bình của biến phụ thuộc khi biến độc lập tăng một đơn vị.
B. Giá trị trung bình của biến phụ thuộc khi biến độc lập bằng 0.
C. Mức độ phù hợp của mô hình hồi quy.
D. Sai số chuẩn của các ước lượng hệ số hồi quy.
17. Trong thống kê suy luận, cỡ mẫu lớn hơn thường dẫn đến điều gì?
A. Khoảng tin cậy rộng hơn.
B. Sai số chuẩn lớn hơn.
C. Sức mạnh kiểm định lớn hơn.
D. P-value lớn hơn.
18. Khoảng tin cậy (confidence interval) được sử dụng để làm gì?
A. Kiểm định một giả thuyết về một tham số tổng thể.
B. Ước lượng một khoảng giá trị mà tham số tổng thể có khả năng nằm trong đó.
C. Đo lường mức độ phân tán của dữ liệu.
D. Xác định kích thước mẫu cần thiết cho một nghiên cứu.
19. Trong phân tích ANOVA, F-statistic được sử dụng để làm gì?
A. So sánh trung bình của hai nhóm.
B. Đo lường mức độ liên hệ giữa hai biến.
C. Kiểm tra sự khác biệt giữa phương sai của nhiều nhóm.
D. Ước lượng khoảng tin cậy cho một tham số.
20. Điều gì xảy ra với khoảng tin cậy khi mức độ tin cậy tăng lên?
A. Khoảng tin cậy trở nên hẹp hơn.
B. Khoảng tin cậy trở nên rộng hơn.
C. Khoảng tin cậy không thay đổi.
D. Khoảng tin cậy biến mất.
21. Ưu điểm chính của việc sử dụng biểu đồ hộp (boxplot) là gì?
A. Hiển thị tần suất của các giá trị trong dữ liệu.
B. Dễ dàng xác định các giá trị ngoại lệ (outliers).
C. Thể hiện mối quan hệ giữa hai biến liên tục.
D. Tóm tắt dữ liệu một cách chi tiết bằng cách hiển thị tất cả các giá trị.
22. Điều gì xảy ra với sai số chuẩn của trung bình (standard error of the mean) khi kích thước mẫu tăng?
A. Tăng.
B. Giảm.
C. Không đổi.
D. Thay đổi ngẫu nhiên.
23. Trong thống kê, `độ tin cậy` (reliability) đề cập đến điều gì?
A. Mức độ mà một phương pháp đo lường đo lường những gì nó được cho là đo lường.
B. Mức độ nhất quán của một phương pháp đo lường.
C. Khả năng khái quát hóa kết quả nghiên cứu cho một quần thể lớn hơn.
D. Mức độ chính xác của các ước lượng tham số.
24. Phương sai (variance) đo lường điều gì?
A. Giá trị trung bình của một tập dữ liệu.
B. Mức độ phân tán của dữ liệu so với giá trị trung bình.
C. Mức độ lệch của phân phối dữ liệu.
D. Mối quan hệ giữa hai biến.
25. Trong phân tích thời gian, tự tương quan (autocorrelation) đề cập đến điều gì?
A. Mối quan hệ giữa hai biến khác nhau tại cùng một thời điểm.
B. Mối quan hệ giữa một biến với chính nó tại các thời điểm khác nhau.
C. Xu hướng tăng hoặc giảm của một chuỗi thời gian.
D. Tính mùa vụ trong một chuỗi thời gian.
26. Phương pháp nào sau đây KHÔNG phải là một phương pháp lấy mẫu ngẫu nhiên?
A. Lấy mẫu phân tầng (Stratified sampling).
B. Lấy mẫu cụm (Cluster sampling).
C. Lấy mẫu thuận tiện (Convenience sampling).
D. Lấy mẫu hệ thống (Systematic sampling).
27. Khi nào thì nên sử dụng kiểm định phi tham số (non-parametric test)?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi kích thước mẫu lớn.
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc kích thước mẫu nhỏ.
D. Khi muốn ước lượng các tham số của tổng thể.
28. Đâu là một biện pháp để giảm sai số lấy mẫu?
A. Sử dụng phương pháp lấy mẫu thuận tiện.
B. Tăng kích thước mẫu.
C. Giảm kích thước mẫu.
D. Sử dụng phương pháp lấy mẫu phi ngẫu nhiên.
29. Khi nào thì nên sử dụng kiểm định t (t-test) thay vì kiểm định z (z-test)?
A. Khi kích thước mẫu lớn (n > 30) và độ lệch chuẩn của tổng thể đã biết.
B. Khi kích thước mẫu nhỏ (n < 30) và độ lệch chuẩn của tổng thể chưa biết.
C. Khi so sánh trung bình của hai tổng thể độc lập với kích thước mẫu lớn.
D. Khi muốn ước lượng khoảng tin cậy cho trung bình tổng thể.
30. Trong phân tích cụm (cluster analysis), mục tiêu chính là gì?
A. Dự đoán giá trị của một biến dựa trên các biến khác.
B. Tìm các nhóm (clusters) các đối tượng tương tự nhau.
C. Kiểm tra mối quan hệ giữa hai biến.
D. Giảm số lượng biến trong một tập dữ liệu.