1. Khi nào nên sử dụng kiểm định t (t-test) thay vì kiểm định z (z-test)?
A. Khi kích thước mẫu lớn (n > 30).
B. Khi kích thước mẫu nhỏ (n < 30) và độ lệch chuẩn của quần thể chưa biết.
C. Khi độ lệch chuẩn của quần thể đã biết.
D. Khi so sánh tỷ lệ của hai nhóm.
2. Hãy cho biết công thức tính khoảng tin cậy cho trung bình của một quần thể khi độ lệch chuẩn của quần thể đã biết.
A. $ar{x} pm z_{alpha/2} frac{sigma}{sqrt{n}}$
B. $ar{x} pm t_{alpha/2, n-1} frac{s}{sqrt{n}}$
C. $ar{x} pm z_{alpha/2} frac{s}{sqrt{n}}$
D. $ar{x} pm t_{alpha/2, n-1} frac{sigma}{sqrt{n}}$
3. Trong thống kê y học, biến số định tính (categorical variable) là gì?
A. Biến số có thể đo lường bằng số.
B. Biến số có thể phân loại thành các nhóm hoặc danh mục.
C. Biến số liên tục.
D. Biến số có giá trị không đổi.
4. Ý nghĩa của giá trị p hiệu chỉnh (adjusted p-value) trong kiểm định đa giả thuyết là gì?
A. Giá trị p gốc sau khi đã được làm tròn.
B. Giá trị p sau khi đã được điều chỉnh để kiểm soát tỷ lệ sai sót loại I khi thực hiện nhiều kiểm định.
C. Giá trị p sau khi đã được điều chỉnh để kiểm soát tỷ lệ sai sót loại II.
D. Giá trị p sau khi đã được nhân với kích thước mẫu.
5. Độ lệch chuẩn (Standard deviation) là gì?
A. Bình phương của phương sai.
B. Căn bậc hai của phương sai.
C. Giá trị trung bình của dữ liệu.
D. Giá trị lớn nhất trừ giá trị nhỏ nhất của dữ liệu.
6. Bootstrap resampling là gì và nó được sử dụng để làm gì?
A. Một phương pháp lấy mẫu lại từ dữ liệu gốc để ước tính độ tin cậy của các thống kê.
B. Một phương pháp giảm kích thước dữ liệu.
C. Một phương pháp kiểm tra giả thuyết.
D. Một phương pháp trực quan hóa dữ liệu.
7. Trong kiểm định giả thuyết, mức ý nghĩa (alpha) thường được đặt ở giá trị nào?
A. 0.01
B. 0.05
C. 0.10
D. Tất cả các giá trị trên đều có thể.
8. Trong nghiên cứu bệnh chứng (case-control study), odds ratio (OR) được sử dụng để ước tính điều gì?
A. Tỷ lệ hiện mắc bệnh.
B. Tỷ lệ mắc bệnh mới.
C. Mức độ liên quan giữa yếu tố nguy cơ và bệnh.
D. Tỷ lệ tử vong do bệnh.
9. Sai số chuẩn (Standard error) của trung bình mẫu được tính như thế nào?
A. Bằng độ lệch chuẩn của quần thể chia cho căn bậc hai của kích thước mẫu.
B. Bằng độ lệch chuẩn của mẫu chia cho kích thước mẫu.
C. Bằng phương sai của quần thể chia cho căn bậc hai của kích thước mẫu.
D. Bằng phương sai của mẫu chia cho kích thước mẫu.
10. Phân phối Poisson thường được sử dụng để mô hình hóa điều gì?
A. Số lượng sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định.
B. Thời gian giữa các sự kiện liên tiếp.
C. Xác suất thành công trong một chuỗi các thử nghiệm độc lập.
D. Phân phối của dữ liệu liên tục.
11. ROC curve (Receiver Operating Characteristic curve) được sử dụng để đánh giá điều gì?
A. Hiệu suất của mô hình hồi quy.
B. Hiệu suất của mô hình phân loại nhị phân.
C. Phân phối của dữ liệu.
D. Mối quan hệ giữa các biến.
12. Khoảng tin cậy (Confidence Interval) 95% cho biết điều gì?
A. Có 95% khả năng tham số thực tế của quần thể nằm trong khoảng này.
B. Có 5% khả năng tham số thực tế của quần thể nằm ngoài khoảng này.
C. Nếu lặp lại quá trình lấy mẫu nhiều lần, 95% các khoảng tin cậy được tạo ra sẽ chứa tham số thực tế của quần thể.
D. Tất cả các đáp án trên.
13. Hệ số chặn (intercept) trong mô hình hồi quy tuyến tính có ý nghĩa gì?
A. Giá trị của biến phụ thuộc khi biến độc lập bằng 0.
B. Mức độ thay đổi của biến phụ thuộc khi biến độc lập tăng 1 đơn vị.
C. Mức độ phù hợp của mô hình với dữ liệu.
D. Giá trị lớn nhất của biến phụ thuộc.
14. Trong kiểm định giả thuyết thống kê, sai lầm loại I (Type I error) xảy ra khi nào?
A. Chấp nhận giả thuyết $H_0$ khi nó sai.
B. Bác bỏ giả thuyết $H_0$ khi nó đúng.
C. Chấp nhận giả thuyết $H_0$ khi nó đúng.
D. Bác bỏ giả thuyết $H_0$ khi nó sai.
15. Trong phân tích sống còn (survival analysis), hàm sống còn (survival function) S(t) biểu thị điều gì?
A. Xác suất một cá nhân chết trước thời điểm t.
B. Xác suất một cá nhân sống sót ít nhất đến thời điểm t.
C. Thời gian sống trung bình của một cá nhân.
D. Tỷ lệ tử vong tại thời điểm t.
16. Độ nhạy (Sensitivity) của một xét nghiệm y tế được định nghĩa là gì?
A. Tỷ lệ những người không mắc bệnh có kết quả xét nghiệm âm tính.
B. Tỷ lệ những người mắc bệnh có kết quả xét nghiệm dương tính.
C. Tỷ lệ những người có kết quả xét nghiệm dương tính thực sự mắc bệnh.
D. Tỷ lệ những người có kết quả xét nghiệm âm tính thực sự không mắc bệnh.
17. Trong phân tích phương sai (ANOVA), giả thuyết $H_0$ thường là gì?
A. Tất cả các trung bình quần thể đều bằng nhau.
B. Ít nhất một trung bình quần thể khác với các trung bình còn lại.
C. Phương sai của tất cả các quần thể đều bằng nhau.
D. Phương sai của ít nhất một quần thể khác với các phương sai còn lại.
18. Ma trận nhầm lẫn (confusion matrix) được sử dụng để đánh giá hiệu suất của mô hình phân loại như thế nào?
A. Bằng cách tính toán độ chính xác (accuracy), độ nhạy (sensitivity) và độ đặc hiệu (specificity).
B. Bằng cách tính toán diện tích dưới đường cong ROC (AUC).
C. Bằng cách tính toán giá trị p.
D. Bằng cách tính toán hệ số tương quan.
19. Nếu một xét nghiệm có độ nhạy 90% và độ đặc hiệu 80%, ý nghĩa của nó là gì?
A. Xét nghiệm sẽ cho kết quả dương tính ở 90% số người mắc bệnh và kết quả âm tính ở 80% số người không mắc bệnh.
B. Xét nghiệm sẽ cho kết quả âm tính ở 90% số người mắc bệnh và kết quả dương tính ở 80% số người không mắc bệnh.
C. Xét nghiệm sẽ cho kết quả dương tính ở 80% số người mắc bệnh và kết quả âm tính ở 90% số người không mắc bệnh.
D. Xét nghiệm sẽ cho kết quả âm tính ở 80% số người mắc bệnh và kết quả dương tính ở 90% số người không mắc bệnh.
20. Phân phối chuẩn (Normal distribution) có đặc điểm gì?
A. Đối xứng xung quanh giá trị trung bình.
B. Trung bình, trung vị và mốt bằng nhau.
C. Hình chuông.
D. Tất cả các đáp án trên.
21. Ý nghĩa thống kê (statistical significance) có nghĩa là gì?
A. Kết quả nghiên cứu chắc chắn đúng.
B. Kết quả nghiên cứu có ý nghĩa quan trọng về mặt lâm sàng.
C. Kết quả nghiên cứu có khả năng không phải do ngẫu nhiên.
D. Kết quả nghiên cứu áp dụng được cho mọi quần thể.
22. Trong một nghiên cứu đoàn hệ (cohort study), nguy cơ tương đối (relative risk) được tính như thế nào?
A. Tỷ lệ mắc bệnh ở nhóm phơi nhiễm chia cho tỷ lệ mắc bệnh ở nhóm không phơi nhiễm.
B. Tỷ lệ mắc bệnh ở nhóm không phơi nhiễm chia cho tỷ lệ mắc bệnh ở nhóm phơi nhiễm.
C. Tỷ lệ hiện mắc bệnh ở nhóm phơi nhiễm chia cho tỷ lệ hiện mắc bệnh ở nhóm không phơi nhiễm.
D. Tỷ lệ hiện mắc bệnh ở nhóm không phơi nhiễm chia cho tỷ lệ hiện mắc bệnh ở nhóm phơi nhiễm.
23. Giá trị p (p-value) trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất giả thuyết $H_0$ là đúng.
B. Xác suất mắc sai lầm loại II.
C. Xác suất quan sát được kết quả (hoặc kết quả cực đoan hơn) nếu giả thuyết $H_0$ là đúng.
D. Xác suất bác bỏ giả thuyết $H_0$ khi nó sai.
24. Ý nghĩa của độ đặc hiệu (Specificity) trong xét nghiệm y học là gì?
A. Khả năng xét nghiệm xác định đúng những người mắc bệnh.
B. Khả năng xét nghiệm xác định đúng những người không mắc bệnh.
C. Tỷ lệ kết quả dương tính thật trong tổng số kết quả dương tính.
D. Tỷ lệ kết quả âm tính thật trong tổng số kết quả âm tính.
25. Phương sai (Variance) đo lường điều gì?
A. Mức độ tập trung của dữ liệu xung quanh giá trị trung bình.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Giá trị lớn nhất trong tập dữ liệu.
D. Giá trị nhỏ nhất trong tập dữ liệu.
26. Trong phân tích hồi quy tuyến tính, hệ số tương quan (correlation coefficient) r có giá trị từ -1 đến 1. Giá trị r = 0 có nghĩa là gì?
A. Có mối tương quan tuyến tính mạnh mẽ giữa hai biến.
B. Có mối tương quan tuyến tính hoàn hảo giữa hai biến.
C. Không có mối tương quan tuyến tính giữa hai biến.
D. Có mối tương quan phi tuyến tính giữa hai biến.
27. Trong phân tích cluster, mục tiêu là gì?
A. Dự đoán giá trị của một biến mục tiêu.
B. Phân nhóm các đối tượng tương tự nhau thành các cụm.
C. Tìm mối quan hệ giữa các biến.
D. Giảm kích thước dữ liệu.
28. Kiểm định Kolmogorov-Smirnov được sử dụng để làm gì?
A. So sánh trung bình của hai mẫu.
B. So sánh phương sai của hai mẫu.
C. Kiểm tra xem một mẫu có tuân theo một phân phối cụ thể hay không.
D. Kiểm tra sự độc lập giữa hai biến định tính.
29. Kiểm định Chi-bình phương (Chi-square test) thường được sử dụng để làm gì?
A. So sánh trung bình của hai nhóm độc lập.
B. So sánh phương sai của hai nhóm độc lập.
C. Kiểm tra sự độc lập giữa hai biến định tính.
D. Phân tích mối quan hệ tuyến tính giữa hai biến định lượng.
30. Cross-validation được sử dụng để làm gì trong machine learning?
A. Huấn luyện mô hình.
B. Đánh giá hiệu suất của mô hình trên dữ liệu chưa thấy.
C. Chọn các biến quan trọng nhất.
D. Trực quan hóa dữ liệu.