1. Phương pháp lấy mẫu nào đảm bảo mỗi phần tử của quần thể đều có cơ hội được chọn như nhau?
A. Lấy mẫu thuận tiện
B. Lấy mẫu phân tầng
C. Lấy mẫu ngẫu nhiên đơn giản
D. Lấy mẫu theo cụm
2. Khoảng tin cậy (confidence interval) là gì?
A. Một giá trị duy nhất ước tính cho một tham số của quần thể
B. Một khoảng giá trị mà trong đó tham số của quần thể có khả năng nằm trong đó với một độ tin cậy nhất định
C. Xác suất mà một giả thuyết không là đúng
D. Sai số chuẩn của ước lượng
3. Phương pháp nào sau đây dùng để dự báo giá trị của một biến phụ thuộc dựa trên giá trị của một hoặc nhiều biến độc lập?
A. Phân tích phương sai (ANOVA)
B. Phân tích hồi quy
C. Kiểm định Chi-bình phương
D. Phân tích thành phần chính (PCA)
4. Phân phối nào sau đây được sử dụng để so sánh phương sai của hai quần thể?
A. Phân phối t
B. Phân phối chuẩn
C. Phân phối F
D. Phân phối Chi-bình phương
5. Hệ số tương quan Pearson đo lường điều gì?
A. Mức độ biến động của một biến
B. Mối quan hệ tuyến tính giữa hai biến
C. Sự khác biệt giữa giá trị trung bình của hai nhóm
D. Độ mạnh của một mô hình hồi quy
6. Trong phân tích phương sai (ANOVA), yếu tố nào sau đây được kiểm tra?
A. Mối quan hệ giữa hai biến định lượng
B. Sự khác biệt giữa giá trị trung bình của hai quần thể
C. Sự khác biệt giữa phương sai của hai quần thể
D. Sự khác biệt giữa giá trị trung bình của ba hoặc nhiều quần thể
7. Phân phối nào sau đây thường được sử dụng để mô hình hóa số lượng sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định?
A. Phân phối chuẩn
B. Phân phối Poisson
C. Phân phối nhị thức
D. Phân phối đều
8. Kiểm định giả thuyết nào sau đây được sử dụng để kiểm tra sự độc lập giữa hai biến định tính?
A. Kiểm định t
B. Kiểm định ANOVA
C. Kiểm định Chi-bình phương
D. Kiểm định tương quan Pearson
9. Trong thống kê, thuật ngữ `outlier` (giá trị ngoại lệ) dùng để chỉ điều gì?
A. Một giá trị trung bình của tập dữ liệu
B. Một giá trị xuất hiện nhiều lần nhất trong tập dữ liệu
C. Một giá trị rất khác biệt so với các giá trị còn lại trong tập dữ liệu
D. Một giá trị nằm ở giữa tập dữ liệu
10. Trong kiểm định giả thuyết, sai lầm loại I (Type I error) xảy ra khi nào?
A. Bác bỏ giả thuyết không khi nó thực sự đúng
B. Chấp nhận giả thuyết không khi nó thực sự sai
C. Bác bỏ giả thuyết không khi nó thực sự sai
D. Chấp nhận giả thuyết không khi nó thực sự đúng
11. Phương pháp nào sau đây được sử dụng để ước lượng các tham số của một mô hình hồi quy tuyến tính?
A. Kiểm định t
B. Phương pháp bình phương tối thiểu (Ordinary Least Squares - OLS)
C. Phân tích phương sai (ANOVA)
D. Kiểm định Chi-bình phương
12. Trong phân tích hồi quy, giá trị P (p-value) dùng để làm gì?
A. Đo lường độ mạnh của mối quan hệ giữa các biến
B. Ước lượng giá trị của biến phụ thuộc
C. Đánh giá ý nghĩa thống kê của các hệ số hồi quy
D. Xác định phương trình hồi quy phù hợp nhất
13. Khái niệm `phương sai giải thích được` (explained variance) trong phân tích hồi quy có nghĩa là gì?
A. Phương sai của các sai số
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình
C. Phương sai của biến độc lập
D. Tổng phương sai của tất cả các biến
14. Trong thiết kế thí nghiệm, `biến gây nhiễu` (confounding variable) là gì?
A. Một biến được kiểm soát chặt chẽ trong thí nghiệm
B. Một biến không được đo lường trong thí nghiệm
C. Một biến có liên quan đến cả biến độc lập và biến phụ thuộc, gây khó khăn trong việc xác định mối quan hệ nhân quả
D. Một biến chỉ ảnh hưởng đến biến độc lập
15. Độ lệch chuẩn (standard deviation) cho biết điều gì về một tập dữ liệu?
A. Giá trị trung bình của tập dữ liệu
B. Mức độ phân tán của dữ liệu so với giá trị trung bình
C. Giá trị lớn nhất và nhỏ nhất của tập dữ liệu
D. Số lượng phần tử trong tập dữ liệu
16. Trong lý thuyết xác suất, biến ngẫu nhiên (random variable) là gì?
A. Một giá trị không đổi
B. Một hàm số gán một giá trị số cho mỗi kết quả của một thí nghiệm ngẫu nhiên
C. Một tập hợp các kết quả có thể xảy ra
D. Một sự kiện chắc chắn xảy ra
17. Phương pháp nào sau đây được sử dụng để xác định số lượng cụm (clusters) tối ưu trong phân tích cụm (cluster analysis)?
A. Phân tích hồi quy
B. Phương pháp Elbow (Elbow Method)
C. Kiểm định t
D. Phân tích phương sai (ANOVA)
18. Điều gì xảy ra với khoảng tin cậy khi kích thước mẫu tăng lên (giả sử các yếu tố khác không đổi)?
A. Khoảng tin cậy trở nên rộng hơn
B. Khoảng tin cậy trở nên hẹp hơn
C. Khoảng tin cậy không thay đổi
D. Không thể xác định được sự thay đổi của khoảng tin cậy
19. Khi nào nên sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?
A. Khi dữ liệu tuân theo phân phối chuẩn
B. Khi kích thước mẫu lớn
C. Khi giả định về phân phối của dữ liệu không được đáp ứng
D. Khi muốn ước lượng các tham số của quần thể
20. Trong thống kê suy diễn, mục tiêu chính là gì?
A. Mô tả các đặc điểm của một mẫu dữ liệu
B. Suy rộng kết quả từ mẫu dữ liệu lên toàn bộ quần thể
C. Tính toán các số liệu thống kê cơ bản như trung bình và độ lệch chuẩn
D. Sắp xếp và trình bày dữ liệu một cách trực quan
21. Đại lượng nào sau đây đo lường mức độ phân tán của dữ liệu so với giá trị trung bình?
A. Trung vị
B. Giá trị lớn nhất
C. Phương sai
D. Mốt
22. Trong kiểm định giả thuyết, mức ý nghĩa (significance level) thường được ký hiệu là alpha (α) đại diện cho điều gì?
A. Xác suất mắc lỗi loại II
B. Xác suất mắc lỗi loại I
C. Độ mạnh của kiểm định
D. Khoảng tin cậy
23. Phương pháp nào sau đây được sử dụng để đánh giá độ tin cậy bên trong (internal consistency) của một thang đo (scale) trong nghiên cứu khảo sát?
A. Kiểm định t
B. Hệ số Cronbach`s alpha
C. Phân tích hồi quy
D. Kiểm định Chi-bình phương
24. Phương pháp nào sau đây thường được sử dụng để giảm số lượng chiều (số lượng biến) trong một tập dữ liệu trong khi vẫn giữ lại thông tin quan trọng nhất?
A. Phân tích hồi quy
B. Phân tích phương sai (ANOVA)
C. Phân tích thành phần chính (Principal Component Analysis - PCA)
D. Kiểm định Chi-bình phương
25. Trong phân tích chuỗi thời gian (time series analysis), thành phần nào sau đây mô tả xu hướng dài hạn của dữ liệu?
A. Tính mùa vụ (Seasonality)
B. Xu hướng (Trend)
C. Tính chu kỳ (Cyclical)
D. Tính ngẫu nhiên (Randomness)
26. Đặc điểm nào sau đây không phải là đặc điểm của phân phối chuẩn?
A. Đối xứng
B. Đơn đỉnh
C. Giá trị trung bình, trung vị và mốt bằng nhau
D. Bất đối xứng
27. Trong phân tích dữ liệu, `missing value` (giá trị thiếu) là gì và nó có thể ảnh hưởng đến kết quả phân tích như thế nào?
A. Một giá trị bằng không và không ảnh hưởng đến kết quả
B. Một giá trị chưa được thu thập hoặc không hợp lệ và có thể gây sai lệch kết quả phân tích
C. Một giá trị đã được làm tròn và làm tăng độ chính xác của kết quả
D. Một giá trị được tính toán từ các giá trị khác và luôn chính xác
28. Trong thống kê Bayes, định lý Bayes được sử dụng để làm gì?
A. Tính xác suất của một sự kiện
B. Cập nhật xác suất của một giả thuyết dựa trên bằng chứng mới
C. Ước lượng các tham số của một mô hình
D. Kiểm định giả thuyết
29. Loại biểu đồ nào sau đây phù hợp nhất để thể hiện sự phân bố tần số của một biến liên tục?
A. Biểu đồ tròn
B. Biểu đồ cột
C. Biểu đồ hộp
D. Biểu đồ tần suất (Histogram)
30. Trong thống kê mô tả, `mốt` (mode) là gì?
A. Giá trị trung bình của tập dữ liệu
B. Giá trị nằm ở giữa tập dữ liệu khi đã sắp xếp
C. Giá trị xuất hiện nhiều lần nhất trong tập dữ liệu
D. Hiệu của giá trị lớn nhất và giá trị nhỏ nhất trong tập dữ liệu