1. Giá trị nào sau đây là một thước đo của độ biến thiên?
A. Trung bình
B. Trung vị
C. Độ lệch chuẩn
D. Mode
2. Hệ số tương quan Pearson đo lường điều gì?
A. Mối quan hệ phi tuyến tính giữa hai biến
B. Mối quan hệ nhân quả giữa hai biến
C. Mức độ thay đổi của một biến khi biến kia thay đổi
D. Mối quan hệ tuyến tính giữa hai biến
3. Điều gì xảy ra với giá trị tới hạn (critical value) khi mức ý nghĩa (alpha) giảm?
A. Giá trị tới hạn tăng
B. Giá trị tới hạn giảm
C. Giá trị tới hạn không đổi
D. Không thể xác định
4. Trong thống kê mô tả, loại biểu đồ nào thích hợp nhất để so sánh tỷ lệ của các danh mục khác nhau trong một tập dữ liệu?
A. Biểu đồ phân tán
B. Biểu đồ đường
C. Biểu đồ cột
D. Biểu đồ tròn
5. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu?
A. Loại bỏ tất cả các quan sát có giá trị bị thiếu
B. Điền giá trị trung bình hoặc trung vị vào các giá trị bị thiếu
C. Sử dụng các mô hình dự đoán để ước tính các giá trị bị thiếu
D. Tất cả các phương án trên
6. Khi nào thì nên sử dụng hệ số tương quan Spearman thay vì hệ số tương quan Pearson?
A. Khi hai biến có mối quan hệ tuyến tính
B. Khi dữ liệu tuân theo phân phối chuẩn
C. Khi hai biến có mối quan hệ đơn điệu nhưng không nhất thiết tuyến tính
D. Khi kích thước mẫu lớn
7. Trong kiểm định giả thuyết, sai lầm loại I xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng
B. Không bác bỏ giả thuyết null khi nó thực sự sai
C. Bác bỏ giả thuyết thay thế khi nó thực sự đúng
D. Không bác bỏ giả thuyết thay thế khi nó thực sự sai
8. Phương pháp lấy mẫu nào đảm bảo mỗi thành viên của quần thể có cơ hội được chọn như nhau?
A. Lấy mẫu thuận tiện
B. Lấy mẫu phân tầng
C. Lấy mẫu ngẫu nhiên đơn giản
D. Lấy mẫu cụm
9. Phương pháp nào sau đây được sử dụng để giảm số lượng biến trong một tập dữ liệu lớn trong khi vẫn giữ lại phần lớn thông tin?
A. Hồi quy tuyến tính
B. Phân tích phương sai (ANOVA)
C. Phân tích thành phần chính (PCA)
D. Kiểm định Chi bình phương
10. Biểu đồ hộp (boxplot) thường được sử dụng để làm gì?
A. Hiển thị mối quan hệ giữa hai biến định lượng
B. Hiển thị tần suất của các giá trị trong một tập dữ liệu
C. Tóm tắt phân phối của một tập dữ liệu và xác định các giá trị ngoại lệ
D. So sánh trung bình của nhiều nhóm
11. Trong thống kê, `phương sai` (variance) đo lường điều gì?
A. Giá trị trung bình của một tập dữ liệu
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình
C. Giá trị lớn nhất trong một tập dữ liệu
D. Giá trị nhỏ nhất trong một tập dữ liệu
12. Mục đích chính của phân tích phương sai (ANOVA) là gì?
A. Đo lường mối quan hệ giữa hai biến định lượng
B. So sánh trung bình của hai nhóm
C. So sánh phương sai của nhiều nhóm
D. So sánh trung bình của nhiều nhóm
13. Trong thống kê suy luận, sai số chuẩn của trung bình (standard error of the mean) đo lường điều gì?
A. Độ lệch chuẩn của mẫu
B. Độ lệch chuẩn của quần thể
C. Độ lệch chuẩn của phân phối lấy mẫu của trung bình
D. Phương sai của mẫu
14. Kỹ thuật nào sau đây được sử dụng để đánh giá độ tin cậy của mô hình bằng cách chia dữ liệu thành nhiều tập con và huấn luyện mô hình trên một số tập con và kiểm tra trên tập con còn lại?
A. Hồi quy tuyến tính
B. Phân tích phương sai (ANOVA)
C. Kiểm định Chi bình phương
D. Kiểm định chéo (cross-validation)
15. Trong thống kê, khái niệm `bậc tự do` (degrees of freedom) thường liên quan đến điều gì?
A. Số lượng biến trong một tập dữ liệu
B. Số lượng quan sát trong một mẫu
C. Số lượng giá trị độc lập có thể thay đổi trong một phân tích thống kê
D. Mức ý nghĩa (alpha)
16. Khi nào thì nên sử dụng kiểm định phi tham số thay vì kiểm định tham số?
A. Khi dữ liệu tuân theo phân phối chuẩn
B. Khi kích thước mẫu lớn
C. Khi phương sai của các nhóm bằng nhau
D. Khi dữ liệu không tuân theo phân phối chuẩn
17. Phương pháp nào sau đây được sử dụng để dự đoán các giá trị tương lai dựa trên dữ liệu chuỗi thời gian quá khứ?
A. Phân tích hồi quy tuyến tính
B. Phân tích phương sai (ANOVA)
C. Mô hình ARIMA
D. Kiểm định Chi bình phương
18. Trong phân tích dữ liệu, `data wrangling` (xử lý dữ liệu) đề cập đến quá trình nào?
A. Thu thập dữ liệu từ các nguồn khác nhau
B. Làm sạch, chuyển đổi và chuẩn bị dữ liệu để phân tích
C. Xây dựng mô hình thống kê
D. Trực quan hóa dữ liệu
19. Trong một phân phối chuẩn, khoảng bao nhiêu phần trăm dữ liệu nằm trong khoảng một độ lệch chuẩn so với trung bình?
A. 50%
B. 68%
C. 95%
D. 99.7%
20. Khi nào thì kiểm định Chi bình phương được sử dụng?
A. Để so sánh trung bình của hai mẫu độc lập
B. Để kiểm tra sự phù hợp của một phân phối lý thuyết với dữ liệu quan sát được
C. Để đo lường mối quan hệ tuyến tính giữa hai biến
D. Để ước tính tham số quần thể
21. Trong thống kê, `phân phối lấy mẫu` (sampling distribution) đề cập đến điều gì?
A. Phân phối của các giá trị trong một mẫu đơn lẻ
B. Phân phối của tất cả các giá trị trong quần thể
C. Phân phối của một thống kê (ví dụ: trung bình mẫu) từ tất cả các mẫu có thể có cùng kích thước được lấy từ một quần thể
D. Phân phối của sai số trong một mô hình hồi quy
22. Khi nào thì nên sử dụng kiểm định t ghép cặp (paired t-test)?
A. Để so sánh trung bình của hai mẫu độc lập
B. Để so sánh trung bình của hai mẫu phụ thuộc
C. Để so sánh phương sai của hai mẫu
D. Để kiểm tra sự phù hợp của một phân phối
23. Đường cong ROC (Receiver Operating Characteristic) được sử dụng để đánh giá điều gì?
A. Hiệu suất của mô hình hồi quy
B. Hiệu suất của mô hình phân loại
C. Mối quan hệ giữa hai biến định lượng
D. Sự phù hợp của một phân phối với dữ liệu
24. Trong lý thuyết xác suất, biến cố độc lập là gì?
A. Biến cố không thể xảy ra đồng thời
B. Biến cố có xác suất xảy ra bằng nhau
C. Biến cố mà xác suất xảy ra của biến cố này không ảnh hưởng đến xác suất xảy ra của biến cố kia
D. Biến cố mà xác suất xảy ra của biến cố này ảnh hưởng đến xác suất xảy ra của biến cố kia
25. Trong phân tích hồi quy đa biến, hiện tượng đa cộng tuyến (multicollinearity) đề cập đến điều gì?
A. Mối quan hệ tuyến tính giữa biến phụ thuộc và các biến độc lập
B. Mối quan hệ tuyến tính giữa các biến độc lập
C. Sự thay đổi của phương sai sai số
D. Sự vi phạm giả định về phân phối chuẩn của sai số
26. Đại lượng nào sau đây không bị ảnh hưởng bởi các giá trị ngoại lệ?
A. Trung bình
B. Độ lệch chuẩn
C. Khoảng tứ phân vị (IQR)
D. Phương sai
27. Điều gì xảy ra với khoảng tin cậy khi kích thước mẫu tăng lên?
A. Khoảng tin cậy trở nên rộng hơn
B. Khoảng tin cậy không đổi
C. Khoảng tin cậy trở nên hẹp hơn
D. Không thể xác định
28. Trong phân tích chuỗi thời gian, thành phần nào thể hiện sự biến động ngắn hạn và không đều đặn?
A. Xu hướng
B. Tính mùa vụ
C. Chu kỳ
D. Tính ngẫu nhiên
29. Trong phân tích hồi quy, giá trị P (p-value) được sử dụng để làm gì?
A. Đo lường độ mạnh của mối quan hệ giữa các biến
B. Ước tính giá trị của biến phụ thuộc
C. Xác định ý nghĩa thống kê của các hệ số
D. Đánh giá sự phù hợp của mô hình
30. Trong phân tích Bayesian, điều gì đại diện cho kiến thức hoặc niềm tin ban đầu về một tham số trước khi xem xét dữ liệu?
A. Hàm правдоподобия (likelihood function)
B. Phân phối hậu nghiệm (posterior distribution)
C. Phân phối tiên nghiệm (prior distribution)
D. Hằng số chuẩn hóa (normalizing constant)