1. Trong khai phá dữ liệu, `outlier` là gì?
A. Một thuộc tính quan trọng trong dữ liệu.
B. Một giá trị bị thiếu trong dữ liệu.
C. Một điểm dữ liệu khác biệt đáng kể so với các điểm dữ liệu khác.
D. Một phương pháp để chuẩn hóa dữ liệu.
2. Phương pháp nào sau đây thường được sử dụng để phát hiện các giá trị ngoại lệ (outlier detection)?
A. Phân tích hồi quy (Regression analysis)
B. Phân tích phương sai (ANOVA)
C. Isolation Forest
D. Phân tích thành phần chính (PCA)
3. Trong khai phá luật kết hợp (association rule mining), độ đo `lift` được sử dụng để đánh giá điều gì?
A. Tần suất xuất hiện của một tập hợp các mục.
B. Độ tin cậy của luật kết hợp.
C. Mức độ liên quan giữa tiền đề và hệ quả của luật.
D. Độ hỗ trợ của luật kết hợp.
4. Trong khai phá dữ liệu, kỹ thuật `bagging` (Bootstrap Aggregating) thường được sử dụng để làm gì?
A. Giảm phương sai của mô hình.
B. Giảm độ lệch của mô hình.
C. Tăng độ chính xác của mô hình.
D. Tất cả các đáp án trên (All of the above).
5. Phương pháp nào sau đây KHÔNG thuộc nhóm các phương pháp đánh giá mô hình phân cụm (clustering)?
A. Độ đo Silhouette (Silhouette coefficient)
B. Chỉ số Davies-Bouldin (Davies-Bouldin index)
C. Độ đo Dunn (Dunn index)
D. Độ chính xác (Accuracy)
6. Trong khai phá dữ liệu, mục tiêu của việc `chuẩn hóa dữ liệu` (data normalization) là gì?
A. Loại bỏ các giá trị ngoại lệ.
B. Chuyển đổi dữ liệu về cùng một thang đo.
C. Giảm số lượng thuộc tính.
D. Điền các giá trị bị thiếu.
7. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để giảm số lượng thuộc tính của dữ liệu bằng cách xác định và loại bỏ các thuộc tính không liên quan hoặc dư thừa?
A. Lọc dữ liệu (Data filtering)
B. Giảm chiều (Dimensionality reduction)
C. Chuẩn hóa dữ liệu (Data normalization)
D. Rời rạc hóa dữ liệu (Data discretization)
8. Thuật toán nào sau đây thuộc nhóm thuật toán phân cụm (clustering)?
A. Support Vector Machine (SVM)
B. Linear Regression
C. K-Nearest Neighbors (KNN)
D. DBSCAN
9. Đâu là một thách thức lớn khi làm việc với dữ liệu lớn (big data) trong khai phá dữ liệu?
A. Khả năng mở rộng (Scalability)
B. Tính đa dạng của dữ liệu (Data variety)
C. Tốc độ xử lý dữ liệu (Data velocity)
D. Tất cả các đáp án trên (All of the above)
10. Kỹ thuật nào sau đây thường được sử dụng để đánh giá hiệu quả của một mô hình phân loại?
A. Độ đo Silhouette (Silhouette coefficient)
B. Ma trận nhầm lẫn (Confusion matrix)
C. Chỉ số Davies-Bouldin (Davies-Bouldin index)
D. Độ đo Dunn (Dunn index)
11. Thuật toán nào sau đây thuộc nhóm thuật toán học có giám sát (supervised learning)?
A. K-means
B. Apriori
C. Support Vector Machine (SVM)
D. DBSCAN
12. Kỹ thuật nào sau đây được sử dụng để xử lý dữ liệu bị thiếu (missing data) trong khai phá dữ liệu?
A. Phân tích phương sai (ANOVA)
B. Hồi quy tuyến tính (Linear regression)
C. Điền giá trị trung bình (Mean imputation)
D. Phân tích thành phần chính (PCA)
13. Thuật toán nào sau đây thuộc nhóm thuật toán phân loại (classification)?
A. K-means
B. Apriori
C. Decision Tree
D. PCA
14. Trong khai phá dữ liệu, `cross-validation` được sử dụng để làm gì?
A. Tìm kiếm các luật kết hợp.
B. Đánh giá hiệu suất của mô hình trên dữ liệu chưa thấy.
C. Xử lý dữ liệu bị thiếu.
D. Giảm số lượng thuộc tính.
15. Phương pháp nào sau đây thường được sử dụng để trực quan hóa dữ liệu nhiều chiều?
A. Biểu đồ tần suất (Histogram)
B. Biểu đồ phân tán (Scatter plot)
C. Biểu đồ hộp (Box plot)
D. Biểu đồ song song (Parallel coordinates plot)
16. Trong khai phá dữ liệu, mục tiêu của việc `lựa chọn thuộc tính` (feature selection) là gì?
A. Tạo ra các thuộc tính mới từ các thuộc tính hiện có.
B. Chọn ra tập hợp các thuộc tính tốt nhất để xây dựng mô hình.
C. Chuẩn hóa dữ liệu.
D. Điền các giá trị bị thiếu.
17. Độ đo nào sau đây được sử dụng để đánh giá sự tương đồng giữa hai tập hợp?
A. Entropy
B. Jaccard index
C. Variance
D. Standard deviation
18. Phương pháp nào sau đây thường được sử dụng để giảm số chiều dữ liệu trong khi vẫn giữ lại thông tin quan trọng nhất?
A. Phân tích hồi quy (Regression analysis)
B. Phân tích phương sai (ANOVA)
C. Phân tích thành phần chính (PCA)
D. Phân tích tương quan (Correlation analysis)
19. Trong khai phá dữ liệu, `feature engineering` là gì?
A. Quá trình lựa chọn các thuộc tính quan trọng nhất từ dữ liệu.
B. Quá trình tạo ra các thuộc tính mới từ các thuộc tính hiện có.
C. Quá trình loại bỏ các giá trị ngoại lệ.
D. Quá trình chuẩn hóa dữ liệu.
20. Trong khai phá dữ liệu, kỹ thuật SMOTE (Synthetic Minority Oversampling Technique) được sử dụng để làm gì?
A. Xử lý dữ liệu bị thiếu.
B. Cân bằng dữ liệu (Data balancing).
C. Giảm số lượng thuộc tính.
D. Tìm kiếm các luật kết hợp.
21. Trong khai phá luật kết hợp (association rule mining), độ đo `confidence` của một luật A -> B được tính như thế nào?
A. support(A ∪ B) / support(A)
B. support(A ∪ B) / support(B)
C. support(A) / support(A ∪ B)
D. support(B) / support(A ∪ B)
22. Trong ngữ cảnh của khai phá dữ liệu, `ensemble learning` là gì?
A. Một phương pháp để làm sạch và chuẩn hóa dữ liệu.
B. Một kỹ thuật để giảm số lượng thuộc tính trong dữ liệu.
C. Một phương pháp kết hợp nhiều mô hình học máy để cải thiện hiệu suất.
D. Một thuật toán để tìm kiếm các luật kết hợp.
23. Trong khai phá dữ liệu, `underfitting` xảy ra khi nào?
A. Mô hình quá phức tạp và khớp với nhiễu trong dữ liệu huấn luyện.
B. Mô hình quá đơn giản và không thể nắm bắt được các mối quan hệ quan trọng trong dữ liệu.
C. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.
D. Dữ liệu huấn luyện không đủ lớn để huấn luyện mô hình.
24. Trong khai phá dữ liệu, thuật ngữ `curse of dimensionality` đề cập đến vấn đề gì?
A. Sự khó khăn trong việc tìm kiếm các luật kết hợp.
B. Sự gia tăng đáng kể về độ phức tạp tính toán khi số lượng thuộc tính tăng lên.
C. Sự khó khăn trong việc xử lý dữ liệu bị thiếu.
D. Sự xuất hiện của các giá trị ngoại lệ.
25. Thuật toán nào sau đây có thể được sử dụng cho cả bài toán phân loại (classification) và hồi quy (regression)?
A. K-means
B. Apriori
C. Decision Tree
D. DBSCAN
26. Trong khai phá dữ liệu, thuật ngữ `black box model` thường được dùng để chỉ loại mô hình nào?
A. Mô hình có độ chính xác rất cao.
B. Mô hình có độ phức tạp tính toán lớn.
C. Mô hình mà logic bên trong khó giải thích.
D. Mô hình được sử dụng để phát hiện các giá trị ngoại lệ.
27. Độ đo nào sau đây được sử dụng để đánh giá hiệu quả của mô hình hồi quy?
A. Accuracy
B. Precision
C. Recall
D. Mean Squared Error (MSE)
28. Trong khai phá dữ liệu, kỹ thuật `bootstrapping` thường được sử dụng để làm gì?
A. Ước lượng độ tin cậy của mô hình.
B. Giảm số lượng thuộc tính.
C. Xử lý dữ liệu bị thiếu.
D. Tìm kiếm các luật kết hợp.
29. Mục tiêu chính của việc sử dụng kỹ thuật `rời rạc hóa dữ liệu` (data discretization) là gì?
A. Giảm kích thước của tập dữ liệu.
B. Chuyển đổi dữ liệu liên tục thành dữ liệu rời rạc.
C. Loại bỏ các giá trị ngoại lệ.
D. Chuẩn hóa dữ liệu về một phạm vi nhất định.
30. Kỹ thuật nào sau đây giúp giảm thiểu overfitting trong mô hình học máy?
A. Tăng kích thước tập dữ liệu huấn luyện (Increasing the size of training dataset)
B. Giảm số lượng thuộc tính (Reducing the number of features)
C. Sử dụng kỹ thuật regularization (Using regularization techniques)
D. Tất cả các đáp án trên (All of the above)