1. Trong khai phá dữ liệu, thuật ngữ `outlier` (ngoại lệ) đề cập đến điều gì?
A. Các giá trị dữ liệu nằm gần giá trị trung bình
B. Các giá trị dữ liệu khác biệt đáng kể so với các giá trị khác trong tập dữ liệu
C. Các giá trị dữ liệu bị thiếu
D. Các giá trị dữ liệu đã được chuẩn hóa
2. Phương pháp nào sau đây được sử dụng để đánh giá hiệu quả của một mô hình phân cụm?
A. Độ chính xác (Accuracy)
B. Độ đo Silhouette
C. Độ tin cậy (Confidence)
D. Độ hỗ trợ (Support)
3. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu thiếu trong quá trình tiền xử lý dữ liệu?
A. Loại bỏ các bản ghi chứa giá trị thiếu
B. Điền giá trị thiếu bằng giá trị trung bình hoặc trung vị
C. Sử dụng các thuật toán dự đoán giá trị thiếu
D. Tất cả các phương án trên
4. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để phân nhóm các đối tượng tương tự thành các cụm dựa trên các đặc điểm của chúng?
A. Phân loại
B. Hồi quy
C. Phân cụm
D. Khai thác luật kết hợp
5. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân cụm?
A. K-means
B. DBSCAN
C. Apriori
D. Phân cụm phân cấp
6. Thuật ngữ nào mô tả việc lựa chọn các biến quan trọng nhất từ một tập dữ liệu để sử dụng trong mô hình khai phá dữ liệu?
A. Giảm chiều dữ liệu
B. Lựa chọn đặc trưng (Feature Selection)
C. Chuẩn hóa dữ liệu
D. Rời rạc hóa dữ liệu
7. Trong khai phá dữ liệu, thuật ngữ nào mô tả quá trình chuyển đổi dữ liệu thô thành một định dạng phù hợp cho phân tích?
A. Trực quan hóa dữ liệu
B. Làm sạch dữ liệu
C. Chuyển đổi dữ liệu
D. Tích hợp dữ liệu
8. Trong khai phá dữ liệu, `độ tin cậy` (confidence) của một luật kết hợp được định nghĩa là gì?
A. Tần suất xuất hiện của một tập hợp mục trong cơ sở dữ liệu
B. Xác suất một giao dịch chứa Y nếu nó chứa X
C. Độ nâng của luật
D. Tỷ lệ các giao dịch chứa cả phần tiền đề và phần hệ quả của luật
9. Trong khai phá dữ liệu, `rời rạc hóa dữ liệu` (data discretization) là gì?
A. Quá trình chuyển đổi dữ liệu liên tục thành dữ liệu rời rạc
B. Quá trình loại bỏ các giá trị ngoại lệ
C. Quá trình chuẩn hóa dữ liệu
D. Quá trình tích hợp dữ liệu từ nhiều nguồn
10. Trong khai phá dữ liệu, mục tiêu của việc `chuẩn hóa dữ liệu` là gì?
A. Giảm số lượng biến trong dữ liệu
B. Đảm bảo rằng tất cả các biến có cùng thang đo
C. Loại bỏ các giá trị ngoại lệ
D. Chuyển đổi dữ liệu sang định dạng văn bản
11. Kỹ thuật nào sau đây được sử dụng để khám phá các mẫu tuần tự trong dữ liệu?
A. Phân tích hồi quy
B. Phân cụm
C. Khai thác luật kết hợp
D. Khai thác mẫu tuần tự
12. Trong khai phá dữ liệu, thuật ngữ `bias-variance tradeoff` (đánh đổi giữa độ chệch và phương sai) đề cập đến điều gì?
A. Việc lựa chọn giữa các thuật toán khai phá dữ liệu khác nhau
B. Việc cân bằng giữa độ chính xác và khả năng giải thích của mô hình
C. Việc cân bằng giữa độ chệch (bias) và phương sai (variance) trong mô hình học máy
D. Việc lựa chọn giữa các phương pháp tiền xử lý dữ liệu khác nhau
13. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để giảm số lượng chiều của dữ liệu trong khi vẫn giữ lại thông tin quan trọng?
A. Phân tích tương quan
B. Giảm chiều dữ liệu
C. Chuẩn hóa dữ liệu
D. Phân tích thành phần chính (PCA)
14. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để dự đoán một biến phân loại (categorical variable)?
A. Hồi quy tuyến tính
B. Phân loại
C. Phân cụm
D. Giảm chiều dữ liệu
15. Phương pháp nào sau đây được sử dụng để giảm số lượng chiều dữ liệu trong khi vẫn giữ lại các đặc trưng quan trọng nhất?
A. Phân tích tương quan
B. Phân tích thành phần chính (PCA)
C. Chuẩn hóa dữ liệu
D. Làm sạch dữ liệu
16. Trong khai phá dữ liệu, `độ hỗ trợ` (support) của một luật kết hợp được định nghĩa là gì?
A. Tần suất xuất hiện của một tập hợp mục trong cơ sở dữ liệu
B. Độ tin cậy của luật
C. Độ nâng của luật
D. Tỷ lệ các giao dịch chứa cả phần tiền đề và phần hệ quả của luật
17. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để tìm các nhóm khách hàng có hành vi mua hàng tương tự?
A. Phân loại
B. Hồi quy
C. Phân cụm
D. Khai thác luật kết hợp
18. Kỹ thuật nào trong khai phá dữ liệu được sử dụng để tìm các mối quan hệ hoặc mẫu phổ biến giữa các tập hợp mục trong cơ sở dữ liệu giao dịch?
A. Phân tích hồi quy
B. Phân cụm
C. Khai thác luật kết hợp
D. Phân loại
19. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu văn bản trong khai phá dữ liệu?
A. Phân tích hồi quy
B. Phân cụm
C. Xử lý ngôn ngữ tự nhiên (NLP)
D. Giảm chiều dữ liệu
20. Phương pháp nào sau đây KHÔNG phải là một phương pháp tiền xử lý dữ liệu?
A. Làm sạch dữ liệu
B. Chuyển đổi dữ liệu
C. Xây dựng mô hình
D. Tích hợp dữ liệu
21. Độ đo nào sau đây được sử dụng để đánh giá sự tương đồng giữa hai cụm trong thuật toán phân cụm?
A. Độ chính xác
B. Khoảng cách Euclidean
C. Độ tin cậy
D. Độ hỗ trợ
22. Độ đo nào sau đây được sử dụng để đánh giá hiệu quả của một mô hình phân loại?
A. Độ chính xác (Accuracy)
B. Độ lệch (Bias)
C. Phương sai (Variance)
D. Độ phức tạp (Complexity)
23. Độ đo nào sau đây được sử dụng để đánh giá khả năng của một mô hình phân loại trong việc dự đoán chính xác các trường hợp dương tính?
A. Độ chính xác (Accuracy)
B. Độ thu hồi (Recall)
C. Độ tin cậy (Precision)
D. F1-score
24. Độ đo nào sau đây được sử dụng để đánh giá mức độ liên quan giữa các biến trong một tập dữ liệu?
A. Độ chính xác
B. Độ tương quan
C. Độ tin cậy
D. Độ hỗ trợ
25. Phương pháp nào sau đây được sử dụng để xử lý dữ liệu không cân bằng (imbalanced data) trong phân loại?
A. Oversampling
B. Undersampling
C. Sử dụng các thuật toán nhạy cảm với dữ liệu không cân bằng
D. Tất cả các phương án trên
26. Đâu là một thách thức chính trong việc khai phá dữ liệu từ các nguồn dữ liệu lớn (Big Data)?
A. Thiếu công cụ khai phá dữ liệu phù hợp
B. Khả năng mở rộng và hiệu suất của các thuật toán
C. Dữ liệu quá sạch và dễ xử lý
D. Chi phí phần cứng thấp
27. Phương pháp nào trong khai phá dữ liệu được sử dụng để dự đoán giá trị của một biến số dựa trên giá trị của các biến số khác?
A. Phân cụm
B. Hồi quy
C. Phân loại
D. Khai thác luật kết hợp
28. Trong khai phá dữ liệu, thuật ngữ `ensemble learning` (học tập kết hợp) đề cập đến điều gì?
A. Việc sử dụng một thuật toán duy nhất cho tất cả các nhiệm vụ khai phá dữ liệu
B. Việc kết hợp nhiều mô hình học máy để cải thiện hiệu suất
C. Việc loại bỏ các biến không liên quan khỏi tập dữ liệu
D. Việc chuyển đổi dữ liệu sang định dạng phù hợp hơn
29. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để tìm các mối quan hệ nhân quả giữa các biến?
A. Phân tích hồi quy
B. Phân cụm
C. Suy luận nhân quả
D. Khai thác luật kết hợp
30. Trong bối cảnh khai phá dữ liệu, `overfitting` (quá khớp) đề cập đến điều gì?
A. Một mô hình hoạt động kém trên dữ liệu huấn luyện.
B. Một mô hình quá phức tạp và hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
C. Một mô hình quá đơn giản và không thể nắm bắt được các mẫu trong dữ liệu.
D. Một mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu mới.