1. Độ đo nào đánh giá mức độ mà một luật kết hợp (association rule) chính xác hơn so với việc chỉ dự đoán kết quả một cách ngẫu nhiên?
A. Độ chính xác (Accuracy)
B. Độ tin cậy (Confidence)
C. Độ phủ (Support)
D. Lift
2. Trong quá trình khai phá dữ liệu, loại tấn công nào xảy ra khi kẻ tấn công cố gắng suy luận thông tin nhạy cảm từ dữ liệu đã được ẩn danh?
A. Tấn công từ chối dịch vụ (DoS)
B. Tấn công tái định danh (Re-identification attack)
C. Tấn công SQL Injection
D. Tấn công Man-in-the-Middle
3. Thuật ngữ nào mô tả quá trình chuyển đổi dữ liệu thô thành một định dạng phù hợp hơn để phân tích, bao gồm làm sạch, tích hợp, chuyển đổi và giảm dữ liệu?
A. Trực quan hóa dữ liệu
B. Tiền xử lý dữ liệu
C. Mô hình hóa dữ liệu
D. Đánh giá mô hình
4. Trong khai phá dữ liệu, phương pháp nào được sử dụng để giảm ảnh hưởng của các giá trị ngoại lệ (outliers) trong dữ liệu?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Xử lý ngoại lệ
D. Giảm chiều dữ liệu
5. Phương pháp nào được sử dụng để tìm các mối quan hệ giữa các biến trong một tập dữ liệu và biểu diễn chúng dưới dạng đồ thị?
A. Phân tích hồi quy
B. Phân tích luật kết hợp
C. Phân tích mạng
D. Phân tích phương sai
6. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để giảm số lượng chiều của dữ liệu, giúp đơn giản hóa mô hình và giảm thiểu overfitting?
A. Phân tích phương sai (ANOVA)
B. Phân tích thành phần chính (PCA)
C. Hồi quy tuyến tính (Linear Regression)
D. Phân cụm K-means
7. Trong khai phá dữ liệu, thuật ngữ nào mô tả hiện tượng mô hình học quá sát vào dữ liệu huấn luyện, dẫn đến hiệu suất kém trên dữ liệu mới?
A. Underfitting
B. Overfitting
C. Regularization
D. Normalization
8. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để xác định các điểm dữ liệu bất thường hoặc ngoại lệ so với phần còn lại của dữ liệu?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Phát hiện ngoại lệ
D. Điền giá trị thiếu
9. Trong khai phá dữ liệu, phương pháp nào được sử dụng để dự đoán xu hướng hoặc mẫu trong dữ liệu theo thời gian?
A. Phân tích hồi quy
B. Phân tích luật kết hợp
C. Phân tích chuỗi thời gian
D. Phân tích phương sai
10. Trong khai phá dữ liệu, thuật toán nào là một phương pháp phân cụm dựa trên việc gán mỗi điểm dữ liệu vào cụm gần nhất, được xác định bởi một hàm khoảng cách?
A. K-means
B. Apriori
C. Decision Tree
D. Linear Regression
11. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để chuyển đổi dữ liệu về một phạm vi giá trị chung, chẳng hạn như từ 0 đến 1?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Điền giá trị thiếu
D. Giảm chiều dữ liệu
12. Kỹ thuật nào được sử dụng để giảm số lượng chiều dữ liệu trong khi vẫn giữ lại các thông tin quan trọng nhất?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Giảm chiều dữ liệu
D. Điền giá trị thiếu
13. Trong khai phá dữ liệu, thuật toán nào là một phương pháp phân loại dựa trên việc xây dựng một tập hợp các cây quyết định?
A. K-means
B. Apriori
C. Random Forest
D. Linear Regression
14. Phương pháp nào được sử dụng để giảm số lượng thuộc tính trong một tập dữ liệu bằng cách chọn một tập hợp con các thuộc tính quan trọng nhất?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Lựa chọn thuộc tính
D. Điền giá trị thiếu
15. Trong khai phá dữ liệu, độ đo nào được sử dụng để đánh giá mức độ liên kết giữa hai mục trong một tập dữ liệu, thường được sử dụng trong phân tích giỏ hàng?
A. Độ chính xác (Accuracy)
B. Độ tin cậy (Confidence)
C. Độ phủ (Support)
D. Lift
16. Độ đo nào đánh giá mức độ tin cậy của một luật kết hợp (association rule) bằng cách tính tỷ lệ số lượng giao dịch chứa cả hai mục trong quy tắc trên số lượng giao dịch chứa mục điều kiện?
A. Độ chính xác (Accuracy)
B. Độ tin cậy (Confidence)
C. Độ phủ (Support)
D. Lift
17. Phương pháp nào được sử dụng để đánh giá hiệu suất của mô hình phân loại bằng cách sử dụng ma trận nhầm lẫn (confusion matrix) để tính toán các độ đo như độ chính xác, độ thu hồi và F1-score?
A. Phân tích hồi quy
B. Đánh giá dựa trên ma trận nhầm lẫn
C. Phân tích phương sai
D. Phân tích chuỗi thời gian
18. Phương pháp khai phá dữ liệu nào được sử dụng để dự đoán một giá trị số liên tục dựa trên các biến đầu vào?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai phá luật kết hợp (Association Rule Mining)
19. Độ đo nào đánh giá hiệu suất của một mô hình phân loại bằng cách tính tỷ lệ số lượng dự đoán đúng trên tổng số dự đoán?
A. Độ chính xác (Accuracy)
B. Độ tin cậy (Confidence)
C. Độ phủ (Support)
D. Lift
20. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để tìm các mẫu tuần tự trong dữ liệu, chẳng hạn như chuỗi các sự kiện xảy ra theo thời gian?
A. Phân tích hồi quy
B. Phân tích luật kết hợp
C. Phân tích chuỗi thời gian
D. Phân tích phương sai
21. Thuật toán nào là một phương pháp phân loại dựa trên việc xây dựng một cây quyết định từ dữ liệu huấn luyện?
A. K-means
B. Apriori
C. Decision Tree
D. Linear Regression
22. Trong khai phá dữ liệu, thuật toán nào là một phương pháp phân loại dựa trên việc tìm các điểm dữ liệu gần nhất trong không gian thuộc tính?
A. K-means
B. Apriori
C. K-Nearest Neighbors (KNN)
D. Linear Regression
23. Kỹ thuật nào được sử dụng để xác định các quy tắc hoặc mẫu trong dữ liệu giao dịch, chẳng hạn như các sản phẩm thường được mua cùng nhau?
A. Phân tích hồi quy
B. Phân tích luật kết hợp
C. Phân tích phương sai
D. Phân tích chuỗi thời gian
24. Kỹ thuật nào trong khai phá dữ liệu được sử dụng để xử lý dữ liệu bị thiếu bằng cách ước tính giá trị còn thiếu dựa trên các giá trị khác trong tập dữ liệu?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Điền giá trị thiếu
D. Giảm chiều dữ liệu
25. Kỹ thuật nào trong khai phá dữ liệu được sử dụng để nhóm các đối tượng tương tự lại với nhau dựa trên các thuộc tính của chúng, mà không cần biết trước nhãn của các nhóm?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai phá luật kết hợp (Association Rule Mining)
26. Trong khai phá dữ liệu, phương pháp nào được sử dụng để tìm ra các mối quan hệ hoặc mẫu phổ biến giữa các biến trong một tập dữ liệu lớn?
A. Phân tích hồi quy
B. Phân tích luật kết hợp
C. Phân tích phương sai
D. Phân tích chuỗi thời gian
27. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để chuyển đổi các biến liên tục thành các biến rời rạc bằng cách chia phạm vi giá trị thành các khoảng?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Điền giá trị thiếu
D. Giảm chiều dữ liệu
28. Thuật ngữ nào mô tả quá trình chọn các biến hoặc thuộc tính quan trọng nhất từ một tập dữ liệu lớn để sử dụng trong mô hình hóa?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Lựa chọn thuộc tính
D. Điền giá trị thiếu
29. Trong khai phá dữ liệu, phương pháp nào được sử dụng để làm sạch dữ liệu bằng cách loại bỏ hoặc sửa chữa các giá trị không chính xác, không đầy đủ hoặc không liên quan?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Làm sạch dữ liệu
D. Giảm chiều dữ liệu
30. Phương pháp nào được sử dụng để đánh giá hiệu suất của mô hình phân cụm bằng cách đo độ tương đồng giữa các đối tượng trong cùng một cụm và độ khác biệt giữa các cụm khác nhau?
A. Độ chính xác (Accuracy)
B. Silhouette Coefficient
C. Độ tin cậy (Confidence)
D. Độ phủ (Support)