1. Trong khai phá dữ liệu, `support` (độ hỗ trợ) của một luật kết hợp đo lường điều gì?
A. Tần suất xuất hiện của các mục trong luật kết hợp trong tập dữ liệu
B. Mức độ tin cậy của luật kết hợp
C. Mức độ cải thiện trong dự đoán khi sử dụng luật kết hợp
D. Độ dài của luật kết hợp
2. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để chuyển đổi dữ liệu về một phạm vi nhất định, ví dụ [0, 1]?
A. Rời rạc hóa dữ liệu (Data discretization)
B. Chuẩn hóa dữ liệu (Data normalization)
C. Mã hóa dữ liệu (Data encoding)
D. Làm sạch dữ liệu (Data cleaning)
3. Trong khai phá dữ liệu, kỹ thuật `ensemble learning` (học tập kết hợp) là gì?
A. Một phương pháp để tiền xử lý dữ liệu
B. Một kỹ thuật để lựa chọn đặc trưng
C. Một phương pháp kết hợp nhiều mô hình học máy để cải thiện hiệu suất tổng thể
D. Một thuật toán phân cụm cụ thể
4. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để khám phá các mối quan hệ tuần tự giữa các sự kiện theo thời gian?
A. Phân tích hồi quy (Regression analysis)
B. Phân loại (Classification)
C. Phân cụm (Clustering)
D. Khai thác mẫu tuần tự (Sequential pattern mining)
5. Trong khai phá dữ liệu, `feature selection` (lựa chọn đặc trưng) có nghĩa là gì?
A. Chọn thuật toán khai phá dữ liệu phù hợp
B. Chọn các thuộc tính quan trọng nhất từ dữ liệu
C. Chọn kích thước mẫu dữ liệu phù hợp
D. Chọn định dạng dữ liệu phù hợp
6. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực tài chính?
A. Dự đoán thời tiết
B. Phân tích hình ảnh y tế
C. Phát hiện gian lận thẻ tín dụng
D. Tối ưu hóa lộ trình giao thông
7. Trong khai phá dữ liệu, `overfitting` (quá khớp) là gì?
A. Mô hình quá đơn giản để nắm bắt các mẫu trong dữ liệu
B. Mô hình khớp quá chặt với dữ liệu huấn luyện, dẫn đến hiệu suất kém trên dữ liệu mới
C. Mô hình không đủ dữ liệu để học
D. Mô hình mất quá nhiều thời gian để huấn luyện
8. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để nhóm các đối tượng tương tự lại với nhau dựa trên các đặc điểm của chúng?
A. Phân loại
B. Phân cụm
C. Phân tích hồi quy
D. Khai thác luật kết hợp
9. Phương pháp nào trong khai phá dữ liệu được sử dụng để dự đoán giá trị của một biến phụ thuộc dựa trên một hoặc nhiều biến độc lập?
A. Phân cụm
B. Phân loại
C. Phân tích hồi quy
D. Khai thác luật kết hợp
10. Kỹ thuật nào trong khai phá dữ liệu được sử dụng để gán một đối tượng vào một trong số các lớp (categories) đã được định nghĩa trước?
A. Phân tích hồi quy
B. Phân cụm
C. Khai thác luật kết hợp
D. Phân loại
11. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực y tế?
A. Dự đoán xu hướng thị trường chứng khoán
B. Phân tích cảm xúc trên mạng xã hội
C. Phát hiện gian lận thẻ tín dụng
D. Dự đoán nguy cơ mắc bệnh của bệnh nhân
12. Trong ngữ cảnh của khai phá dữ liệu, thuật ngữ `data warehouse` (kho dữ liệu) đề cập đến điều gì?
A. Một loại cơ sở dữ liệu đặc biệt được tối ưu hóa cho các giao dịch trực tuyến
B. Một bộ sưu tập dữ liệu tích hợp từ nhiều nguồn khác nhau, được sử dụng cho mục đích báo cáo và phân tích
C. Một công cụ để trực quan hóa dữ liệu
D. Một thuật toán khai phá dữ liệu cụ thể
13. Trong khai phá dữ liệu, kỹ thuật `dimensionality reduction` (giảm chiều) được sử dụng để làm gì?
A. Tăng số lượng thuộc tính trong dữ liệu
B. Giảm số lượng thuộc tính trong dữ liệu trong khi vẫn giữ lại thông tin quan trọng
C. Tăng kích thước của tập dữ liệu
D. Giảm kích thước của tập dữ liệu bằng cách loại bỏ các bản ghi
14. Trong khai phá dữ liệu, độ đo nào đánh giá khả năng của một mô hình phân loại trong việc dự đoán chính xác các trường hợp dương tính?
A. Độ chính xác (Accuracy)
B. Độ thu hồi (Recall)
C. Độ đo F1 (F1-score)
D. Độ đo AUC (AUC)
15. Trong khai phá dữ liệu, thuật ngữ `outlier` (ngoại lệ) đề cập đến điều gì?
A. Một thuộc tính quan trọng trong dữ liệu
B. Một bản ghi bị thiếu dữ liệu
C. Một giá trị bất thường khác biệt đáng kể so với các giá trị khác trong tập dữ liệu
D. Một lỗi trong quá trình thu thập dữ liệu
16. Đâu là một phương pháp để xử lý dữ liệu bị thiếu trong khai phá dữ liệu?
A. Loại bỏ các thuộc tính có nhiều giá trị bị thiếu
B. Điền vào các giá trị bị thiếu bằng giá trị trung bình hoặc trung vị
C. Sử dụng các thuật toán học máy có thể xử lý dữ liệu bị thiếu
D. Tất cả các phương án trên
17. Đâu là một phương pháp để giảm thiểu overfitting trong khai phá dữ liệu?
A. Sử dụng nhiều đặc trưng hơn
B. Sử dụng dữ liệu huấn luyện ít hơn
C. Sử dụng kỹ thuật regularization
D. Sử dụng thuật toán phức tạp hơn
18. Trong khai phá dữ liệu, độ đo nào được sử dụng để đánh giá mức độ liên quan giữa hai mục trong khai thác luật kết hợp?
A. Độ chính xác (Accuracy)
B. Độ tin cậy (Confidence)
C. Độ thu hồi (Recall)
D. Độ đo F1 (F1-score)
19. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để tìm các nhóm khách hàng có hành vi mua hàng tương tự nhau?
A. Phân tích hồi quy (Regression analysis)
B. Phân loại (Classification)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association rule mining)
20. Đâu là một thách thức lớn trong quá trình tiền xử lý dữ liệu cho khai phá dữ liệu?
A. Xây dựng mô hình
B. Đánh giá mô hình
C. Dữ liệu bị thiếu và nhiễu
D. Chọn thuật toán
21. Trong khai phá dữ liệu, thuật ngữ `lift` trong khai thác luật kết hợp đo lường điều gì?
A. Độ phổ biến của một mục trong tập dữ liệu
B. Mức độ tin cậy của một luật kết hợp
C. Mức độ cải thiện trong dự đoán khi sử dụng một luật kết hợp so với việc không sử dụng
D. Tần suất xuất hiện của một luật kết hợp
22. Trong khai phá dữ liệu, thuật ngữ `black box model` (mô hình hộp đen) đề cập đến điều gì?
A. Một mô hình có độ chính xác cao
B. Một mô hình dễ dàng giải thích
C. Một mô hình mà logic hoạt động bên trong khó hiểu hoặc không thể giải thích
D. Một mô hình chỉ hoạt động trên dữ liệu đen trắng
23. Kỹ thuật nào trong khai phá dữ liệu thường được sử dụng để phân tích dữ liệu văn bản và xác định chủ đề chính trong một tập hợp các tài liệu?
A. Phân tích thành phần chính (PCA)
B. Phân tích cảm xúc (Sentiment analysis)
C. Mô hình hóa chủ đề (Topic modeling)
D. Phân tích hồi quy (Regression analysis)
24. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để chuyển đổi dữ liệu định tính thành dữ liệu định lượng?
A. Chuẩn hóa dữ liệu (Data normalization)
B. Rời rạc hóa dữ liệu (Data discretization)
C. Mã hóa dữ liệu (Data encoding)
D. Làm sạch dữ liệu (Data cleaning)
25. Trong khai phá dữ liệu, `data mining ethics` (đạo đức khai phá dữ liệu) liên quan đến điều gì?
A. Chọn thuật toán khai phá dữ liệu phù hợp
B. Đảm bảo tính bảo mật và riêng tư của dữ liệu cá nhân
C. Tối ưu hóa hiệu suất của mô hình
D. Trực quan hóa dữ liệu một cách hiệu quả
26. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để khám phá các mối quan hệ giữa các mục dữ liệu trong một tập dữ liệu giao dịch?
A. Phân tích hồi quy
B. Phân cụm
C. Khai thác luật kết hợp
D. Phân loại
27. Khi nào nên sử dụng phương pháp `cross-validation` (kiểm định chéo) trong khai phá dữ liệu?
A. Khi dữ liệu bị thiếu
B. Khi cần đánh giá hiệu suất của mô hình trên dữ liệu mới
C. Khi cần giảm số lượng đặc trưng trong dữ liệu
D. Khi cần trực quan hóa dữ liệu
28. Trong khai phá dữ liệu, `curse of dimensionality` (lời nguyền chiều dữ liệu) đề cập đến vấn đề gì?
A. Việc dữ liệu bị thiếu quá nhiều
B. Việc mô hình quá phức tạp
C. Việc hiệu suất của các thuật toán học máy giảm khi số lượng thuộc tính (chiều) tăng lên
D. Việc dữ liệu không đủ lớn
29. Đâu là một lợi ích chính của việc sử dụng khai phá dữ liệu trong lĩnh vực bán lẻ?
A. Dự đoán thời tiết chính xác hơn
B. Cải thiện chất lượng hình ảnh y tế
C. Tối ưu hóa chuỗi cung ứng và quản lý hàng tồn kho
D. Phát hiện gian lận trong bảo hiểm
30. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để giảm nhiễu trong dữ liệu?
A. Chuẩn hóa dữ liệu (Data normalization)
B. Làm sạch dữ liệu (Data cleaning)
C. Giảm chiều dữ liệu (Dimensionality reduction)
D. Phân tích thành phần chính (PCA)