Đề 8 – Đề thi, câu hỏi trắc nghiệm online Khai phá dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Khai phá dữ liệu

Đề 8 - Đề thi, câu hỏi trắc nghiệm online Khai phá dữ liệu

1. Trong khai phá dữ liệu, phương pháp nào được sử dụng để chuyển đổi dữ liệu định tính thành dữ liệu định lượng?

A. Chuẩn hóa dữ liệu
B. Mã hóa (Encoding)
C. Rời rạc hóa
D. Giảm chiều

2. Thuật toán nào sau đây thường được sử dụng để phân tích tình cảm (sentiment analysis) trong văn bản?

A. K-means
B. Naive Bayes
C. PCA
D. Apriori

3. Đâu là một phương pháp đánh giá hiệu quả mô hình phân loại?

A. RMSE (Root Mean Squared Error)
B. Độ chính xác (Accuracy)
C. MAE (Mean Absolute Error)
D. MSE (Mean Squared Error)

4. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để giảm số lượng chiều dữ liệu trong khi vẫn giữ lại thông tin quan trọng nhất?

A. Phân tích hồi quy
B. Giảm chiều dữ liệu
C. Phân cụm
D. Phân lớp

5. Trong khai phá dữ liệu, thuật ngữ `outlier` đề cập đến điều gì?

A. Dữ liệu bị thiếu
B. Dữ liệu không chính xác
C. Các điểm dữ liệu có giá trị khác biệt đáng kể so với phần lớn dữ liệu còn lại
D. Dữ liệu đã được chuẩn hóa

6. Trong khai phá dữ liệu, `support`, `confidence`, và `lift` là các thước đo liên quan đến kỹ thuật nào?

A. Phân cụm
B. Phân loại
C. Phân tích kết hợp
D. Giảm chiều

7. Thuật toán nào sau đây thường được sử dụng để phân cụm dữ liệu dựa trên khoảng cách giữa các điểm dữ liệu?

A. K-means
B. Cây quyết định
C. Mạng nơ-ron
D. Hồi quy tuyến tính

8. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để khám phá các mối quan hệ giữa các mục trong một tập dữ liệu?

A. Phân tích thành phần chính (PCA)
B. Phân tích kết hợp (Association rule mining)
C. Hồi quy logistic
D. Phân cụm階層化

9. Trong khai phá dữ liệu, `overfitting` xảy ra khi nào?

A. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
B. Mô hình quá phức tạp và khớp quá chặt với dữ liệu huấn luyện, dẫn đến hiệu suất kém trên dữ liệu kiểm tra.
C. Mô hình quá đơn giản và không thể nắm bắt được các mối quan hệ quan trọng trong dữ liệu.
D. Dữ liệu huấn luyện không đủ lớn để huấn luyện mô hình.

10. Trong khai phá dữ liệu, thuật ngữ `feature engineering` đề cập đến quá trình gì?

A. Lựa chọn các thuật toán khai phá dữ liệu phù hợp.
B. Xây dựng, biến đổi và lựa chọn các đặc trưng (features) phù hợp từ dữ liệu thô để cải thiện hiệu suất của mô hình.
C. Chuẩn hóa dữ liệu.
D. Giảm chiều dữ liệu.

11. Phương pháp nào sau đây giúp xác định các thuộc tính quan trọng nhất ảnh hưởng đến kết quả dự đoán trong một mô hình?

A. Phân tích phương sai
B. Lựa chọn thuộc tính (Feature selection)
C. Phân tích tương quan
D. Phân tích hồi quy

12. Trong khai phá dữ liệu, phương pháp nào được sử dụng để đánh giá sự khác biệt giữa hai phân phối xác suất?

A. Kiểm định t (t-test)
B. Kiểm định Chi-bình phương (Chi-squared test)
C. KL Divergence
D. Phân tích ANOVA

13. Trong khai phá dữ liệu, mục đích của việc sử dụng `ensemble methods` là gì?

A. Giảm số lượng biến trong dữ liệu.
B. Kết hợp nhiều mô hình học máy để cải thiện độ chính xác và độ ổn định của dự đoán.
C. Tìm kiếm các quy luật kết hợp.
D. Phân cụm dữ liệu.

14. Kỹ thuật nào được sử dụng để chuyển đổi dữ liệu số thành các khoảng rời rạc?

A. Chuẩn hóa
B. Rời rạc hóa (Discretization)
C. Phân tích hồi quy
D. Phân cụm

15. Thuật toán nào sau đây thường được sử dụng để giảm chiều dữ liệu phi tuyến tính?

A. PCA (Principal Component Analysis)
B. SVD (Singular Value Decomposition)
C. t-SNE (t-distributed Stochastic Neighbor Embedding)
D. LDA (Linear Discriminant Analysis)

16. Phương pháp nào sau đây được sử dụng để tìm kiếm các mẫu tuần tự trong dữ liệu?

A. Phân tích hồi quy
B. Phân tích chuỗi thời gian (Time series analysis)
C. Phân tích tương quan
D. Phân tích phương sai

17. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực y tế?

A. Dự đoán giá cổ phiếu
B. Phân tích tình cảm trên mạng xã hội
C. Dự đoán nguy cơ mắc bệnh dựa trên tiền sử bệnh án và các yếu tố liên quan
D. Phân tích thị trường

18. Trong khai phá dữ liệu, phương pháp nào được sử dụng để xử lý dữ liệu không cân bằng (imbalanced data) trong bài toán phân loại?

A. Chuẩn hóa dữ liệu
B. Oversampling, undersampling, hoặc sử dụng các thuật toán nhạy cảm với dữ liệu không cân bằng
C. Giảm chiều dữ liệu
D. Phân cụm dữ liệu

19. Trong khai phá dữ liệu, mục đích của việc sử dụng `cross-validation` là gì?

A. Tăng kích thước tập dữ liệu.
B. Ước tính hiệu suất của mô hình trên dữ liệu mới và đánh giá khả năng khái quát hóa của mô hình.
C. Giảm số lượng biến trong dữ liệu.
D. Tìm kiếm các quy luật kết hợp.

20. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để tìm kiếm các nhóm người dùng có hành vi tương tự nhau trên một trang web?

A. Phân tích hồi quy
B. Phân cụm
C. Phân tích kết hợp
D. Phân loại

21. Phương pháp nào sau đây thường được sử dụng để giảm overfitting trong cây quyết định?

A. Tăng độ sâu của cây
B. Cắt tỉa cây (Pruning)
C. Sử dụng nhiều biến hơn
D. Chuẩn hóa dữ liệu

22. Phương pháp nào sau đây được sử dụng để xử lý dữ liệu thiếu trong quá trình tiền xử lý dữ liệu?

A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Điền giá trị thiếu bằng giá trị trung bình hoặc loại bỏ các bản ghi chứa giá trị thiếu
D. Giảm chiều dữ liệu

23. Cho một bài toán phân loại email là spam hay không spam, bạn sử dụng mô hình nào sau đây là phù hợp nhất?

A. K-means
B. Naive Bayes
C. PCA
D. Apriori

24. Cho một tập dữ liệu chứa thông tin về khách hàng, bạn muốn phân nhóm khách hàng dựa trên hành vi mua sắm của họ. Phương pháp khai phá dữ liệu nào phù hợp nhất?

A. Phân tích hồi quy
B. Phân cụm
C. Phân tích kết hợp
D. Phân loại

25. Cho một bài toán dự đoán khả năng một khách hàng sẽ rời bỏ dịch vụ (churn prediction), đâu là thước đo đánh giá quan trọng nhất?

A. Độ chính xác (Accuracy)
B. Precision và Recall, đặc biệt là Recall của lớp `churn`
C. RMSE (Root Mean Squared Error)
D. MAE (Mean Absolute Error)

26. Thuật toán nào sau đây là một ví dụ của phương pháp học có giám sát (supervised learning)?

A. K-means
B. Apriori
C. Cây quyết định
D. PCA

27. Trong khai phá dữ liệu, `precision` và `recall` là gì?

A. Hai phương pháp chuẩn hóa dữ liệu.
B. Hai thước đo đánh giá hiệu quả của mô hình phân loại.
C. Hai kỹ thuật giảm chiều dữ liệu.
D. Hai phương pháp xử lý dữ liệu thiếu.

28. Phương pháp nào sau đây thường được sử dụng để đánh giá mức độ phù hợp của một mô hình thống kê với dữ liệu?

A. Phân tích hồi quy
B. Kiểm định giả thuyết (Hypothesis testing)
C. Phân tích tương quan
D. Phân tích phương sai

29. Trong khai phá dữ liệu, thuật ngữ `curse of dimensionality` đề cập đến vấn đề gì?

A. Sự khó khăn trong việc tìm kiếm các quy luật kết hợp.
B. Sự gia tăng đáng kể về độ phức tạp tính toán và giảm hiệu suất của các thuật toán khi số lượng chiều dữ liệu tăng lên.
C. Sự khó khăn trong việc xử lý dữ liệu thiếu.
D. Sự gia tăng về kích thước dữ liệu.

30. Trong khai phá dữ liệu, mục đích của việc chuẩn hóa dữ liệu là gì?

A. Giảm số lượng chiều dữ liệu
B. Chuyển đổi dữ liệu về một phạm vi giá trị chung để tránh sự ảnh hưởng của các biến có phạm vi giá trị lớn hơn
C. Tìm kiếm các mối quan hệ giữa các biến
D. Phân loại dữ liệu vào các nhóm khác nhau

1 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

1. Trong khai phá dữ liệu, phương pháp nào được sử dụng để chuyển đổi dữ liệu định tính thành dữ liệu định lượng?

2 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

2. Thuật toán nào sau đây thường được sử dụng để phân tích tình cảm (sentiment analysis) trong văn bản?

3 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

3. Đâu là một phương pháp đánh giá hiệu quả mô hình phân loại?

4 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

4. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để giảm số lượng chiều dữ liệu trong khi vẫn giữ lại thông tin quan trọng nhất?

5 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

5. Trong khai phá dữ liệu, thuật ngữ 'outlier' đề cập đến điều gì?

6 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

6. Trong khai phá dữ liệu, 'support', 'confidence', và 'lift' là các thước đo liên quan đến kỹ thuật nào?

7 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

7. Thuật toán nào sau đây thường được sử dụng để phân cụm dữ liệu dựa trên khoảng cách giữa các điểm dữ liệu?

8 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

8. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để khám phá các mối quan hệ giữa các mục trong một tập dữ liệu?

9 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

9. Trong khai phá dữ liệu, 'overfitting' xảy ra khi nào?

10 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

10. Trong khai phá dữ liệu, thuật ngữ 'feature engineering' đề cập đến quá trình gì?

11 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

11. Phương pháp nào sau đây giúp xác định các thuộc tính quan trọng nhất ảnh hưởng đến kết quả dự đoán trong một mô hình?

12 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

12. Trong khai phá dữ liệu, phương pháp nào được sử dụng để đánh giá sự khác biệt giữa hai phân phối xác suất?

13 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

13. Trong khai phá dữ liệu, mục đích của việc sử dụng 'ensemble methods' là gì?

14 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

14. Kỹ thuật nào được sử dụng để chuyển đổi dữ liệu số thành các khoảng rời rạc?

15 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

15. Thuật toán nào sau đây thường được sử dụng để giảm chiều dữ liệu phi tuyến tính?

16 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

16. Phương pháp nào sau đây được sử dụng để tìm kiếm các mẫu tuần tự trong dữ liệu?

17 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

17. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực y tế?

18 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

18. Trong khai phá dữ liệu, phương pháp nào được sử dụng để xử lý dữ liệu không cân bằng (imbalanced data) trong bài toán phân loại?

19 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

19. Trong khai phá dữ liệu, mục đích của việc sử dụng 'cross-validation' là gì?

20 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

20. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để tìm kiếm các nhóm người dùng có hành vi tương tự nhau trên một trang web?

21 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

21. Phương pháp nào sau đây thường được sử dụng để giảm overfitting trong cây quyết định?

22 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

22. Phương pháp nào sau đây được sử dụng để xử lý dữ liệu thiếu trong quá trình tiền xử lý dữ liệu?

23 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

23. Cho một bài toán phân loại email là spam hay không spam, bạn sử dụng mô hình nào sau đây là phù hợp nhất?

24 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

24. Cho một tập dữ liệu chứa thông tin về khách hàng, bạn muốn phân nhóm khách hàng dựa trên hành vi mua sắm của họ. Phương pháp khai phá dữ liệu nào phù hợp nhất?

25 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

25. Cho một bài toán dự đoán khả năng một khách hàng sẽ rời bỏ dịch vụ (churn prediction), đâu là thước đo đánh giá quan trọng nhất?

26 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

26. Thuật toán nào sau đây là một ví dụ của phương pháp học có giám sát (supervised learning)?

27 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

27. Trong khai phá dữ liệu, 'precision' và 'recall' là gì?

28 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

28. Phương pháp nào sau đây thường được sử dụng để đánh giá mức độ phù hợp của một mô hình thống kê với dữ liệu?

29 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

29. Trong khai phá dữ liệu, thuật ngữ 'curse of dimensionality' đề cập đến vấn đề gì?

30 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 6

30. Trong khai phá dữ liệu, mục đích của việc chuẩn hóa dữ liệu là gì?