Đề 5 – Đề thi, câu hỏi trắc nghiệm online Khai phá dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Khai phá dữ liệu

Đề 5 - Đề thi, câu hỏi trắc nghiệm online Khai phá dữ liệu

1. Phương pháp nào sau đây được sử dụng để chuẩn hóa dữ liệu (data normalization) trong quá trình tiền xử lý dữ liệu?

A. Chuyển đổi dữ liệu về cùng một tỷ lệ
B. Loại bỏ các giá trị ngoại lệ
C. Thay thế các giá trị bị thiếu
D. Giảm số lượng thuộc tính

2. Thuật toán nào sau đây thường được sử dụng để xây dựng mô hình phân lớp dựa trên việc phân chia dữ liệu thành các nhánh cây?

A. K-nearest neighbors
B. Linear regression
C. Decision tree
D. Support vector machine

3. Trong khai phá dữ liệu, `confidence` của một luật kết hợp (association rule) được định nghĩa là gì?

A. Xác suất một giao dịch chứa tất cả các mục trong tập hợp.
B. Tỷ lệ giao dịch chứa Y khi biết giao dịch chứa X.
C. Tỷ lệ giao dịch chứa X và Y.
D. Độ tin cậy của dữ liệu.

4. Trong khai phá dữ liệu, kỹ thuật `cross-validation` (kiểm định chéo) được sử dụng để làm gì?

A. Giảm chiều dữ liệu
B. Đánh giá hiệu năng của mô hình trên dữ liệu chưa thấy
C. Tìm các tập mục phổ biến
D. Xử lý dữ liệu bị thiếu

5. Trong khai phá dữ liệu, `lift` trong luật kết hợp (association rule) được định nghĩa là gì?

A. Xác suất của việc một mục xuất hiện trong một giao dịch.
B. Tỷ lệ giữa confidence và support.
C. Tỷ lệ giữa confidence và expected confidence.
D. Sự khác biệt giữa support và confidence.

6. Trong khai phá dữ liệu, việc sử dụng một tập dữ liệu lớn và đa dạng thường giúp cải thiện điều gì ở mô hình học máy?

A. Giảm overfitting và tăng khả năng khái quát hóa
B. Tăng tốc độ huấn luyện mô hình
C. Giảm độ phức tạp của mô hình
D. Giảm yêu cầu bộ nhớ

7. Kỹ thuật nào sau đây được sử dụng để phân tích chuỗi thời gian (time series analysis) trong khai phá dữ liệu?

A. Phân tích hồi quy
B. Phân cụm
C. Phân tích ARIMA
D. Phân lớp

8. Trong khai phá dữ liệu, thuật ngữ `overfitting` (quá khớp) mô tả hiện tượng gì?

A. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.
C. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
D. Mô hình không thể học được từ dữ liệu huấn luyện.

9. Trong khai phá dữ liệu, kỹ thuật nào sau đây được sử dụng để dự đoán giá trị của một biến số dựa trên giá trị của các biến số khác?

A. Phân tích hồi quy
B. Phân cụm
C. Phân lớp
D. Phân tích thành phần chính

10. Trong khai phá dữ liệu, thuật ngữ `ensemble learning` (học tập hợp) đề cập đến phương pháp nào?

A. Sử dụng một thuật toán học máy duy nhất.
B. Kết hợp nhiều mô hình học máy để cải thiện hiệu năng.
C. Chia nhỏ dữ liệu thành nhiều phần nhỏ hơn.
D. Tự động chọn thuật toán học máy tốt nhất.

11. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để nhóm các khách hàng có hành vi mua hàng tương tự nhau?

A. Phân tích hồi quy
B. Phân cụm
C. Phân lớp
D. Phân tích chuỗi thời gian

12. Trong khai phá dữ liệu, thuật ngữ `bias-variance tradeoff` (đánh đổi giữa độ chệch và phương sai) đề cập đến điều gì?

A. Sự cân bằng giữa độ chính xác và độ phủ của mô hình.
B. Sự cân bằng giữa khả năng giải thích và khả năng dự đoán của mô hình.
C. Sự cân bằng giữa độ phức tạp của mô hình và khả năng khái quát hóa.
D. Sự cân bằng giữa tốc độ huấn luyện và tốc độ dự đoán của mô hình.

13. Trong khai phá dữ liệu, thuật ngữ `outlier` (điểm ngoại lệ) được định nghĩa là gì?

A. Một điểm dữ liệu có giá trị trung bình khác biệt so với các điểm khác.
B. Một điểm dữ liệu có giá trị xuất hiện thường xuyên hơn các điểm khác.
C. Một điểm dữ liệu có giá trị khác biệt đáng kể so với phần lớn các điểm dữ liệu khác.
D. Một điểm dữ liệu bị thiếu giá trị.

14. Phương pháp nào sau đây được sử dụng để giảm thiểu overfitting trong mô hình học máy?

A. Tăng kích thước tập dữ liệu huấn luyện
B. Giảm số lượng thuộc tính
C. Sử dụng kỹ thuật regularization
D. Tất cả các đáp án trên

15. Thuật toán nào sau đây thường được sử dụng để phân cụm dữ liệu dựa trên khoảng cách giữa các điểm dữ liệu?

A. Apriori
B. K-means
C. Decision Tree
D. Support Vector Machine

16. Kỹ thuật nào sau đây được sử dụng để chuyển đổi dữ liệu định tính (categorical data) thành dữ liệu định lượng (numerical data) để sử dụng trong các thuật toán khai phá dữ liệu?

A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. One-hot encoding
D. Giảm chiều dữ liệu

17. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để giảm số lượng thuộc tính của dữ liệu, đồng thời giữ lại thông tin quan trọng nhất?

A. Phân tích hồi quy
B. Giảm chiều dữ liệu
C. Phân cụm
D. Phân lớp

18. Phương pháp nào sau đây được sử dụng để giảm số lượng chiều dữ liệu trong khi vẫn giữ lại phần lớn thông tin quan trọng?

A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Phân tích thành phần chính (PCA)
D. Xử lý dữ liệu bị thiếu

19. Thuật toán nào sau đây thường được sử dụng để tìm các tập mục phổ biến (frequent itemsets) trong khai phá dữ liệu?

A. K-means
B. Decision Tree
C. Apriori
D. Support Vector Machine

20. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để tìm ra các mối quan hệ giữa các biến trong một tập dữ liệu?

A. Phân tích tương quan
B. Phân tích phương sai
C. Phân tích thành phần chính
D. Phân tích chuỗi thời gian

21. Trong khai phá dữ liệu, `precision` (độ chính xác) và `recall` (độ phủ) là gì?

A. Hai phương pháp tiền xử lý dữ liệu.
B. Hai chỉ số đánh giá hiệu năng của mô hình phân lớp.
C. Hai thuật toán phân cụm.
D. Hai kỹ thuật giảm chiều dữ liệu.

22. Phương pháp nào sau đây được sử dụng để đánh giá hiệu quả của một mô hình phân lớp trong khai phá dữ liệu?

A. Độ chính xác (Accuracy)
B. Độ tin cậy (Confidence)
C. Support
D. Lift

23. Trong bối cảnh khai phá dữ liệu, thuật ngữ `curse of dimensionality` (lời nguyền chiều dữ liệu) đề cập đến vấn đề gì?

A. Sự gia tăng độ phức tạp tính toán và yêu cầu bộ nhớ khi số lượng thuộc tính tăng lên.
B. Sự giảm độ chính xác của mô hình khi số lượng mẫu dữ liệu tăng lên.
C. Sự khó khăn trong việc trực quan hóa dữ liệu khi số lượng thuộc tính tăng lên.
D. Sự gia tăng số lượng lỗi trong quá trình tiền xử lý dữ liệu.

24. Trong khai phá dữ liệu, `support` của một tập hợp mục (itemset) được định nghĩa là gì?

A. Xác suất một giao dịch chứa tất cả các mục trong tập hợp.
B. Số lượng giao dịch chứa tất cả các mục trong tập hợp.
C. Tỷ lệ giao dịch chứa tất cả các mục trong tập hợp.
D. Độ tin cậy của một luật kết hợp.

25. Phương pháp nào sau đây được sử dụng để đánh giá mô hình hồi quy trong khai phá dữ liệu?

A. Độ chính xác (Accuracy)
B. F1-score
C. Mean Squared Error (MSE)
D. Precision

26. Thuật toán nào sau đây thường được sử dụng để xây dựng mô hình phân lớp dựa trên việc tìm đường biên phân chia tối ưu giữa các lớp?

A. K-nearest neighbors
B. Linear regression
C. Decision tree
D. Support vector machine

27. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để tìm các mẫu (pattern) trong dữ liệu trình tự (sequential data), ví dụ như hành vi của khách hàng trên trang web?

A. Phân tích hồi quy
B. Phân cụm
C. Phân tích trình tự
D. Phân lớp

28. Thuật toán nào sau đây thường được sử dụng để phân tích tình cảm (sentiment analysis) trong khai phá dữ liệu văn bản?

A. K-means
B. Linear regression
C. Naive Bayes
D. Apriori

29. Kỹ thuật nào sau đây được sử dụng để xử lý dữ liệu bị thiếu trong quá trình tiền xử lý dữ liệu?

A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Loại bỏ các bản ghi chứa giá trị thiếu
D. Giảm chiều dữ liệu

30. Kỹ thuật nào sau đây được sử dụng để khám phá các mối quan hệ giữa các thực thể và thuộc tính của chúng trong một cơ sở dữ liệu đồ thị (graph database)?

A. Phân tích hồi quy
B. Phân cụm
C. Phân tích mạng xã hội
D. Phân lớp

1 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

1. Phương pháp nào sau đây được sử dụng để chuẩn hóa dữ liệu (data normalization) trong quá trình tiền xử lý dữ liệu?

2 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

2. Thuật toán nào sau đây thường được sử dụng để xây dựng mô hình phân lớp dựa trên việc phân chia dữ liệu thành các nhánh cây?

3 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

3. Trong khai phá dữ liệu, 'confidence' của một luật kết hợp (association rule) được định nghĩa là gì?

4 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

4. Trong khai phá dữ liệu, kỹ thuật 'cross-validation' (kiểm định chéo) được sử dụng để làm gì?

5 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

5. Trong khai phá dữ liệu, 'lift' trong luật kết hợp (association rule) được định nghĩa là gì?

6 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

6. Trong khai phá dữ liệu, việc sử dụng một tập dữ liệu lớn và đa dạng thường giúp cải thiện điều gì ở mô hình học máy?

7 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

7. Kỹ thuật nào sau đây được sử dụng để phân tích chuỗi thời gian (time series analysis) trong khai phá dữ liệu?

8 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

8. Trong khai phá dữ liệu, thuật ngữ 'overfitting' (quá khớp) mô tả hiện tượng gì?

9 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

9. Trong khai phá dữ liệu, kỹ thuật nào sau đây được sử dụng để dự đoán giá trị của một biến số dựa trên giá trị của các biến số khác?

10 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

10. Trong khai phá dữ liệu, thuật ngữ 'ensemble learning' (học tập hợp) đề cập đến phương pháp nào?

11 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

11. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để nhóm các khách hàng có hành vi mua hàng tương tự nhau?

12 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

12. Trong khai phá dữ liệu, thuật ngữ 'bias-variance tradeoff' (đánh đổi giữa độ chệch và phương sai) đề cập đến điều gì?

13 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

13. Trong khai phá dữ liệu, thuật ngữ 'outlier' (điểm ngoại lệ) được định nghĩa là gì?

14 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

14. Phương pháp nào sau đây được sử dụng để giảm thiểu overfitting trong mô hình học máy?

15 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

15. Thuật toán nào sau đây thường được sử dụng để phân cụm dữ liệu dựa trên khoảng cách giữa các điểm dữ liệu?

16 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

16. Kỹ thuật nào sau đây được sử dụng để chuyển đổi dữ liệu định tính (categorical data) thành dữ liệu định lượng (numerical data) để sử dụng trong các thuật toán khai phá dữ liệu?

17 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

17. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để giảm số lượng thuộc tính của dữ liệu, đồng thời giữ lại thông tin quan trọng nhất?

18 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

18. Phương pháp nào sau đây được sử dụng để giảm số lượng chiều dữ liệu trong khi vẫn giữ lại phần lớn thông tin quan trọng?

19 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

19. Thuật toán nào sau đây thường được sử dụng để tìm các tập mục phổ biến (frequent itemsets) trong khai phá dữ liệu?

20 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

20. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để tìm ra các mối quan hệ giữa các biến trong một tập dữ liệu?

21 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

21. Trong khai phá dữ liệu, 'precision' (độ chính xác) và 'recall' (độ phủ) là gì?

22 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

22. Phương pháp nào sau đây được sử dụng để đánh giá hiệu quả của một mô hình phân lớp trong khai phá dữ liệu?

23 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

23. Trong bối cảnh khai phá dữ liệu, thuật ngữ 'curse of dimensionality' (lời nguyền chiều dữ liệu) đề cập đến vấn đề gì?

24 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

24. Trong khai phá dữ liệu, 'support' của một tập hợp mục (itemset) được định nghĩa là gì?

25 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

25. Phương pháp nào sau đây được sử dụng để đánh giá mô hình hồi quy trong khai phá dữ liệu?

26 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

26. Thuật toán nào sau đây thường được sử dụng để xây dựng mô hình phân lớp dựa trên việc tìm đường biên phân chia tối ưu giữa các lớp?

27 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

27. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để tìm các mẫu (pattern) trong dữ liệu trình tự (sequential data), ví dụ như hành vi của khách hàng trên trang web?

28 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

28. Thuật toán nào sau đây thường được sử dụng để phân tích tình cảm (sentiment analysis) trong khai phá dữ liệu văn bản?

29 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

29. Kỹ thuật nào sau đây được sử dụng để xử lý dữ liệu bị thiếu trong quá trình tiền xử lý dữ liệu?

30 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

30. Kỹ thuật nào sau đây được sử dụng để khám phá các mối quan hệ giữa các thực thể và thuộc tính của chúng trong một cơ sở dữ liệu đồ thị (graph database)?