1. Trong học máy, mục tiêu của việc sử dụng `dropout` là gì?
A. Tăng tốc độ huấn luyện mô hình.
B. Ngăn chặn overfitting bằng cách loại bỏ ngẫu nhiên một số nơ-ron trong quá trình huấn luyện.
C. Chuẩn hóa dữ liệu đầu vào.
D. Giảm số lượng chiều dữ liệu.
2. Trong học máy, `early stopping` (dừng sớm) là gì?
A. Một kỹ thuật để tăng tốc độ huấn luyện mô hình.
B. Một phương pháp để chuẩn hóa dữ liệu đầu vào.
C. Một kỹ thuật để ngăn chặn overfitting bằng cách dừng quá trình huấn luyện khi hiệu suất trên tập kiểm tra không còn cải thiện.
D. Một phương pháp để giảm số lượng chiều dữ liệu.
3. Kỹ thuật nào sau đây thường được sử dụng để xử lý dữ liệu không cân bằng (imbalanced data)?
A. Oversampling
B. Undersampling
C. Sử dụng các thuật toán nhạy cảm với dữ liệu không cân bằng
D. Tất cả các phương án trên
4. Phương pháp nào sau đây thuộc về học không giám sát (unsupervised learning)?
A. Hồi quy tuyến tính (Linear Regression)
B. Phân loại bằng SVM (SVM Classification)
C. Phân cụm K-means (K-means Clustering)
D. Cây quyết định (Decision Tree)
5. Recurrent Neural Network (RNN) phù hợp nhất cho loại dữ liệu nào?
A. Dữ liệu dạng bảng
B. Dữ liệu hình ảnh
C. Dữ liệu chuỗi thời gian
D. Dữ liệu văn bản rời rạc
6. Trong học máy, `bias` (độ lệch) đề cập đến điều gì?
A. Mức độ mà mô hình nhạy cảm với các thay đổi nhỏ trong dữ liệu huấn luyện.
B. Sai sót do mô hình đưa ra các giả định quá đơn giản về dữ liệu.
C. Sai sót do dữ liệu huấn luyện không đủ lớn.
D. Sai sót do quá trình huấn luyện mô hình bị gián đoạn.
7. Trong học máy, `precision` (độ chính xác) được định nghĩa là gì?
A. Tỷ lệ các trường hợp dự đoán dương tính đúng trên tổng số các trường hợp thực tế là dương tính.
B. Tỷ lệ các trường hợp dự đoán dương tính đúng trên tổng số các trường hợp được dự đoán là dương tính.
C. Tỷ lệ các trường hợp dự đoán âm tính đúng trên tổng số các trường hợp thực tế là âm tính.
D. Tỷ lệ các trường hợp dự đoán sai trên tổng số các trường hợp.
8. Kỹ thuật nào sau đây được sử dụng để giảm độ phức tạp của mô hình và tránh overfitting?
A. Regularization
B. Data augmentation
C. Feature engineering
D. Data normalization
9. Trong học máy, kỹ thuật `boosting` hoạt động bằng cách nào?
A. Huấn luyện song song nhiều mô hình độc lập và kết hợp kết quả của chúng.
B. Huấn luyện tuần tự các mô hình, trong đó mỗi mô hình tập trung vào việc sửa các lỗi của mô hình trước đó.
C. Lựa chọn ngẫu nhiên một tập hợp con các đặc trưng để huấn luyện mỗi mô hình.
D. Chia dữ liệu thành nhiều phần nhỏ và huấn luyện một mô hình riêng biệt trên mỗi phần.
10. Mục tiêu chính của việc sử dụng hàm kích hoạt (activation function) trong mạng nơ-ron là gì?
A. Giới thiệu tính phi tuyến vào mô hình
B. Chuẩn hóa dữ liệu đầu vào
C. Tăng tốc độ huấn luyện mô hình
D. Giảm số lượng tham số của mô hình
11. Kỹ thuật nào sau đây được sử dụng để giảm phương sai (variance) của mô hình?
A. Bagging
B. Boosting
C. Regularization
D. Feature selection
12. Trong học máy, `transfer learning` (học chuyển giao) là gì?
A. Quá trình chuyển đổi dữ liệu từ định dạng này sang định dạng khác.
B. Quá trình sử dụng kiến thức đã học từ một tác vụ để giải quyết một tác vụ khác liên quan.
C. Quá trình chuyển đổi mô hình từ ngôn ngữ lập trình này sang ngôn ngữ lập trình khác.
D. Quá trình chuyển đổi dữ liệu từ nguồn này sang nguồn khác.
13. Trong học máy, `overfitting` xảy ra khi nào?
A. Mô hình quá đơn giản và không thể nắm bắt được các mối quan hệ phức tạp trong dữ liệu.
B. Mô hình học quá kỹ trên dữ liệu huấn luyện, dẫn đến hiệu suất kém trên dữ liệu mới.
C. Dữ liệu huấn luyện không đủ lớn để mô hình học được các đặc trưng quan trọng.
D. Quá trình huấn luyện mô hình bị gián đoạn do thiếu tài nguyên tính toán.
14. Phương pháp nào sau đây giúp giảm thiểu overfitting trong mô hình học máy?
A. Tăng kích thước dữ liệu huấn luyện (Increase training data size)
B. Giảm số lượng đặc trưng (Reduce the number of features)
C. Sử dụng kỹ thuật регуляризация (Regularization techniques)
D. Tất cả các phương án trên
15. Trong học máy, kỹ thuật `cross-validation` (kiểm định chéo) được sử dụng để làm gì?
A. Đánh giá hiệu suất của mô hình trên dữ liệu chưa thấy.
B. Tăng kích thước dữ liệu huấn luyện.
C. Giảm số lượng đặc trưng.
D. Tìm giá trị tối ưu cho các tham số của mô hình.
16. Trong học máy, `recall` (độ phủ) được định nghĩa là gì?
A. Tỷ lệ các trường hợp dự đoán dương tính đúng trên tổng số các trường hợp được dự đoán là dương tính.
B. Tỷ lệ các trường hợp dự đoán dương tính đúng trên tổng số các trường hợp thực tế là dương tính.
C. Tỷ lệ các trường hợp dự đoán âm tính đúng trên tổng số các trường hợp thực tế là âm tính.
D. Tỷ lệ các trường hợp dự đoán sai trên tổng số các trường hợp.
17. Trong học máy, `feature engineering` (kỹ thuật đặc trưng) là gì?
A. Quá trình lựa chọn các đặc trưng quan trọng nhất từ dữ liệu.
B. Quá trình tạo ra các đặc trưng mới từ các đặc trưng hiện có.
C. Quá trình chuẩn hóa dữ liệu đầu vào.
D. Quá trình giảm số lượng chiều dữ liệu.
18. Trong ngữ cảnh của Support Vector Machines (SVM), Kernel trick dùng để làm gì?
A. Tăng tốc độ tính toán trong quá trình huấn luyện.
B. Chuyển đổi dữ liệu đầu vào sang một không gian chiều cao hơn để tìm một siêu phẳng phân tách tuyến tính.
C. Giảm số lượng vector hỗ trợ cần thiết.
D. Cải thiện khả năng trực quan hóa dữ liệu.
19. Trong học máy, `ensemble learning` (học ансамбль) là gì?
A. Quá trình kết hợp nhiều mô hình học máy để cải thiện hiệu suất tổng thể.
B. Quá trình lựa chọn các đặc trưng quan trọng nhất từ dữ liệu.
C. Quá trình chuẩn hóa dữ liệu đầu vào.
D. Quá trình giảm số lượng chiều dữ liệu.
20. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) thường được sử dụng cho loại tác vụ nào?
A. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP)
B. Nhận dạng ảnh (Image Recognition)
C. Dự đoán chuỗi thời gian (Time Series Forecasting)
D. Phân cụm dữ liệu (Data Clustering)
21. Thuật toán nào sau đây thuộc về học bán giám sát (semi-supervised learning)?
A. Hồi quy logistic (Logistic Regression)
B. Máy vector hỗ trợ (Support Vector Machine - SVM)
C. lan truyền nhãn (Label Propagation)
D. Cây quyết định (Decision Tree)
22. Trong học máy, phương pháp nào thường được sử dụng để giảm số lượng chiều dữ liệu trong khi vẫn giữ lại thông tin quan trọng nhất?
A. Chuẩn hóa dữ liệu (Data normalization)
B. Phân tích thành phần chính (Principal Component Analysis - PCA)
C. Tăng cường dữ liệu (Data augmentation)
D. Rời rạc hóa dữ liệu (Data discretization)
23. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu (missing data)?
A. Loại bỏ các hàng chứa giá trị bị thiếu.
B. Điền giá trị trung bình hoặc trung vị vào các giá trị bị thiếu.
C. Sử dụng các thuật toán học máy để dự đoán các giá trị bị thiếu.
D. Tất cả các phương án trên.
24. Hàm mất mát (loss function) được sử dụng để làm gì trong quá trình huấn luyện mô hình học máy?
A. Đo lường sự khác biệt giữa dự đoán của mô hình và giá trị thực tế.
B. Chuẩn hóa dữ liệu đầu vào.
C. Giảm số lượng chiều dữ liệu.
D. Tăng tốc độ huấn luyện mô hình.
25. Phương pháp nào sau đây thường được sử dụng để tìm các tham số tối ưu cho mô hình học máy?
A. Grid Search
B. Random Search
C. Bayesian Optimization
D. Tất cả các phương án trên
26. Độ đo nào thường được sử dụng để đánh giá hiệu suất của mô hình phân loại?
A. Mean Squared Error (MSE)
B. R-squared
C. Accuracy
D. Root Mean Squared Error (RMSE)
27. Thuật toán học máy nào thường được sử dụng để dự đoán giá trị liên tục, ví dụ như dự đoán giá nhà?
A. Hồi quy tuyến tính (Linear Regression)
B. Phân cụm K-means (K-means Clustering)
C. Máy vector hỗ trợ (Support Vector Machine - SVM) cho phân loại
D. Cây quyết định (Decision Tree) cho phân loại
28. Phương pháp nào sau đây thường được sử dụng để đánh giá hiệu suất của mô hình phân cụm?
A. Accuracy
B. Precision
C. Silhouette Score
D. Recall
29. Trong học máy tăng cường (Reinforcement Learning), `reward function` (hàm thưởng) được sử dụng để làm gì?
A. Đánh giá hiệu suất của mô hình.
B. Cung cấp phản hồi cho agent về hành động của nó.
C. Chuẩn hóa dữ liệu đầu vào.
D. Giảm số lượng chiều dữ liệu.
30. Gradient Descent (hạ gradient) là gì trong học máy?
A. Một thuật toán để tìm giá trị nhỏ nhất của hàm mất mát (loss function).
B. Một phương pháp để chuẩn hóa dữ liệu đầu vào.
C. Một kỹ thuật để giảm số lượng chiều dữ liệu.
D. Một thuật toán để đánh giá hiệu suất của mô hình.