Đề 6 - Đề thi, câu hỏi trắc nghiệm online Khoa học dữ liệu trong kinh tế và kinh doanh
1. Trong khoa học dữ liệu, thuật ngữ `regularization` (chuẩn hóa) thường được sử dụng để:
A. Tăng độ phức tạp của mô hình
B. Giảm overfitting bằng cách thêm một hình phạt vào các tham số của mô hình
C. Cải thiện tốc độ hội tụ của thuật toán
D. Chuẩn hóa dữ liệu đầu vào
2. Phương pháp nào sau đây được sử dụng để chuyển đổi dữ liệu định tính thành dữ liệu định lượng, giúp máy tính có thể xử lý được?
A. Feature scaling
B. One-hot encoding
C. Normalization
D. Standardization
3. Trong phân tích chuỗi thời gian, thành phần nào sau đây thể hiện sự biến động ngắn hạn và không đều đặn trong dữ liệu?
A. Xu hướng (Trend)
B. Tính mùa vụ (Seasonality)
C. Chu kỳ (Cycle)
D. Tính ngẫu nhiên (Irregularity)
4. Phương pháp nào sau đây được sử dụng để phân nhóm khách hàng dựa trên hành vi mua hàng của họ?
A. Phân tích hồi quy
B. Phân tích phương sai
C. Phân tích phân cụm
D. Phân tích chuỗi thời gian
5. Trong phân tích rủi ro tín dụng, mô hình nào sau đây thường được sử dụng để dự đoán khả năng vỡ nợ của khách hàng?
A. Mô hình ARIMA
B. Mô hình Logistic Regression
C. Mô hình K-means
D. Mô hình Support Vector Machine
6. Đâu là một ứng dụng của xử lý ngôn ngữ tự nhiên (NLP) trong lĩnh vực kinh doanh?
A. Dự đoán thời tiết
B. Phân tích tình cảm khách hàng từ các bình luận trực tuyến
C. Điều khiển robot
D. Thiết kế giao diện người dùng
7. Đâu là một thách thức chính khi làm việc với dữ liệu lớn (Big Data) trong kinh doanh?
A. Dung lượng dữ liệu quá nhỏ
B. Tốc độ xử lý dữ liệu quá nhanh
C. Độ phức tạp trong việc lưu trữ và xử lý dữ liệu
D. Thiếu công cụ phân tích dữ liệu
8. Trong khai thác dữ liệu, mục tiêu chính của `phân tích giỏ hàng` (market basket analysis) là gì?
A. Dự đoán giá cổ phiếu
B. Xác định các sản phẩm thường được mua cùng nhau
C. Phân tích tình cảm của khách hàng
D. Tối ưu hóa chuỗi cung ứng
9. Đâu là một lợi ích chính của việc sử dụng trực quan hóa dữ liệu trong kinh doanh?
A. Tăng độ phức tạp của dữ liệu
B. Giảm khả năng hiểu dữ liệu
C. Cải thiện việc giao tiếp và hiểu thông tin
D. Loại bỏ nhu cầu về phân tích thống kê
10. KPI (Key Performance Indicator) nào sau đây thường được sử dụng để đo lường hiệu quả của một chiến dịch marketing trực tuyến?
A. Tổng doanh thu
B. Chi phí sản xuất
C. Tỷ lệ chuyển đổi (Conversion Rate)
D. Số lượng nhân viên
11. Trong lĩnh vực thương mại điện tử, khoa học dữ liệu có thể được sử dụng để:
A. Dự đoán thời tiết
B. Đề xuất sản phẩm cho khách hàng dựa trên lịch sử mua hàng
C. Tối ưu hóa công thức nấu ăn
D. Thiết kế xe tự lái
12. Trong lĩnh vực kinh doanh, khoa học dữ liệu có thể được sử dụng để dự đoán nhu cầu của khách hàng, từ đó giúp các công ty quản lý hàng tồn kho hiệu quả hơn. Đây là một ví dụ về ứng dụng của:
A. Phân tích mô tả
B. Phân tích dự báo
C. Phân tích chẩn đoán
D. Phân tích quy định
13. Trong lĩnh vực khoa học dữ liệu, thuật ngữ `overfitting` đề cập đến vấn đề gì?
A. Mô hình hoạt động kém trên dữ liệu huấn luyện.
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
C. Mô hình quá đơn giản để nắm bắt các mối quan hệ trong dữ liệu.
D. Mô hình không thể hội tụ trong quá trình huấn luyện.
14. Đâu là một ứng dụng của khoa học dữ liệu trong quản lý nhân sự (HR)?
A. Dự đoán thời tiết
B. Phân tích hiệu suất làm việc của nhân viên và dự đoán tỷ lệ nghỉ việc
C. Tối ưu hóa công thức nấu ăn
D. Thiết kế xe tự lái
15. Trong phân tích chuỗi cung ứng, khoa học dữ liệu có thể được sử dụng để:
A. Tăng chi phí vận chuyển
B. Giảm thiểu rủi ro gián đoạn và tối ưu hóa quy trình
C. Giảm sự hợp tác giữa các nhà cung cấp
D. Tăng thời gian giao hàng
16. Trong học máy, thuật ngữ `cross-validation` (kiểm định chéo) đề cập đến:
A. Một phương pháp làm sạch dữ liệu
B. Một kỹ thuật giảm chiều dữ liệu
C. Một phương pháp đánh giá hiệu suất của mô hình trên dữ liệu mới
D. Một thuật toán phân cụm
17. Trong học máy, `precision` và `recall` là gì?
A. Hai phương pháp tiền xử lý dữ liệu
B. Hai loại thuật toán phân cụm
C. Hai độ đo đánh giá hiệu suất của mô hình phân loại
D. Hai kỹ thuật giảm chiều dữ liệu
18. Phương pháp nào sau đây thường được sử dụng để đánh giá mức độ quan trọng của các biến trong mô hình học máy?
A. Phân tích tương quan
B. Phân tích phương sai
C. Phân tích thành phần chính
D. Phân tích hồi quy
19. Mục tiêu chính của việc sử dụng thuật toán K-means trong phân tích cụm là gì?
A. Dự đoán giá trị của một biến mục tiêu
B. Phân loại dữ liệu vào các nhóm đã được xác định trước
C. Tìm các cụm dữ liệu có tính tương đồng cao
D. Giảm số chiều của dữ liệu
20. Ứng dụng nào sau đây của khoa học dữ liệu giúp các công ty xác định và ngăn chặn các giao dịch gian lận?
A. Phân tích dự báo
B. Phát hiện bất thường
C. Phân tích văn bản
D. Tối ưu hóa giá
21. Loại biểu đồ nào sau đây phù hợp nhất để so sánh doanh số bán hàng của nhiều sản phẩm khác nhau trong cùng một khoảng thời gian?
A. Biểu đồ đường
B. Biểu đồ tròn
C. Biểu đồ cột
D. Biểu đồ phân tán
22. Phương pháp nào sau đây thường được sử dụng để giảm số lượng biến đầu vào trong mô hình học máy, giúp mô hình đơn giản hơn và tránh overfitting?
A. Feature Engineering
B. Feature Selection
C. Cross-Validation
D. Regularization
23. Trong phân tích dữ liệu, `bias` (độ chệch) có nghĩa là gì?
A. Sự khác biệt giữa dữ liệu huấn luyện và dữ liệu kiểm tra
B. Sai sót hệ thống trong mô hình dự đoán, dẫn đến kết quả không chính xác
C. Số lượng dữ liệu bị thiếu trong tập dữ liệu
D. Phương pháp chuẩn hóa dữ liệu
24. Trong marketing, khoa học dữ liệu được sử dụng để phân tích hành vi khách hàng và cá nhân hóa trải nghiệm. Đây là một ví dụ về:
A. Phân tích mô tả
B. Phân tích dự báo
C. Phân tích quy định
D. Phân tích prescriptive
25. Thuật ngữ `feature engineering` trong khoa học dữ liệu đề cập đến:
A. Quá trình chọn các thuật toán học máy phù hợp nhất
B. Quá trình tạo ra các tính năng mới từ dữ liệu hiện có để cải thiện hiệu suất mô hình
C. Quá trình loại bỏ các giá trị ngoại lệ trong dữ liệu
D. Quá trình chuẩn hóa dữ liệu
26. Trong phân tích chuỗi thời gian, phương pháp ARIMA được sử dụng để:
A. Phân tích dữ liệu văn bản
B. Dự đoán các giá trị tương lai dựa trên các giá trị quá khứ
C. Phân cụm dữ liệu
D. Giảm số chiều của dữ liệu
27. Kỹ thuật nào sau đây giúp giảm số chiều của dữ liệu trong khi vẫn giữ lại được phần lớn thông tin quan trọng?
A. Feature scaling
B. One-hot encoding
C. Principal Component Analysis (PCA)
D. Data imputation
28. Khi đánh giá mô hình học máy, ROC (Receiver Operating Characteristic) curve được sử dụng để làm gì?
A. Đánh giá độ chính xác của mô hình hồi quy
B. Đánh giá hiệu suất của mô hình phân loại nhị phân ở các ngưỡng khác nhau
C. Đánh giá mức độ tương quan giữa các biến
D. Đánh giá sự phân bố của dữ liệu
29. Kỹ thuật nào sau đây được sử dụng để xử lý dữ liệu bị thiếu trong một tập dữ liệu?
A. Feature scaling
B. One-hot encoding
C. Imputation
D. Principal Component Analysis
30. Trong lĩnh vực tài chính, khoa học dữ liệu có thể được sử dụng để:
A. Dự đoán thời tiết
B. Phát hiện gian lận và quản lý rủi ro
C. Tối ưu hóa công thức nấu ăn
D. Thiết kế xe tự lái