1. Ứng dụng nào sau đây là một ví dụ về việc sử dụng Big Data trong lĩnh vực y tế?
A. Quản lý hồ sơ bệnh nhân bằng Excel.
B. Phân tích dữ liệu bệnh án để dự đoán dịch bệnh và cải thiện phương pháp điều trị.
C. Sử dụng phần mềm chỉnh sửa ảnh để phân tích ảnh chụp X-quang.
D. Gửi email quảng cáo thuốc.
2. Data warehouse là gì?
A. Một loại cơ sở dữ liệu NoSQL.
B. Một kho lưu trữ dữ liệu được thiết kế để hỗ trợ phân tích và báo cáo, thường chứa dữ liệu đã được làm sạch và chuyển đổi.
C. Một công cụ để thu thập dữ liệu.
D. Một phương pháp mã hóa dữ liệu.
3. Một trong những thách thức về bảo mật dữ liệu lớn là gì?
A. Dữ liệu lớn quá lớn để bị đánh cắp.
B. Dữ liệu lớn không quan trọng.
C. Việc bảo vệ dữ liệu nhạy cảm trong các tập dữ liệu lớn và phân tán.
D. Không có công cụ bảo mật cho dữ liệu lớn.
4. Giá trị (Value) trong Big Data thể hiện điều gì?
A. Số lượng các công cụ và công nghệ được sử dụng để xử lý dữ liệu.
B. Khả năng tạo ra thông tin hữu ích và giá trị kinh doanh từ dữ liệu.
C. Tốc độ truy cập dữ liệu.
D. Độ phức tạp của các thuật toán phân tích dữ liệu.
5. ETL (Extract, Transform, Load) là gì?
A. Một ngôn ngữ lập trình.
B. Một quy trình tích hợp dữ liệu từ nhiều nguồn khác nhau vào một kho dữ liệu duy nhất.
C. Một công cụ trực quan hóa dữ liệu.
D. Một giao thức mạng.
6. Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop?
A. Java.
B. Python.
C. SQL.
D. Hive.
7. NoSQL là gì?
A. Một hệ thống quản lý cơ sở dữ liệu quan hệ.
B. Một loại ngôn ngữ truy vấn dữ liệu.
C. Một hệ thống quản lý cơ sở dữ liệu không quan hệ, phù hợp với dữ liệu lớn và phi cấu trúc.
D. Một công cụ trực quan hóa dữ liệu.
8. Thuật ngữ `Variety` trong Big Data liên quan đến khía cạnh nào?
A. Độ tin cậy và chính xác của dữ liệu.
B. Sự đa dạng của các loại dữ liệu khác nhau (có cấu trúc, phi cấu trúc, bán cấu trúc).
C. Tốc độ phân tích dữ liệu.
D. Khả năng mở rộng của hệ thống lưu trữ dữ liệu.
9. MapReduce là gì?
A. Một giao thức mạng.
B. Một mô hình lập trình để xử lý song song dữ liệu lớn.
C. Một hệ điều hành.
D. Một loại bộ vi xử lý.
10. Trong bối cảnh Big Data, thuật ngữ `data wrangling` (hoặc `data munging`) đề cập đến điều gì?
A. Quá trình thu thập dữ liệu từ các nguồn khác nhau.
B. Quá trình làm sạch, chuyển đổi và chuẩn bị dữ liệu để phân tích.
C. Quá trình lưu trữ dữ liệu.
D. Quá trình bảo mật dữ liệu.
11. Data governance là gì?
A. Một phương pháp để mã hóa dữ liệu.
B. Một tập hợp các chính sách và quy trình để đảm bảo chất lượng, bảo mật và tuân thủ của dữ liệu.
C. Một công cụ để trực quan hóa dữ liệu.
D. Một ngôn ngữ lập trình.
12. Data lake là gì?
A. Một loại cơ sở dữ liệu quan hệ.
B. Một kho lưu trữ dữ liệu lớn, cho phép lưu trữ dữ liệu ở định dạng gốc của nó cho đến khi cần thiết.
C. Một công cụ trực quan hóa dữ liệu.
D. Một ngôn ngữ lập trình.
13. Data virtualization là gì?
A. Một phương pháp để tạo ra các bản sao ảo của dữ liệu.
B. Một công nghệ cho phép truy cập và tích hợp dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển dữ liệu.
C. Một công cụ để làm sạch dữ liệu.
D. Một phương pháp để nén dữ liệu.
14. Yếu tố `Velocity` trong Big Data mô tả điều gì?
A. Độ chính xác của các thuật toán phân tích dữ liệu.
B. Tốc độ mà dữ liệu được tạo ra và xử lý.
C. Sự biến động của dữ liệu theo thời gian.
D. Mức độ tin cậy của nguồn dữ liệu.
15. Trong lĩnh vực tài chính, Big Data được sử dụng để làm gì?
A. Để tạo ra các báo cáo tài chính bằng tay.
B. Để phát hiện gian lận, đánh giá rủi ro tín dụng và cá nhân hóa dịch vụ khách hàng.
C. Để in hóa đơn cho khách hàng.
D. Để quản lý tiền mặt trong ngân hàng.
16. Thách thức lớn nhất khi làm việc với Big Data là gì?
A. Thiếu phần cứng để lưu trữ dữ liệu.
B. Khó khăn trong việc thu thập dữ liệu.
C. Sự phức tạp trong việc quản lý, xử lý và phân tích dữ liệu lớn một cách hiệu quả.
D. Thiếu nhân viên để nhập dữ liệu.
17. Trong ngữ cảnh Big Data, đặc điểm `Volume` đề cập đến điều gì?
A. Số lượng nguồn dữ liệu khác nhau được tích hợp.
B. Sự không chắc chắn của dữ liệu, bao gồm tính không nhất quán và mơ hồ.
C. Tốc độ tạo ra và xử lý dữ liệu.
D. Khối lượng dữ liệu khổng lồ được tạo ra và lưu trữ.
18. Trong Big Data, `Veracity` đề cập đến khía cạnh nào của dữ liệu?
A. Tính bảo mật của dữ liệu.
B. Tính đa dạng của dữ liệu.
C. Tính xác thực và độ tin cậy của dữ liệu.
D. Tính khả biến của dữ liệu.
19. Data mining là gì?
A. Quá trình thu thập dữ liệu.
B. Quá trình làm sạch dữ liệu.
C. Quá trình khám phá các mẫu và thông tin hữu ích từ dữ liệu lớn.
D. Quá trình lưu trữ dữ liệu.
20. Sự khác biệt chính giữa Data Lake và Data Warehouse là gì?
A. Data Lake chỉ lưu trữ dữ liệu có cấu trúc, trong khi Data Warehouse lưu trữ mọi loại dữ liệu.
B. Data Lake lưu trữ dữ liệu ở định dạng gốc, trong khi Data Warehouse lưu trữ dữ liệu đã được chuyển đổi và làm sạch.
C. Data Lake chỉ được sử dụng cho phân tích thời gian thực, trong khi Data Warehouse được sử dụng cho báo cáo lịch sử.
D. Data Lake dễ sử dụng hơn Data Warehouse.
21. Trong Big Data, thuật ngữ `schema-on-read` có nghĩa là gì?
A. Cấu trúc dữ liệu phải được xác định trước khi dữ liệu được lưu trữ.
B. Cấu trúc dữ liệu được xác định khi dữ liệu được truy vấn hoặc phân tích.
C. Dữ liệu phải được đọc tuần tự.
D. Dữ liệu phải được mã hóa trước khi đọc.
22. Khi nào nên sử dụng Data Lake thay vì Data Warehouse?
A. Khi bạn cần dữ liệu đã được làm sạch và chuyển đổi cho báo cáo có cấu trúc.
B. Khi bạn có nhiều loại dữ liệu khác nhau (có cấu trúc, bán cấu trúc, phi cấu trúc) và muốn khám phá các mẫu và thông tin mới.
C. Khi bạn cần truy vấn dữ liệu nhanh chóng.
D. Khi bạn muốn tiết kiệm chi phí lưu trữ.
23. Ví dụ nào sau đây là một loại cơ sở dữ liệu NoSQL?
A. MySQL.
B. PostgreSQL.
C. MongoDB.
D. Microsoft SQL Server.
24. Spark là gì?
A. Một hệ thống quản lý cơ sở dữ liệu.
B. Một framework xử lý dữ liệu lớn nhanh chóng và đa năng.
C. Một ngôn ngữ lập trình.
D. Một hệ điều hành.
25. Công nghệ nào sau đây thường được sử dụng để lưu trữ và xử lý dữ liệu lớn phân tán?
A. Microsoft Excel.
B. Hadoop.
C. Microsoft Access.
D. Adobe Photoshop.
26. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu lớn?
A. Microsoft Word.
B. Microsoft PowerPoint.
C. Tableau.
D. Microsoft Paint.
27. Ưu điểm chính của việc sử dụng Spark so với MapReduce là gì?
A. Spark hỗ trợ nhiều ngôn ngữ lập trình hơn.
B. Spark có thể xử lý dữ liệu trong bộ nhớ, giúp tăng tốc độ xử lý.
C. Spark có khả năng mở rộng tốt hơn.
D. Spark dễ sử dụng hơn.
28. Trong lĩnh vực bán lẻ, Big Data được sử dụng để làm gì?
A. Để sắp xếp hàng hóa trong kho.
B. Để dự đoán nhu cầu của khách hàng, tối ưu hóa chuỗi cung ứng và cá nhân hóa trải nghiệm mua sắm.
C. Để in mã vạch cho sản phẩm.
D. Để quản lý nhân viên bán hàng.
29. Machine learning được sử dụng trong Big Data để làm gì?
A. Để lưu trữ dữ liệu.
B. Để trực quan hóa dữ liệu.
C. Để tự động hóa quá trình phân tích và dự đoán từ dữ liệu.
D. Để làm sạch dữ liệu.
30. HDFS (Hadoop Distributed File System) là gì?
A. Một ngôn ngữ truy vấn dữ liệu.
B. Một hệ thống quản lý cơ sở dữ liệu quan hệ.
C. Một hệ thống tệp phân tán được thiết kế để lưu trữ dữ liệu lớn.
D. Một công cụ trực quan hóa dữ liệu.