Trong 4-5 năm qua, có khá nhiều sự gia tăng mạnh mẽ trọng việc lưu trữ data. Cơ quan/chính phủ các doanh nghiệp/tổ chức nghiên cứu cũng đang thực hiện thụ thập dữ liệu khá chi tiết.

Ví dụ : Các công ty thương mại điện tử đang nắm bắt thêm thông tin chi tiết về khách hàng như nhân khẩu học của họ, lịch sử crawl web, những gì họ thích hay không thích, lịch sử mua hàng, thông tin phản hồi và nhiều thứ khác để cung cấp cho họ sự quan tâm cá nhân hơn.
Dữ liệu bao gồm khá nhiều tính năng, điều này có vẻ tốt cho việc xây dựng một mô hình ổn điịnh vững chắc nhưng thực sự rất thách thức. Làm cách nào bạn có thể xác định các biến có độ quan trọng cao trong khoảng 1000 – 2000 biến ? Trong các trường hợp này, thuật toán Dimensionality Reduction Algorithms sẽ hỗ trợ chúng ta kết hợp với các thuật toán khác như Decision Tree, Random Forest, PCA, Factor Analysis, Identify based on correlation matrix, missing value ratio v.v.v….
ref: https://www.analyticsvidhya.com/blog/2015/07/dimension-reduction-methods/