Algorithms-by-meme-02: Logistic Regression – hồi quy logit

Đây là một sự phân loại, không phải là một thuật toán hồi quy. Nó được sử dụng để đánh giá ước tính các giá trị rời rạc (các giá trị nhị phân) dựa trên tập hợp các biến độc lập. Một cách đơn giản, nó dự đoán xác suất xảy ra của một sử kiện bằng việc khớp dữ liệu với một hàm logit. Do đó, nó còn được gọi là hồi quy logit. Và cũng vì lý do vậy, nó dự đoán xác suất, output của nó luôn nằm giữa 0 và 1.

Một ví dụ đơn giản, với một bài toán/câu hỏi được đưa ra – chỉ có 2 kịch bản: bạn trả lời đúng/sai.

Thử tưởng tượng, bạn được cho một list các câu quizz để đánh giá xem bạn phù hợp với dạng quizz nào dựa trên số câu trả lời đúng, list quizz các câu hỏi toán lớp 1 bạn có xác suất trả lời đúng là 90%, list quizz các câu hỏi lịch sử lớp 5, xác suất trả lời đúng của bạn chỉ là 12% → bạn học dốt sử

Quay trở về với toán, các tỷ lệ log kết quả được mô hình hóa bằng sự kết hợp tuyến tính của các biến dự đoán.

odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk

Ở trên, p là xác suất của các sự hiện diện của các đặc tính cần quan tâm. Nó chọn các param có thể tối đa hóa sự chuẩn xác của các giá trị mẫu hơn là việc giảm thiểu bình phương lỗi (giảm thiểu bình phương lỗi là cách tiếp cận của hồi qui thông thường)

Tại sao phải log ? – việc log là một trong số những cách tốt nhất của toán học để mô phỏng lại một step function.

ref: https://viblo.asia/p/logistic-regression-bai-toan-co-ban-trong-machine-learning-924lJ4rzKPM

Leave a reply:

Your email address will not be published.

Site Footer