Regresi Linear Menggunakan Least Square Error (LSE)

Jose Sitanggang
4 min readOct 18, 2019

--

Memahami bagaimana LSE dapat digunakan untuk mententukan nilai dari intercept dan gradient dari suatu model linear dengan menggunakan sampel data.

Secara singkat regresi linear merupakan sebuah metode untuk menemukan sebuah model yang mendefinisikan hubungan variabel terikat Y dengan satu atau lebih variabel bebas X berdasarkan data sampel. Model yang dimaksud adalah sebuah persamaan linear, model ini digunakan untuk melakukan prediksi terhadap data baru yang belum pernah diobservasi.

Persiapan Data

Sebagai contoh, data yang digunakan pada kesempatan ini adalah sebuah data yang dibangkitkan secara random. Namun tetap menjaga ada hubungan antara variable X dan Y agar regresi dapat dilakukan.

Nilai X dan Y hasil random

Model Linear

Model linear yang akan dicari merupakan sebuah persamaan linear yang menggambarkan hubungan variabel terikat Y dengan variabel bebas X. Berikut adalah definisi model linear yang digunakan pada kesempatan ini.

Dengan x adalah data contoh, b adalah intercept dan m adalah gradient dari model linear h(x). Namun, nilai dari b dan m belum diketahui, sehingga perlu dicari dulu agar model dapat melakukan prediksi.

Menetukan Nilai Intercept dan Gradient Menggunakan Metode LSE

Least Square Error (LSE) merupakan suatu metode yang digunakan untuk menemukan estimasi parameter yang sesuai dengan fungsi. Parameter yang dimaksud adalah b dan m.

Metode ini bekerja dengan menghitung total error pada setiap data contoh, error adalah selisih antara nilai dari variabel terkait Y dengan nilai h(x) hasil dari prediksi model.

sumber: https://en.wikipedia.org/wiki/Deming_regression

Garis merah pada gambar diatas menunjukkan besar error yang diperoleh untuk tiap pasangan titik (x, y) di data contoh. Secara umum total error dapat dinyatakan sebagai berikut:

dengan n merupakan banyak pasangan titik (x, y) didalam data contoh.

Nilai error yang semakin kecil menandakan semakin baik model yang digunakan untuk mendekati nilai Y sebenarnya. Dengan demikian untuk menperoleh error yang minimum digunakan konsep kalkulus yaitu turunan pertama dari suatu fungsi f(x) terhadap x harus sama dengan nol. Jika dikaitkan dengan fungsi E maka turunan pertama dari fungsi E terhadap parameter m dan b harus sama dengan nol. Kenapa terhadap parameter b dan m? karena variabel peubah pada fungsi E adalah parameter m dan b yang akan dicari nilainya.

Berikut merupakan proses matematis untuk menentukan nilai m dan b dengan menggunakan konsep turunan.

Dengan menggunkan cara yang sama namun fungsi E diturunkan terhadap parameter m, maka diperoleh nilai m :

dengan mensubsitusi nilai b, diperoleh:

dengan menggunakan nilai X, Y, mean X, dan mean Y dapat ditentukan nilai m, kemudian dengan nilai m dapat ditentukan nilai dari b.

Evaluasi Hasil Regresi Menggunakan R2 Score

R2 score merupakan ukuran yang menyatakan seberapa baik prediksi regresi mendekati data sebenarnya. Semakin dekat nilai score dengan 1 menunjukkan semakin cocok hasil prediksi regresi dengan data sebenarnya.

Impelementasi dengan Python

Untuk melihat implementasi menggunakan Python dapat dilihat di Google Colaboratory berikut.

--

--

No responses yet