Regresi linier dan logistik adalah salah satu model yang paling populer dalam ilmu data, dan alat bantu sumber terbuka, seperti Python dan R, membuat komputasi untuk kedua model ini menjadi cepat dan mudah.
Model regresi linier digunakan untuk mengidentifikasi hubungan antara suatu variabel terikat yang berkesinambungan dengan satu atau lebih variabel bebas. Ketika hanya ada satu variabel independen dan satu variabel dependen, ini dikenal sebagai regresi linier sederhana, tetapi ketika jumlah variabel independen meningkat, ini disebut sebagai regresi linier berganda. Untuk setiap jenis regresi linier, ia berupaya untuk memplot garis yang paling sesuai melalui serangkaian titik data, yang biasanya dihitung menggunakan metode kuadrat terkecil.
Layaknya regresi linier, regresi logistik juga digunakan untuk memperkirakan hubungan antara variabel dependen dan satu atau lebih variabel independen, tetapi digunakan untuk membuat prediksi tentang variabel kategori versus variabel kontinu. Variabel kategori bisa benar atau salah, ya atau tidak, 1 atau 0, dan sebagainya. Satuan pengukuran juga berbeda dengan regresi linier karena menghasilkan probabilitas, tetapi fungsi logit mengubah kurva S menjadi garis lurus.
Meskipun kedua model ini digunakan dalam analisis regresi untuk membuat prediksi tentang hasil di masa depan, regresi linier biasanya lebih mudah dipahami. Regresi linier juga tidak membutuhkan jumlah sampel yang besar karena regresi logistik membutuhkan sampel yang memadai untuk mewakili nilai di semua kategori respons. Tanpa sampel yang lebih besar dan representatif, model ini mungkin tidak memiliki kekuatan statistik yang memadai untuk mendeteksi efek yang signifikan.