Apa itu model autoregresif

Penyusun

Data Scientist

Apa itu model autoregresif?

Modeling autoregresif adalah teknik machine learning yang paling umum digunakan untuk analisis deret waktu dan forecasting yang menggunakan satu atau lebih nilai dari langkah waktu sebelumnya dalam deret waktu untuk membuat regresi.

Ini adalah teknik yang sederhana tetapi ampuh untuk analisis deret waktu yang memberikan prediksi yang sangat mudah ditafsirkan dan efektif jika data Anda mengandung korelasi di seluruh langkah waktu. Korelasi antar-langkah waktu disebut autokorelasi karena ini adalah ukuran seberapa besar suatu nilai berkorelasi dengan dirinya sendiri. Sebuah proses linier murni akan berautokorelasi sempurna dengan dirinya sendiri di seluruh deret waktu, sehingga memungkinkan untuk memprediksi nilai berikutnya dengan tepat dari nilai sebelumnya menggunakan proses autoregresif. Proses yang sepenuhnya stokastik seperti white noise tidak akan memiliki autokorelasi karena kita tidak dapat memprediksi nilai saat ini atau di masa depan dengan menggunakan nilai masa lalu.

Deret waktu adalah urutan pengukuran variabel atau kelompok variabel yang sama yang dibuat dari waktu ke waktu. Pengukuran biasanya dilakukan pada waktu yang berjarak sama, misalnya per jam, bulanan atau tahunan. Sebagai contoh, kita mungkin memiliki nilai yang mengukur jumlah penumpang maskapai penerbangan di suatu negara, dengan pengukuran yang diamati setiap bulan. Dalam hal ini, y mewakili jumlah penumpang yang diukur dan menekankan keberadaan nilai yang diukur dari waktu ke waktu. Nilai t digunakan sebagai subskrip dan bukannya i seperti biasanya untuk menunjukkan bahwa y_t mewakili nilai y pada waktu kapan pun.

Model autoregresif adalah ketika kita melakukan regresi nilai dari deret waktu pada nilai-nilai sebelumnya dari deret waktu yang sama. Sebagai contoh, y_t yang diregresikan pada y_t-1 menggunakan nilai y sebelumnya, yang disebut nilai lag, untuk memprediksi nilai y saat ini. Dalam model regresi sederhana ini, variabel dependen pada periode waktu sebelumnya telah menjadi prediktor. Kesalahan mewakili semua asumsi umum tentang kesalahan dalam model regresi linier sederhana. Kita sering melihat orde autoregresi sebagai jumlah nilai sebelumnya dalam deret yang digunakan untuk memprediksi nilai sekarang. Jadi, y_t yang diregresikan terhadap y_t-1 adalah autoregresi orde pertama, yang ditulis sebagai AR(1).

Definisi autoregresi

Dalam regresi linier berganda, output regresi adalah kombinasi linier dari beberapa variabel input. Dalam model autoregresi, outputnya adalah titik data di masa depan yang dinyatakan sebagai kombinasi linier dari p titik data di masa lalu. p adalah jumlah lag yang termasuk dalam persamaan. Model AR(1) didefinisikan secara matematis sebagai:

$x_{t} = δ + ϕ_{1} x_{t - 1} + α_{t}$

x_t-1 adalah nilai deret masa lalu dari satu lag back

ƒ adalah koefisien yang dihitung untuk lag itu

Alpha_t adalah white noise (seperti keacakan)

Delta didefinisikan sebagai

$δ = (1 - \sum_{p}^{i = 1} ϕ_{i}) μ$

untuk model autoregresif dengan orde p, di mana p adalah jumlah total kovariat yang dihitung untuk lag dan μ adalah rata-rata proses.

Ketika lebih banyak lag ditambahkan ke model, kami menambahkan lebih banyak koefisien dan variabel lag ke persamaan:

$x_{t} = δ + ϕ_{1} x_{t - 1} + ϕ_{2} x_{t - 2} + α_{t}$

Model sebelumnya adalah autoregresi orde kedua karena mengandung dua lag.

Bentuk umum dari persamaan autoregresif untuk orde p adalah

$x_{t} = δ + ϕ_{1} x_{t - 1} . . . ϕ_{p} x_{t - p} + α_{t}$

Untuk menggunakan model autoregresif untuk forecasting, kami menggunakan nilai waktu saat ini dan data historis apa pun untuk memprediksi langkah waktu berikutnya. Misalnya, model AR dengan 2 lag mungkin memprediksi satu langkah maju seperti ini:

$x_{t + 1} = δ + ϕ_{1} x_{t} + ϕ_{2} x_{t - 1} + α_{t + 1}$

Memperkirakan koefisien

Pendekatan yang paling umum untuk menghitung koefisien untuk setiap lag adalah estimasi kemungkinan maksimum (MLE) atau estimasi yang menggunakan kuadrat terkecil (OLS). Keterbatasan yang sama yang dimiliki oleh pendekatan-pendekatan ini ketika melakukan fitting regresi model linier juga ada ketika melakukan fitting model autoregresif. Tergantung pada apakah Anda menggunakan Python atau R dan perpustakaannya, Anda mungkin dapat menggunakan metode Yule-Walker atau Burg sebagai tambahan untuk MLE atau OLS.

Banyak pustaka memungkinkan pengguna untuk memilih kriteria mana yang akan digunakan saat memilih model dari semua model kandidat. Contohnya, Anda mungkin ingin menggunakan koefisien model untuk meminimalkan Kriteria Informasi Akaike atau Kriteria Informasi Bayesian, tergantung pada penggunaan Anda dan data.

Memilih urutan model AR

Autokorelasi menghitung korelasi antara deret waktu dan versi lag dari dirinya sendiri. Lag adalah jumlah unit waktu untuk menggeser deret waktu. Lag 1 membandingkan deret dengan satu langkah waktu sebelumnya. Lag 2 membandingkannya dengan langkah waktu sebelum yang itu. Tingkat autokorelasi pada lag tertentu menunjukkan ketergantungan temporal data. Ketika autokorelasi tinggi, ada hubungan yang kuat antara nilai saat ini dan nilai pada lag tersebut. Sementara itu, jika autokorelasi rendah atau mendekati nol, itu menunjukkan hubungan yang lemah atau tidak ada hubungan sama sekali.

Pendekatan umum untuk memvisualisasikan autokorelasi adalah dengan menghitung fungsi autokorelasi (ACF) atau plot ACF yang menampilkan koefisien autokorelasi pada lag yang berbeda.

Sumbu horizontal mewakili lag, dan sumbu vertikal mewakili nilai autokorelasi. Puncak atau pola yang signifikan dalam plot ACF dapat mengungkapkan struktur temporal yang mendasari data. Pemilihan orde lag (p) dalam model AR sering kali bergantung pada analisis plot ACF. Dalam model AR(p), nilai saat ini dari deret waktu dinyatakan sebagai kombinasi linier dari nilai p di masa lalu, dengan koefisien yang ditentukan melalui OLS atau MLE. Autokorelasi juga digunakan untuk menilai apakah deret waktu tidak bergerak. Untuk deret waktu yang stasioner, autokorelasi seharusnya secara bertahap menurun seiring dengan bertambahnya lag, tetapi jika plot ACF tidak menunjukkan penurunan, data mungkin mengandung nilai yang tidak stasioner. Anda dapat mempelajari lebih lanjut tentang autokorelasi di sini.

Buletin industri

Berita teknologi terbaru, didukung oleh insight dari pakar

Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.

Varian model autoregresif

Ada banyak variasi berbeda dari model deret waktu autoregresif standar yang mengatasi tantangan dan kekurangannya.

Model autoregresif vektor

Model statistik autoregresif biasa bekerja dengan kumpulan data univariat, yang berarti bahwa kumpulan data harus berisi satu nilai untuk setiap periode. Model autoregresif vektor (VAR) dikembangkan untuk memungkinkan autoregresi deret waktu multivariat. Mereka terstruktur sehingga setiap variabel adalah fungsi linier dari lag masa lalu itu sendiri dan lag masa lalu dari variabel lainnya. Bayangkan Anda memiliki deret waktu yang terdiri dari dua pengukuran yang berbeda, yaitu jumlah penerbangan pesawat bulanan dan jumlah perjalanan kereta api antarkota bulanan. Dalam model VAR, Anda dapat memprediksi nilai penggunaan keduanya dengan regresi untuk masing-masing yang menyertakan nilai lainnya. Dengan mengkodekan perjalanan kereta api sebagai X_r dan perjalanan pesawat sebagai X_a kita akan memiliki:

$x_{t, r} = α_{r} + ϕ_{11} x_{t - 1, a} + ϕ_{12} x_{t - 1, r} + ϵ_{t, r}$

$x_{t, a} = α_{a} + ϕ_{11} x_{t - 1, a} + ϕ_{12} x_{t - 1, r} + ϵ_{t, a}$

ARMA dan ARIMA

Model autoregresif biasa dapat mengalami kesulitan dengan deret waktu yang memiliki tren yang kuat. Dua variasi populer dari model autoregresif adalah model autoregresif moving average (ARMA) dan autoregresif integrated moving average (ARIMA). Variasi ini sangat berguna ketika data memiliki tren yang kuat. Pemodelan rata-rata bergerak adalah pendekatan lain untuk forecasting data deret waktu dan ARIMA mengintegrasikan kedua pendekatan ini, sesuai dengan namanya. Ada juga variasi pada model ARIMA. Salah satu ekstensi yang paling umum adalah vektor ARIMA (VARIMA), yang digunakan ketika data multivariat. Ekstensi umum lainnya adalah ARIMA musiman (SARIMA) ketika data berisi musiman yang kuat. Anda dapat membaca lebih lanjut tentang model ARIMA di sini.

Autoregresif conditional heteroscedasticity

Model autoregresif bekerja jauh lebih andal ketika data deret waktu diam dan varians di seluruh deret waktu tidak bervariasi. Seringkali data nonstasioner dibedakan waktu untuk menghilangkan perubahan varians dan kemudian menyesuaikan model AR. Terkadang, varians tersebut memiliki makna dan ilmuwan data ingin membiarkannya. Metode autoregresif conditional heteroscedasticity (ARCH) menyediakan cara untuk memodelkan perubahan varians dalam deret waktu yang bergantung pada waktu, seperti peningkatan atau penurunan volatilitas. Perluasan dari pendekatan ini, yang dikenal sebagai generalized autoregresif conditional heteroscedasticity (GARCH), memungkinkan metode ini untuk mendukung perubahan volatilitas yang bergantung pada waktu. Misalnya, peningkatan dan penurunan volatilitas dalam seri yang sama.

Ketika ada proses nonstokastik untuk perubahan varians deret waktu, autoregresif conditional heteroscedasticity atau algoritma ARCH dapat menggunakan teknik autoregresif untuk memodelkan dan memprediksi perubahan volatilitas kumpulan data. Model autoregresif reguler tidak memodelkan perubahan varians di seluruh kumpulan data. Karena itu, seorang ilmuwan data mungkin menggunakan transformasi box-cox untuk mengurangi varians dalam kumpulan data. Namun, jika perubahan varians berkorelasi dengan autokorelasi, maka pendekatan ARCH pada pemodelan dapat memberikan prediksi kapan suatu proses mulai berubah. Pendekatan ini dikenal sebagai forecasting volatilitas dan biasa digunakan dalam ekonometrika dan analisis keuangan. Misalnya, ketika mengolah data harga saham, minat dapat meluas dari sekadar memodelkan potensi harga hingga forecasting saat harga saham mulai berubah secara dramatis.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Aplikasi autoregresi lainnya

Meskipun model autoregresif umumnya dikaitkan dengan data deret waktu, aplikasi pemodelan lain dimungkinkan dengan berbagai jenis data.

Pemrosesan bahasa alami

Teknik pemodelan autoregresif menghasilkan kemungkinan urutan token, misalnya untuk menyarankan kemungkinan huruf atau kata berikutnya dalam teks prediktif. Model bahasa autoregresif menghitung kemungkinan setiap token yang mungkin diberikan token sebelumnya dalam string. Dengan rantai “the mouse ate the”, sebuah model yang telah melihat sejumlah kalimat bahasa Inggris yang masuk akal mungkin akan memberikan probabilitas yang lebih tinggi untuk “cheese” daripada “homework”. Probabilitas ini diberikan melalui proses autoregresif yang menggunakan semua token sebelumnya dalam rantai untuk memberikan probabilitas pada setiap token dalam model bahasa.

Data spasial

Aplikasi yang berbeda dari prinsip autoregresif adalah dengan menggunakan lokasi nilai sebagai sebuah urutan dan meregresikan semua lokasi yang relevan pada lokasi yang diminati. Sebagai contoh, kita mungkin menduga bahwa jarak dari pabrik mempengaruhi pembacaan kualitas udara. Model autoregresif akan menggunakan pembacaan dari lokasi lain sebagai nilai lag dan jarak dari pabrik sebagai lag.

Empat langkah menuju perkiraan bisnis yang lebih baik dengan analitik

Gunakan kekuatan intelijen bisnis dan analitik untuk merencanakan, memperkirakan, dan menciptakan hasil di masa depan yang memberikan manfaat optimal bagi perusahaan dan pelanggan Anda.

Apa itu model autoregresif?

Penyusun