Modeling autoregresif adalah teknik machine learning yang paling umum digunakan untuk analisis deret waktu dan forecasting yang menggunakan satu atau lebih nilai dari langkah waktu sebelumnya dalam deret waktu untuk membuat regresi.
Ini adalah teknik yang sederhana tetapi ampuh untuk analisis deret waktu yang memberikan prediksi yang sangat mudah ditafsirkan dan efektif jika data Anda mengandung korelasi di seluruh langkah waktu. Korelasi antar-langkah waktu disebut autokorelasi karena ini adalah ukuran seberapa besar suatu nilai berkorelasi dengan dirinya sendiri. Sebuah proses linier murni akan berautokorelasi sempurna dengan dirinya sendiri di seluruh deret waktu, sehingga memungkinkan untuk memprediksi nilai berikutnya dengan tepat dari nilai sebelumnya menggunakan proses autoregresif. Proses yang sepenuhnya stokastik seperti white noise tidak akan memiliki autokorelasi karena kita tidak dapat memprediksi nilai saat ini atau di masa depan dengan menggunakan nilai masa lalu.
Deret waktu adalah urutan pengukuran variabel atau kelompok variabel yang sama yang dibuat dari waktu ke waktu. Pengukuran biasanya dilakukan pada waktu yang berjarak sama, misalnya per jam, bulanan atau tahunan. Sebagai contoh, kita mungkin memiliki nilai yang mengukur jumlah penumpang maskapai penerbangan di suatu negara, dengan pengukuran yang diamati setiap bulan. Dalam hal ini, y mewakili jumlah penumpang yang diukur dan menekankan keberadaan nilai yang diukur dari waktu ke waktu. Nilai t digunakan sebagai subskrip dan bukannya i seperti biasanya untuk menunjukkan bahwa yt mewakili nilai y pada waktu kapan pun.
Model autoregresif adalah ketika kita melakukan regresi nilai dari deret waktu pada nilai-nilai sebelumnya dari deret waktu yang sama. Sebagai contoh, yt yang diregresikan pada yt-1 menggunakan nilai y sebelumnya, yang disebut nilai lag, untuk memprediksi nilai y saat ini. Dalam model regresi sederhana ini, variabel dependen pada periode waktu sebelumnya telah menjadi prediktor. Kesalahan mewakili semua asumsi umum tentang kesalahan dalam model regresi linier sederhana. Kita sering melihat orde autoregresi sebagai jumlah nilai sebelumnya dalam deret yang digunakan untuk memprediksi nilai sekarang. Jadi, yt yang diregresikan terhadap yt-1 adalah autoregresi orde pertama, yang ditulis sebagai AR(1).
Dalam regresi linier berganda, output regresi adalah kombinasi linier dari beberapa variabel input. Dalam model autoregresi, outputnya adalah titik data di masa depan yang dinyatakan sebagai kombinasi linier dari p titik data di masa lalu. p adalah jumlah lag yang termasuk dalam persamaan. Model AR(1) didefinisikan secara matematis sebagai:
xt-1 adalah nilai deret masa lalu dari satu lag back
ƒ adalah koefisien yang dihitung untuk lag itu
Alphat adalah white noise (seperti keacakan)
Delta didefinisikan sebagai
untuk model autoregresif dengan orde p, di mana p adalah jumlah total kovariat yang dihitung untuk lag dan μ adalah rata-rata proses.
Ketika lebih banyak lag ditambahkan ke model, kami menambahkan lebih banyak koefisien dan variabel lag ke persamaan:
Model sebelumnya adalah autoregresi orde kedua karena mengandung dua lag.
Bentuk umum dari persamaan autoregresif untuk orde p adalah
Untuk menggunakan model autoregresif untuk forecasting, kami menggunakan nilai waktu saat ini dan data historis apa pun untuk memprediksi langkah waktu berikutnya. Misalnya, model AR dengan 2 lag mungkin memprediksi satu langkah maju seperti ini:
Pendekatan yang paling umum untuk menghitung koefisien untuk setiap lag adalah estimasi kemungkinan maksimum (MLE) atau estimasi yang menggunakan kuadrat terkecil (OLS). Keterbatasan yang sama yang dimiliki oleh pendekatan-pendekatan ini ketika melakukan fitting regresi model linier juga ada ketika melakukan fitting model autoregresif. Tergantung pada apakah Anda menggunakan Python atau R dan perpustakaannya, Anda mungkin dapat menggunakan metode Yule-Walker atau Burg sebagai tambahan untuk MLE atau OLS.
Banyak pustaka memungkinkan pengguna untuk memilih kriteria mana yang akan digunakan saat memilih model dari semua model kandidat. Contohnya, Anda mungkin ingin menggunakan koefisien model untuk meminimalkan Kriteria Informasi Akaike atau Kriteria Informasi Bayesian, tergantung pada penggunaan Anda dan data.
Autokorelasi menghitung korelasi antara deret waktu dan versi lag dari dirinya sendiri. Lag adalah jumlah unit waktu untuk menggeser deret waktu. Lag 1 membandingkan deret dengan satu langkah waktu sebelumnya. Lag 2 membandingkannya dengan langkah waktu sebelum yang itu. Tingkat autokorelasi pada lag tertentu menunjukkan ketergantungan temporal data. Ketika autokorelasi tinggi, ada hubungan yang kuat antara nilai saat ini dan nilai pada lag tersebut. Sementara itu, jika autokorelasi rendah atau mendekati nol, itu menunjukkan hubungan yang lemah atau tidak ada hubungan sama sekali.
Pendekatan umum untuk memvisualisasikan autokorelasi adalah dengan menghitung fungsi autokorelasi (ACF) atau plot ACF yang menampilkan koefisien autokorelasi pada lag yang berbeda.
Sumbu horizontal mewakili lag, dan sumbu vertikal mewakili nilai autokorelasi. Puncak atau pola yang signifikan dalam plot ACF dapat mengungkapkan struktur temporal yang mendasari data. Pemilihan orde lag (p) dalam model AR sering kali bergantung pada analisis plot ACF. Dalam model AR(p), nilai saat ini dari deret waktu dinyatakan sebagai kombinasi linier dari nilai p di masa lalu, dengan koefisien yang ditentukan melalui OLS atau MLE. Autokorelasi juga digunakan untuk menilai apakah deret waktu tidak bergerak. Untuk deret waktu yang stasioner, autokorelasi seharusnya secara bertahap menurun seiring dengan bertambahnya lag, tetapi jika plot ACF tidak menunjukkan penurunan, data mungkin mengandung nilai yang tidak stasioner. Anda dapat mempelajari lebih lanjut tentang autokorelasi di sini.
Ada banyak variasi berbeda dari model deret waktu autoregresif standar yang mengatasi tantangan dan kekurangannya.
Model statistik autoregresif biasa bekerja dengan kumpulan data univariat, yang berarti bahwa kumpulan data harus berisi satu nilai untuk setiap periode. Model autoregresif vektor (VAR) dikembangkan untuk memungkinkan autoregresi deret waktu multivariat. Mereka terstruktur sehingga setiap variabel adalah fungsi linier dari lag masa lalu itu sendiri dan lag masa lalu dari variabel lainnya. Bayangkan Anda memiliki deret waktu yang terdiri dari dua pengukuran yang berbeda, yaitu jumlah penerbangan pesawat bulanan dan jumlah perjalanan kereta api antarkota bulanan. Dalam model VAR, Anda dapat memprediksi nilai penggunaan keduanya dengan regresi untuk masing-masing yang menyertakan nilai lainnya. Dengan mengkodekan perjalanan kereta api sebagai Xr dan perjalanan pesawat sebagai Xa kita akan memiliki:
Model autoregresif biasa dapat mengalami kesulitan dengan deret waktu yang memiliki tren yang kuat. Dua variasi populer dari model autoregresif adalah model autoregresif moving average (ARMA) dan autoregresif integrated moving average (ARIMA). Variasi ini sangat berguna ketika data memiliki tren yang kuat. Pemodelan rata-rata bergerak adalah pendekatan lain untuk forecasting data deret waktu dan ARIMA mengintegrasikan kedua pendekatan ini, sesuai dengan namanya. Ada juga variasi pada model ARIMA. Salah satu ekstensi yang paling umum adalah vektor ARIMA (VARIMA), yang digunakan ketika data multivariat. Ekstensi umum lainnya adalah ARIMA musiman (SARIMA) ketika data berisi musiman yang kuat. Anda dapat membaca lebih lanjut tentang model ARIMA di sini.
Model autoregresif bekerja jauh lebih andal ketika data deret waktu diam dan varians di seluruh deret waktu tidak bervariasi. Seringkali data nonstasioner dibedakan waktu untuk menghilangkan perubahan varians dan kemudian menyesuaikan model AR. Terkadang, varians tersebut memiliki makna dan ilmuwan data ingin membiarkannya. Metode autoregresif conditional heteroscedasticity (ARCH) menyediakan cara untuk memodelkan perubahan varians dalam deret waktu yang bergantung pada waktu, seperti peningkatan atau penurunan volatilitas. Perluasan dari pendekatan ini, yang dikenal sebagai generalized autoregresif conditional heteroscedasticity (GARCH), memungkinkan metode ini untuk mendukung perubahan volatilitas yang bergantung pada waktu. Misalnya, peningkatan dan penurunan volatilitas dalam seri yang sama.
Ketika ada proses nonstokastik untuk perubahan varians deret waktu, autoregresif conditional heteroscedasticity atau algoritma ARCH dapat menggunakan teknik autoregresif untuk memodelkan dan memprediksi perubahan volatilitas kumpulan data. Model autoregresif reguler tidak memodelkan perubahan varians di seluruh kumpulan data. Karena itu, seorang ilmuwan data mungkin menggunakan transformasi box-cox untuk mengurangi varians dalam kumpulan data. Namun, jika perubahan varians berkorelasi dengan autokorelasi, maka pendekatan ARCH pada pemodelan dapat memberikan prediksi kapan suatu proses mulai berubah. Pendekatan ini dikenal sebagai forecasting volatilitas dan biasa digunakan dalam ekonometrika dan analisis keuangan. Misalnya, ketika mengolah data harga saham, minat dapat meluas dari sekadar memodelkan potensi harga hingga forecasting saat harga saham mulai berubah secara dramatis.
Teknik pemodelan autoregresif menghasilkan kemungkinan urutan token, misalnya untuk menyarankan kemungkinan huruf atau kata berikutnya dalam teks prediktif. Model bahasa autoregresif menghitung kemungkinan setiap token yang mungkin diberikan token sebelumnya dalam string. Dengan rantai “the mouse ate the”, sebuah model yang telah melihat sejumlah kalimat bahasa Inggris yang masuk akal mungkin akan memberikan probabilitas yang lebih tinggi untuk “cheese” daripada “homework”. Probabilitas ini diberikan melalui proses autoregresif yang menggunakan semua token sebelumnya dalam rantai untuk memberikan probabilitas pada setiap token dalam model bahasa.
Aplikasi yang berbeda dari prinsip autoregresif adalah dengan menggunakan lokasi nilai sebagai sebuah urutan dan meregresikan semua lokasi yang relevan pada lokasi yang diminati. Sebagai contoh, kita mungkin menduga bahwa jarak dari pabrik mempengaruhi pembacaan kualitas udara. Model autoregresif akan menggunakan pembacaan dari lokasi lain sebagai nilai lag dan jarak dari pabrik sebagai lag.
Dapatkan insight unik tentang lingkungan solusi ABI yang terus berkembang, dengan menyoroti temuan utama, asumsi, dan rekomendasi bagi para pemimpin data dan analitik.
Sederhanakan akses data dan otomatiskan tata kelola data. Temukan kekuatan mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, termasuk mengoptimalkan biaya beban kerja Anda dan menskalakan AI dan analitik dengan semua data Anda, di mana saja.
Jelajahi panduan pemimpin data untuk membangun organisasi berbasis data dan mendorong keunggulan bisnis.
Pelajari bagaimana pendekatan data lakehouse terbuka dapat memberikan data yang dapat dipercaya dan analitik serta eksekusi proyek AI yang lebih cepat.
Hubungkan strategi data dan analitik Anda dengan tujuan bisnis menggunakan 4 langkah utama ini.
Lihat lebih dalam alasan tantangan intelijen bisnis tetap ada dan maknanya bagi pengguna di seluruh organisasi.
Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.
Memperkenalkan Cognos Analytics 12.0, wawasan yang didukung AI untuk pengambilan keputusan yang lebih baik.