Diterbitkan: 24 Mei 2024
Kontributor: Joshua Noble, Eda Kavlakoglu
Autokorelasi menyediakan analisis data untuk data deret waktu dan pemodelan. Ini banyak digunakan dalam ekonometrik, pemrosesan sinyal dan prediksi permintaan.
Autokorelasi, atau korelasi serial, menganalisis data deret waktu untuk mencari korelasi nilai pada titik-titik yang berbeda dalam deret waktu. Metode analisis utama ini mengukur bagaimana suatu nilai berkorelasi dengan dirinya sendiri. Alih-alih menghitung koefisien korelasi antara variabel yang berbeda, seperti X1 dan dan X2, kami menghitung tingkat korelasi variabel itu sendiri pada langkah-langkah waktu di seluruh kumpulan data. Ketika membangun model regresi linier, salah satu asumsi utama adalah bahwa kesalahan dalam memprediksi variabel independen dalam model tersebut adalah independen. Sering kali, ketika bekerja dengan data deret waktu, Anda akan menemukan kesalahan yang bergantung pada waktu. Itu adalah ketergantungan dalam kesalahan muncul karena komponen temporal. Istilah kesalahan yang berkorelasi dari waktu ke waktu disebut kesalahan yang berkorelasi otomatis. Kesalahan ini menyebabkan masalah pada beberapa cara yang lebih umum untuk membuat regression linier seperti kuadrat terkecil biasa. Cara untuk mengatasinya adalah dengan meregresikan variabel dependen terhadap dirinya sendiri menggunakan jeda waktu yang diidentifikasi oleh uji autokorelasi. 'Lag 'hanyalah nilai sebelumnya dari variabel dependen. Jika Anda memiliki data bulanan dan ingin memprediksi bulan yang akan datang, Anda dapat menggunakan nilai dari dua bulan sebelumnya sebagai input. Ini berarti bahwa Anda mengalami kemunduran dua kelambatan sebelumnya pada nilai saat ini.
Sama halnya dengan korelasi yang mengukur hubungan linear antara dua variabel, autokorelasi mengukur hubungan antara nilai-nilai yang tertinggal dari deret waktu melalui model linear. Ketika data memiliki tren, autokorelasi untuk lag kecil cenderung besar dan positif karena pengamatan yang berdekatan dalam waktu juga berdekatan dalam nilai. Jadi Fungsi Autokorelasi, sering disebut ACF, dari deret waktu yang sedang tren cenderung memiliki nilai positif yang perlahan-lahan menurun seiring dengan bertambahnya kelambatan.
Ketika data memiliki fluktuasi atau pola musiman, autokorelasi akan lebih besar untuk kelambatan musiman (pada kelipatan periode musiman) daripada kelambatan lainnya. Ketika data tren dan musiman, Anda melihat kombinasi dari efek ini. Deret waktu yang tidak menunjukkan autokorelasi adalah proses yang benar-benar acak dan disebut white noise. ACF adalah koefisien korelasi antara dua nilai dalam deret waktu.
Ada beberapa cara utama untuk menguji autokorelasi:
Anda dapat menghitung residu dan memplot kesalahan standar tersebut pada waktu t, biasanya ditulis sebagai et, terhadap t. Setiap cluster residu yang berada di satu sisi garis nol dapat menunjukkan di mana ada autokorelasi dan signifikan.
Menjalankan pengujian Durbin-Watson dapat membantu mengidentifikasi apakah deret waktu berisi autokorelasi. Untuk melakukan ini di R, buat regresi linier yang memundurkan variabel dependen pada waktu dan kemudian lewati model itu untuk menghitung statistik Durbin-Watson. Untuk melakukan ini di Python, Anda dapat meneruskan residu dari model regresi linier yang sesuai ke pengujian.
Pilihan lain adalah menggunakan Ljung Box Test dan meneruskan nilai-nilai deret waktu langsung ke tes. Uji Ljung-Box memiliki Hipotesis Nol bahwa residual terdistribusi secara independen dan Hipotesis Alternatif bahwa residual tidak terdistribusi secara independen dan menunjukkan adanya autokorelasi. Ini berarti dalam praktiknya bahwa hasil yang lebih kecil dari 0,05 menunjukkan bahwa autokorelasi ada dalam deret waktu. Baik pustaka Python maupun R menyediakan metode untuk menjalankan pengujian ini.
Opsi yang paling umum adalah menggunakan visualisasi correlogram yang dihasilkan dari korelasi antara jeda tertentu dalam deret waktu. Pola dalam hasil adalah indikasi untuk autokorelasi. Ini diplot dengan menunjukkan seberapa banyak korelasi kelambatan yang berbeda sepanjang deret waktu berkorelasi. Contoh plot ditunjukkan di bawah ini:
Data non-acak memiliki setidaknya satu lag yang signifikan. Ketika data tidak acak, ini merupakan indikasi yang baik bahwa Anda perlu menggunakan analisis deret waktu atau memasukkan kelambatan ke dalam analisis regression untuk memodelkan data dengan tepat.
Ada fitur mendasar dari deret waktu yang dapat diidentifikasi melalui autokorelasi.
Deret waktu stasioner memiliki sifat statistik yang konstan dari waktu ke waktu. Ini berarti bahwa statistik seperti rata-rata, varians dan autokorelasi, tidak berubah atas data. Sebagian besar metode peramalan statistik, termasuk ARMA dan ARIMA, didasarkan pada asumsi bahwa deret waktu dapat dibuat mendekati stasioner melalui satu atau beberapa transformasi. Deret stasioner relatif mudah diprediksi karena Anda dapat dengan mudah memprediksi bahwa sifat statistik akan sama di masa depan seperti di masa lalu. Stasioneritas berarti bahwa deret waktu tidak memiliki tren, memiliki varians yang konstan, pola autokorelasi yang konstan, dan tidak ada pola musiman. ACF menurun mendekati nol dengan cepat untuk deret waktu stasioner. Sebaliknya, ACF turun secara perlahan untuk deret waktu non-stasioner.
Fitur utama dari data deret waktu adalah apakah tren hadir dalam data. Misalnya, harga bahan pokok di toko kelontong selama 50 tahun terakhir akan menunjukkan tren karena inflasi akan mendorong harga-harga tersebut lebih tinggi. Memprediksi data yang berisi tren bisa sulit karena tren mengaburkan pola lain dalam data. Jika data memiliki garis tren yang stabil dan kembali secara konsisten, maka data tersebut mungkin bersifat trend-stasioner, dalam hal ini tren dapat dihilangkan hanya dengan menyesuaikan garis tren dan mengurangi tren dari data sebelum menyesuaikan model. Jika data tidak stasioner terhadap tren, maka data tersebut mungkin stasioner terhadap perbedaan, dalam hal ini tren dapat dihilangkan dengan melakukan diferensiasi. Cara paling sederhana untuk melakukan diferensiasi adalah dengan mengurangi nilai sebelumnya dari setiap nilai untuk mendapatkan ukuran seberapa besar perubahan yang ada dalam data deret waktu. Jadi misalnya, jika Yt adalah nilai deret waktu Y pada periode t, maka selisih pertama Y pada periode t sama dengan Yt- Yt-1. Ketika tren hadir dalam deret waktu, lag yang lebih pendek biasanya memiliki korelasi positif yang kuat atau nilai korelasi negatif yang kuat dalam ACF karena pengamatan yang lebih dekat dalam waktu cenderung memiliki nilai yang sama. Korelasi dalam ACF akan berkurang perlahan saat kelambatan meningkat.
Musiman adalah ketika deret waktu berisi fluktuasi atau perubahan musiman. Kita mungkin harus mengharapkan penjualan es krim lebih tinggi di bulan-bulan musim panas dan lebih rendah di bulan-bulan musim dingin, penjualan ski mungkin akan melonjak di akhir musim gugur dan menurun di awal musim panas. Musiman dapat datang dalam interval waktu yang berbeda seperti hari, minggu atau bulan. Kunci dari analisis deret waktu adalah memahami bagaimana musim mempengaruhi deret kita, sehingga kita dapat menghasilkan prakiraan yang lebih baik untuk masa depan. Ketika terdapat pola musiman, nilai ACF akan menunjukkan lebih banyak autokorelasi positif untuk kelambatan pada kelipatan frekuensi musiman daripada kelambatan lainnya.
Pelajari tentang hambatan adopsi AI, terutama kurangnya tata kelola AI dan solusi manajemen risiko.
Daftar untuk mendapatkan panduan tentang model dasar
Fungsi Autokorelasi Parsial, sering disebut PACF, mirip dengan ACF kecuali bahwa ia hanya menampilkan korelasi antara dua pengamatan yang tidak dijelaskan oleh jeda yang lebih pendek di antara pengamatan tersebut. Plot ACF menunjukkan hubungan antara yt dan yt−k untuk nilai k yang berbeda. Bila yt dan yt−1 saling berkorelasi, maka kita dapat berasumsi bahwa yt−1 dan yt−2 juga akan berkorelasi karena keduanya terhubung oleh lag 1. Akan tetapi, ada kemungkinan pula bagi yt dan yt−2 untuk berkorelasi hanya karena keduanya terhubung dengan yt−1, dan bukan karena terdapat informasi baru dalam yt−2 yang dapat digunakan dalam peramalan yt. Untuk mengatasi masalah ini, kami menggunakan autokorelasi parsial untuk menghilangkan sejumlah pengamatan jeda. PACF hanya mengukur hubungan antara yt dan yt−k dengan menghilangkan efek jeda 1 hingga k. Autokorelasi parsial pertama selalu identik dengan autokorelasi pertama karena tidak ada data baru di antara keduanya yang harus dihapus. Semua jeda berikutnya hanya akan memperlihatkan hubungan antar jeda setelah menghilangkan semua jeda di antaranya. Hal ini kerap kali dapat memberikan estimasi yang lebih tepat tentang kelambatan mana yang mungkin mengandung indikasi musiman dengan mengamati bagian mana yang memiliki nilai autokorelasi positif atau negatif yang lebih besar.
Dalam praktiknya, ACF membantu menilai sifat-sifat deret waktu. PACF di sisi lain lebih berguna selama proses spesifikasi untuk model autoregresif. Ilmuwan data atau analis akan menggunakan plot autokorelasi parsial untuk menentukan model regression dengan data deret waktu, model Auto Regressive Moving Average (ARMA) atau Auto Regressive Integrated Moving Average (ARIMA).
Buat dan nilai model Autoregression menggunakan R di watsonx.ai.
Membuat dan menilai model ARIMA menggunakan Python di watsonx.ai.
Pelajari model Autoregressive Integrated Moving Average (ARIMA) untuk analisis dan peramalan deret waktu.