Meskipun ilmu data dan machine learning saling terkait, keduanya adalah bidang yang sangat berbeda. Singkatnya, ilmu data memberikan struktur pada big data, sementara machine learning berfokus pada pembelajaran dari data itu sendiri. Posting ini akan mempelajari lebih dalam tentang nuansa masing-masing bidang.
Buletin industri
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Langganan Anda akan disediakan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM® kami untuk informasi lebih lanjut.
Ilmu data adalah bidang multidisiplin luas yang mengekstrak nilai dari kumpulan data yang sangat besar saat ini. Ilmu ini menggunakan alat canggih untuk mengamati data mentah, menggabungkan kumpulan data, memprosesnya, dan mengembangkan insight untuk menciptakan makna. Area yang membentuk bidang ilmu data meliputi penggalian data, statistik, analisis data, pemodelan data, pemodelan machine learning dan pemrograman.
Pada akhirnya, ilmu data digunakan dalam mendefinisikan masalah bisnis baru yang kemudian dapat dipecahkan oleh machine learning dan analisis statistik. Ilmu data memecahkan masalah bisnis dengan memahami masalah, mengetahui data yang diperlukan, dan menganalisis data untuk membantu memecahkan masalah di dunia nyata.
Machine learning (ML) adalah bagian dari kecerdasan buatan (AI) yang berfokus pada pembelajaran dari apa yang dihasilkan oleh ilmu data. Ini membutuhkan alat ilmu data untuk membersihkan, mempersiapkan, dan menganalisis big data tidak terstruktur terlebih dahulu. Machine learning kemudian dapat “belajar” dari data untuk menciptakan insight yang meningkatkan kinerja atau menyampaikan prediksi.
Seperti halnya manusia yang dapat belajar melalui pengalaman dan tidak hanya mengikuti instruksi, mesin dapat belajar dengan menerapkan alat pada analisis data. Machine learning bekerja pada masalah yang diketahui dengan alat dan teknik, menciptakan algoritma yang memungkinkan mesin belajar dari data melalui pengalaman dan dengan intervensi manusia minimal. Sistem ini memproses data dalam jumlah besar yang tidak akan mampu dikerjakan oleh manusia seumur hidupnya dan terus berkembang seiring dengan semakin banyaknya data yang diproses.
Di sebagian besar perusahaan, menemukan, membersihkan, dan menyiapkan data yang tepat untuk dianalisis dapat menghabiskan hingga 80% waktu dalam satu hari seorang ilmuwan data. Meskipun membosankan, sangat penting untuk melakukannya dengan benar.
Data dari berbagai sumber, dikumpulkan dalam berbagai bentuk, memerlukan entri dan kompilasi data. Hal ini dapat dipermudah dengan adanya gudang data virtual yang memiliki platform terpusat di mana data dari berbagai sumber dapat disimpan.
Salah satu tantangan dalam menerapkan ilmu data adalah untuk mengidentifikasi masalah bisnis yang relevan. Misalnya, apakah masalahnya terkait dengan penurunan pendapatan atau kemacetan produksi? Apakah Anda mencari pola yang Anda curigai ada di sana, tetapi sulit dideteksi? Tantangan lainnya termasuk mengomunikasikan hasil kepada pemangku kepentingan nonteknis, memastikan keamanan data, memungkinkan kolaborasi yang efisien antara ilmuwan data dan insinyur data, dan menentukan metrik indikator kinerja utama (KPI) yang sesuai.
Dengan meningkatnya data dari media sosial, situs e-commerce, pencarian internet, survei pelanggan dan lain-lain, bidang studi baru berdasarkan big data muncul. Kumpulan data yang sangat besar tersebut, yang akan terus bertambah, memungkinkan organisasi untuk memantau pola dan perilaku pembelian dan membuat prediksi.
Namun, karena kumpulan data tidak terstruktur, hal ini dapat menjadi rumit dan memakan waktu dalam menginterpretasikan data untuk pengambilan keputusan. Di sinilah ilmu data berperan.
Istilah ilmu data pertama kali digunakan pada tahun 1960-an, dan saat itu istilah ini dapat dipertukarkan dengan istilah "ilmu komputer." "Ilmu data" pertama kali digunakan sebagai disiplin ilmu tersendiri pada tahun 2001. Baik ilmu data maupun machine learning digunakan oleh insinyur data dan di hampir setiap industri.
Kedua bidang ini telah berkembang sedemikian rupa sehingga untuk bekerja sebagai analis data yang mampu mengamati, mengelola, dan mengakses data, Anda perlu mempelajari Structured Query Language (SQL) serta matematika, statistik, visualisasi data (untuk menyajikan hasil kepada pemangku kepentingan), dan penggalian data. Penting juga untuk memahami teknik pembersihan dan pemrosesan data. Karena analis data sering membangun model machine learning, pemrograman dan pengetahuan AI juga berguna. serta matematika, statistik, visualisasi data (untuk menyajikan hasil kepada pemangku kepentingan), dan penggalian data. Penting juga untuk memahami teknik pembersihan dan pemrosesan data. Karena analis data sering membangun model machine learning, pemrograman dan pengetahuan AI juga berguna.
Ilmu data banyak digunakan dalam industri dan pemerintah, di mana ia membantu mendorong keuntungan, berinovasi dalam produk dan layanan, meningkatkan infrastruktur dan sistem publik, dan banyak lagi.
Beberapa contoh penggunaan ilmu data meliputi:
Awal machine learning, dan namanya sendiri, muncul pada 1950-an. Pada tahun 1950, ilmuwan data Alan Turing mengusulkan apa yang sekarang kita sebut Tes Turing yang mengajukan pertanyaan, "Dapatkah mesin berpikir?" Tes ini menguji apakah mesin dapat terlibat dalam percakapan tanpa manusia menyadari bahwa itu adalah mesin. Pada tingkat yang lebih luas, ia menanyakan apakah mesin dapat menunjukkan kecerdasan manusia. Hal ini mengarah pada teori dan pengembangan AI.
Ilmuwan komputer IBM Arthur Samuel menciptakan istilah "machine learning" pada tahun 1952. Dia menulis program bermain catur pada tahun yang sama. Pada tahun 1962, seorang master catur bermain melawan machine learning di komputer IBM 7094, dan komputer menang.
Kini, machine learning telah berkembang ke titik di mana para insinyur perlu mengetahui matematika terapan, pemrograman komputer, metode statistik, konsep probabilitas, struktur data, dan dasar-dasar ilmu komputer lainnya, dan alat big data seperti Hadoop dan Hive. Tidak perlu mengetahui SQL, karena program ditulis dalam R, Java, SAS, dan bahasa pemrograman lainnya. Python adalah bahasa pemrograman yang paling umum digunakan dalam machine learning.
Baik machine learning maupun pembelajaran mendalam merupakan bagian dari AI. Pembelajaran mendalam mengajarkan komputer untuk memproses data seperti yang dilakukan otak manusia. Pendekatan ini dapat mengenali pola yang kompleks dalam teks, gambar, suara, dan data lainnya serta menciptakan insight dan prediksi yang akurat. Algoritma pembelajaran mendalam adalah jaringan neural yang dibuat berdasarkan otak manusia.
Beberapa algoritma machine learning yang paling umum digunakan termasuk regresi linier, regresi logistik, struktur keputusan, algoritma Mesin Vektor Pendukung (SVM), algoritma Naïve Bayes, dan algoritma KNN. Semua algoritma ini dapat berupa pembelajaran diawasi, pembelajaran tanpa pengawasan, atau pembelajaran diperkuat/penguatan.
Insinyur machine learning dapat mengkhususkan diri dalam pemrosesan bahasa alami dan visi komputer, menjadi insinyur perangkat lunak yang berfokus pada machine learning, dan banyak lagi.
Ada beberapa masalah etika mengenai machine learning, seperti privasi dan penggunaan data. Data tidak terstruktur telah dikumpulkan dari situs media sosial tanpa sepengetahuan atau persetujuan pengguna. Meskipun perjanjian lisensi menjelaskan kemungkinan penggunaan data tersebut, banyak pengguna media sosial yang tidak membaca tulisan tersebut.
Masalah lainnya adalah kita tidak selalu tahu bagaimana algoritma machine learning bekerja dan "membuat keputusan". Salah satu solusi masalah mungkin dengan merilis program machine learning sebagai sumber terbuka, sehingga orang dapat memeriksa kode sumber.
Beberapa model machine learning telah menggunakan kumpulan data yang berisi data bias, yang akhir masuk dalam hasil machine learning. Akuntabilitas dalam machine learning mengacu pada seberapa banyak seseorang dapat melihat dan mengoreksi algoritme dan siapa yang bertanggung jawab jika ada masalah dengan hasilnya.
Sebagian orang khawatir bahwa AI dan machine learning akan menghilangkan berbagai pekerjaan. Meskipun dapat mengubah jenis pekerjaan yang tersedia, machine learning diharapkan dapat menciptakan posisi baru dan berbeda. Dalam banyak kasus, machine learning menangani pekerjaan rutin dan berulang, agar manusia dapat fokus pada pekerjaan yang membutuhkan lebih banyak kreativitas dan memiliki dampak yang lebih tinggi.
Berbagai perusahaan terkemuka menggunakan machine learning, termasuk platform media sosial, yang mengumpulkan sejumlah besar data dan kemudian menggunakan perilaku seseorang di masa lampau untuk meramalkan dan memprediksi minat dan keinginan mereka. Platform media sosial kemudian menggunakan informasi tersebut dan pemodelan prediktif untuk merekomendasikan produk, layanan, atau artikel yang relevan.
Perusahaan langganan video on-demand dan mesin rekomendasinya merupakan contoh lain dari penggunaan machine learning, seperti halnya perkembangan pesat mobil tanpa pengemudi. Contoh perusahaan lain yang menggunakan machine learning adalah perusahaan teknologi, platform komputasi cloud, perusahaan pakaian dan peralatan atletik, produsen kendaraan listrik, perusahaan penerbangan luar angkasa, dan banyak lagi.
Tentu saja ada tantangan dalam mempraktikkan ilmu data. Mungkin ada data yang terfragmentasi, kurangnya jumlah tenaga kerja yang terampil dalam ilmu data, dan tidak tersedianya pilihan alat, praktik, dan kerangka kerja yang memiliki standar TI ketat untuk pelatihan dan penerapan. Selain itu, mengoperasikan model ML yang memiliki akurasi yang tidak jelas dan prediksi yang sulit diaudit juga dapat menjadi tantangan.
Portofolio ilmu data dan siklus hidup AI IBM dibangun di atas komitmen kami yang telah lama ada terhadap teknologi sumber terbuka. Ini mencakup berbagai kemampuan yang memungkinkan perusahaan untuk membuka nilai data mereka dengan cara baru.
watsonx adalah portofolio produk AI yang mempercepat dampak AI generatif dalam alur kerja inti untuk mendorong produktivitas. Portofolio terdiri dari tiga komponen efektif: watsonx.ai studio untuk model dasar baru, AI generatif, dan machine learning; penyimpanan watsonx.data fit-for-purpose untuk fleksibilitas data lake dan kinerja gudang data; ditambah, toolkit watsonx.governance, untuk mengaktifkan alur kerja AI yang dibangun dengan tanggung jawab, transparansi, dan kemampuan menjelaskan.
Bersama-sama, watsonx menawarkan organisasi kemampuan untuk:
Gunakan alat dan solusi ilmu data untuk mengungkap pola dan menyusun prediksi dengan menggunakan data, algoritma, machine learning, dan teknik AI.
Memperkenalkan Cognos Analytics 12.0, wawasan yang didukung AI untuk pengambilan keputusan yang lebih baik.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.