Ilmu data menggabungkan matematika dan statistika, pemrograman khusus, analitik tingkat lanjut, kecerdasan buatan (AI), dan machine learning dengan keahlian bidang tertentu untuk mengungkap insight yang dapat ditindaklanjuti, yang tersembunyi dalam data organisasi. Insight ini dapat digunakan untuk memandu pengambilan keputusan dan perencanaan strategis.
Volume sumber data yang makin meningkat dan kemudian datanya, telah menjadikan ilmu data sebagai salah satu bidang yang paling cepat berkembang di setiap industri. Akibatnya, tidak mengherankan bahwa peran ilmuwan data dijuluki "pekerjaan paling seksi abad ke-21" oleh Harvard Business Review. Organisasi makin bergantung pada mereka untuk menginterpretasikan data dan memberikan rekomendasi yang dapat ditindaklanjuti untuk meningkatkan hasil bisnis.
Siklus hidup data science melibatkan berbagai peran, alat, dan proses, yang memungkinkan analis memperoleh insight yang dapat ditindaklanjuti. Biasanya, proyek data science melewati tahapan berikut:
Ilmuwan data adalah pakar dalam mengekstrak insight dan jawaban khusus industri dari data. Mereka memiliki keterampilan ilmu komputer dan sains murni yang melampaui keterampilan analis bisnis atau analis data pada umumnya, serta pemahaman yang mendalam tentang industri atau disiplin bisnis tempat mereka bekerja (seperti manufaktur mobil, eCommerce, atau perawatan kesehatan).
Seorang ilmuwan data harus mampu:
Keterampilan ini sangat diminati, dan sebagai hasilnya, banyak individu yang mencoba masuk ke karier ilmu data, menjelajahi berbagai program ilmu data, seperti program sertifikasi, kursus ilmu data, dan program gelar yang ditawarkan oleh lembaga pendidikan.
Ilmuwan data tidak selalu bertanggung jawab langsung atas semua proses yang terlibat dalam siklus hidup ilmu data. Sebagai contoh, saluran data biasanya ditangani oleh insinyur data, tetapi ilmuwan data dapat memberikan rekomendasi tentang jenis data apa yang berguna atau diperlukan. Meskipun para ilmuwan data dapat membangun model machine learning, meningkatkan upaya ini pada tingkat yang lebih besar membutuhkan lebih banyak keterampilan rekayasa perangkat lunak untuk mengoptimalkan program agar dapat berjalan lebih cepat. Akibatnya, ilmuwan data biasanya bermitra dengan insinyur machine learning untuk meningkatkan model machine learning.
Tanggung jawab ilmuwan data biasanya dapat tumpang tindih dengan analis data, terutama dengan analisis data eksplorasi dan visualisasi data. Namun, keahlian ilmuwan data biasanya lebih luas daripada analis data rata-rata. Sebagai perbandingan, ilmuwan data memanfaatkan bahasa pemrograman umum, seperti R dan Python, untuk melakukan lebih banyak inferensi statistik dan visualisasi data.
Mungkin mudah untuk mengacaukan istilah "data science" dan "intelijen bisnis" (BI) karena keduanya berhubungan dengan data organisasi dan analisis data tersebut, tetapi keduanya memiliki fokus yang berbeda.
Intelijen bisnis (BI) biasanya merupakan istilah umum untuk teknologi yang memungkinkan persiapan data, penggalian data, manajemen data, dan visualisasi data. Alat dan proses intelijen bisnis memungkinkan pengguna akhir untuk mengidentifikasi informasi yang dapat ditindaklanjuti dari data mentah, memfasilitasi pengambilan keputusan berbasis data dalam organisasi di berbagai industri. Meskipun alat bantu data science tumpang tindih dalam banyak hal, intelijen bisnis lebih berfokus pada data dari masa lalu, dan insight dari alat bantu BI lebih bersifat deskriptif. BI menggunakan data untuk memahami apa yang terjadi sebelumnya untuk menginformasikan tindakan. BI diarahkan pada data statis (tidak berubah) yang biasanya terstruktur. Meskipun ilmu data menggunakan data deskriptif, biasanya ilmu data menggunakannya untuk menentukan variabel prediktif, yang kemudian digunakan untuk mengkategorikan data atau membuat perkiraan.
Ilmu data dan BI bekerja berdampingan, organisasi yang cerdas di bidang digital menggunakan keduanya untuk sepenuhnya memahami dan mengekstrak nilai dari data mereka.
Ilmuwan data mengandalkan bahasa pemrograman populer untuk melakukan analisis data eksploratif dan regresi statistik. Alat sumber terbuka ini mendukung pemodelan statistik yang dibangun sebelumnya, machine learning, dan kemampuan grafis. Semua bahasa ini termasuk yang berikut (baca lebih lanjut di "Python vs R: Apa Bedanya?"):
Untuk memfasilitasi berbagi kode dan informasi lainnya, data scientist dapat menggunakan GitHub dan Jupyter notebook.
Beberapa data scientist mungkin lebih memilih antarmuka pengguna, dan dua alat perusahaan umum untuk analisis statistik meliputi:
Data scientist juga mendapatkan kemahiran dalam menggunakan platform pemrosesan big data, seperti Apache Spark, kerangka kerja sumber terbuka Apache Hadoop, dan basis data NoSQL. Mereka juga terampil menggunakan berbagai alat visualisasi data, termasuk alat grafik sederhana yang disertakan dengan presentasi bisnis dan aplikasi spreadsheet (seperti Microsoft Excel), alat visualisasi komersial yang dibuat khusus untuk tujuan tertentu seperti Tableau dan IBM Cognos, dan alat sumber terbuka seperti D3.js (perpustakaan JavaScript untuk membuat visualisasi data interaktif) dan RAW Graphs. Untuk membangun model machine learning, data scientist sering kali menggunakan beberapa kerangka kerja seperti PyTorch, TensorFlow, MXNet, dan Spark MLib.
Mengingat kurva pembelajaran yang curam dalam data science, banyak perusahaan berupaya mempercepat laba atas investasi mereka untuk proyek AI; mereka sering kali kesulitan mendapatkan talenta yang dibutuhkan untuk mewujudkan potensi penuh proyek data science. Untuk mengatasi kesenjangan ini, mereka beralih ke platform data science multipersona dan machine learning (DSML), sehingga memunculkan peran “data scientist masyarakat.”
Platform DSML Multipersona menggunakan otomatisasi, portal layanan mandiri, dan antarmuka pengguna kode-rendah/tanpa kode sehingga orang-orang yang memiliki sedikit atau tanpa latar belakang dalam teknologi digital atau ahli data science dapat menciptakan nilai bisnis menggunakan data science dan machine learning. Platform ini juga mendukung ahli data scientist dengan juga menawarkan antarmuka yang lebih teknis. Menggunakan platform DSML multipersona mendorong kolaborasi di seluruh perusahaan.
Komputasi awan menskalakan ilmu data dengan menyediakan akses ke kekuatan pemrosesan tambahan, penyimpanan, dan alat lain yang diperlukan untuk proyek ilmu data.
Karena ilmu data sering kali memanfaatkan kumpulan data yang besar, alat yang dapat meningkatkan sesuai ukuran data menjadi sangat penting, terutama untuk proyek berbatas waktu. Solusi penyimpanan cloud, seperti data lake, menyediakan akses ke infrastruktur penyimpanan yang mampu menyerap dan memproses data dalam jumlah besar dengan mudah. Sistem penyimpanan ini memberikan fleksibilitas kepada pengguna akhir, sehingga mereka dapat memulai klaster besar sesuai kebutuhan. Mereka juga dapat menambahkan node komputasi tambahan untuk mempercepat pekerjaan pemrosesan data, sehingga bisnis dapat melakukan penyeimbangan jangka pendek untuk hasil jangka panjang yang lebih besar. Platform cloud biasanya memiliki model harga berbeda, seperti per penggunaan atau langganan, untuk memenuhi kebutuhan pengguna akhir mereka, baik untuk perusahaan besar maupun perusahaan rintisan kecil.
Teknologi sumber terbuka banyak digunakan dalam kumpulan alat ilmu data. Saat dihosting di cloud, tim tidak perlu menginstal, mengonfigurasi, memelihara, atau memperbaruinya secara setempat. Beberapa penyedia cloud, termasuk IBM Cloud, juga menawarkan toolkit yang sudah dikemas sehingga para ilmuwan data dapat membangun model tanpa pengodean yang semakin memudahkan akses ke inovasi teknologi dan insight data.
Perusahaan dapat membuka banyak manfaat dari data science. Contoh penggunaan yang umum termasuk pengoptimalan proses melalui otomatisasi cerdas dan penargetan serta personalisasi yang ditingkatkan untuk meningkatkan pengalaman pelanggan (CX). Namun, contoh yang lebih spesifik meliputi:
Berikut adalah beberapa contoh penggunaan yang representatif untuk data science dan kecerdasan buatan:
Gunakan alat dan solusi ilmu data untuk mengungkap pola dan menyusun prediksi dengan menggunakan data, algoritma, machine learning, dan teknik AI.
Memperkenalkan Cognos Analytics 12.0, wawasan yang didukung AI untuk pengambilan keputusan yang lebih baik.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.