Ilmu data menggabungkan matematika dan statistik, pemrograman khusus, analitik tingkat lanjut, kecerdasan buatan (AI) , dan machine learning dengan keahlian bidang studi tertentu untuk mengungkap insight yang dapat ditindaklanjuti yang tersembunyi dalam data organisasi. Insight ini dapat digunakan untuk memandu pengambilan keputusan dan perencanaan strategis.
Volume sumber data yang makin meningkat, dan diikuti oleh datanya, telah menjadikan ilmu data sebagai salah satu bidang yang paling cepat berkembang di setiap industri. Akibatnya, tidak mengherankan bahwa peran ilmuwan data dijuluki “pekerjaan terseksi abad ke-21" oleh Harvard Business Review (tautan berada di luar ibm.com). Organisasi makin bergantung pada mereka untuk menginterpretasikan data dan memberikan rekomendasi yang dapat ditindaklanjuti untuk meningkatkan hasil bisnis.
Siklus hidup data science melibatkan berbagai peran, alat, dan proses, yang memungkinkan analis memperoleh insight yang dapat ditindaklanjuti. Biasanya, proyek data science melewati tahapan berikut:
Gunakan buku elektronik ini untuk menyelaraskan dengan para pemimpin lain dalam 3 tujuan utama MLOps dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.
Data science dianggap sebagai disiplin ilmu, sedangkan ilmuwan data adalah praktisi dalam bidang itu. Data scientist tidak selalu bertanggung jawab langsung atas semua proses yang terlibat dalam siklus hidup ilmu data. Sebagai contoh, pipeline data biasanya ditangani oleh insinyur data—tetapi ilmuwan data dapat memberikan rekomendasi tentang jenis data apa yang berguna atau diperlukan. Meskipun para ilmuwan data dapat membangun model machine learning, meningkatkan upaya ini pada tingkat yang lebih besar membutuhkan lebih banyak keterampilan rekayasa perangkat lunak untuk mengoptimalkan program agar dapat berjalan lebih cepat. Sebagai hasilnya, ilmuwan data biasanya bermitra dengan insinyur machine learning untuk meningkatkan model machine learning.
Tanggung jawab ilmuwan data biasanya dapat tumpang tindih dengan analis data, terutama dengan analisis data eksplorasi dan visualisasi data. Namun, keahlian ilmuwan data biasanya lebih luas daripada analis data rata-rata. Sebagai perbandingan, ilmuwan data memanfaatkan bahasa pemrograman umum, seperti R dan Python, untuk melakukan lebih banyak inferensi statistik dan visualisasi data.
Untuk melakukan tugas-tugas ini, ilmuwan data memerlukan keterampilan ilmu komputer dan sains murni yang melebihi kemampuan analis bisnis atau analis data pada umumnya. Data scientist juga harus memahami secara spesifik bisnisnya, seperti manufaktur mobil, eCommerce, atau layanan kesehatan.
Singkatnya, seorang data scientist harus dapat:
Keterampilan ini sangat diminati, dan sebagai hasilnya, banyak individu yang mencoba masuk ke karier data science, menjelajahi berbagai program data science, seperti program sertifikasi, kursus data science, dan program gelar yang ditawarkan oleh lembaga pendidikan.
Studio perusahaan baru yang menyatukan machine learning tradisional dengan kemampuan AI generatif baru yang didukung oleh model dasar.
Mungkin mudah untuk mengacaukan istilah "data science" dan "intelijen bisnis" (BI) karena keduanya berhubungan dengan data organisasi dan analisis data tersebut, tetapi keduanya memiliki fokus yang berbeda.
Intelijen bisnis (BI) biasanya merupakan istilah umum untuk teknologi yang memungkinkan persiapan data, penggalian data, manajemen data, dan visualisasi data. Alat dan proses intelijen bisnis memungkinkan pengguna akhir untuk mengidentifikasi informasi yang dapat ditindaklanjuti dari data mentah, memfasilitasi pengambilan keputusan berbasis data dalam organisasi di berbagai industri. Meskipun alat bantu data science tumpang tindih dalam banyak hal, intelijen bisnis lebih berfokus pada data dari masa lalu, dan insight dari alat bantu BI lebih bersifat deskriptif. BI menggunakan data untuk memahami apa yang terjadi sebelumnya untuk menginformasikan tindakan. BI diarahkan pada data statis (tidak berubah) yang biasanya terstruktur. Meskipun ilmu data menggunakan data deskriptif, biasanya ilmu data menggunakannya untuk menentukan variabel prediktif, yang kemudian digunakan untuk mengkategorikan data atau membuat perkiraan.
Ilmu data dan BI tidak saling eksklusif—organisasi yang berpengalaman secara digital menggunakan keduanya untuk sepenuhnya memahami dan mengekstrak nilai dari data mereka.
Data scientist mengandalkan bahasa pemrograman populer untuk melakukan analisis data eksploratif dan regresi statistik. Alat sumber terbuka ini mendukung pemodelan statistik yang dibangun sebelumnya, machine learning, dan kemampuan grafis. Bahasa-bahasa ini termasuk yang berikut (baca lebih lanjut di "Python vs R: Apa Bedanya?"):
Untuk memfasilitasi berbagi kode dan informasi lainnya, data scientist dapat menggunakan GitHub dan Jupyter notebook.
Beberapa data scientist mungkin lebih memilih antarmuka pengguna, dan dua alat perusahaan umum untuk analisis statistik meliputi:
Data scientist juga mendapatkan kemahiran dalam menggunakan platform pemrosesan big data, seperti Apache Spark, kerangka kerja sumber terbuka Apache Hadoop, dan basis data NoSQL. Mereka juga terampil menggunakan berbagai alat visualisasi data, termasuk alat grafik sederhana yang disertakan dengan presentasi bisnis dan aplikasi spreadsheet (seperti Microsoft Excel), alat visualisasi komersial yang dibuat khusus untuk tujuan tertentu seperti Tableau dan IBM Cognos, dan alat sumber terbuka seperti D3.js (perpustakaan JavaScript untuk membuat visualisasi data interaktif) dan RAW Graphs. Untuk membangun model machine learning, data scientist sering kali menggunakan beberapa kerangka kerja seperti PyTorch, TensorFlow, MXNet, dan Spark MLib.
Mengingat kurva pembelajaran yang curam dalam data science, banyak perusahaan berupaya mempercepat laba atas investasi mereka untuk proyek AI; mereka sering kali kesulitan mendapatkan talenta yang dibutuhkan untuk mewujudkan potensi penuh proyek data science. Untuk mengatasi kesenjangan ini, mereka beralih ke platform data science multipersona dan machine learning (DSML), sehingga memunculkan peran “data scientist masyarakat.”
Platform DSML Multipersona menggunakan otomatisasi, portal layanan mandiri, dan antarmuka pengguna kode-rendah/tanpa kode sehingga orang-orang yang memiliki sedikit atau tanpa latar belakang dalam teknologi digital atau ahli data science dapat menciptakan nilai bisnis menggunakan data science dan machine learning. Platform ini juga mendukung ahli data scientist dengan juga menawarkan antarmuka yang lebih teknis. Menggunakan platform DSML multipersona mendorong kolaborasi di seluruh perusahaan.
Komputasi awan menskalakan ilmu data dengan menyediakan akses ke daya pemrosesan tambahan, penyimpanan, dan alat lain yang diperlukan untuk proyek ilmu data.
Karena data science sering kali memanfaatkan kumpulan data yang besar, alat bantu yang dapat menyesuaikan dengan ukuran data menjadi sangat penting, terutama untuk proyek-proyek yang sensitif terhadap waktu. Solusi penyimpanan cloud, seperti data lake, menyediakan akses ke infrastruktur penyimpanan, yang mampu menyerap dan memproses data dalam jumlah besar dengan mudah. Sistem penyimpanan ini memberikan fleksibilitas kepada pengguna akhir, memungkinkan mereka untuk memutar klaster besar sesuai kebutuhan. Mereka juga dapat menambahkan node komputasi tambahan untuk mempercepat pekerjaan pemrosesan data, sehingga bisnis dapat melakukan pengorbanan jangka pendek untuk hasil jangka panjang yang lebih besar. Platform cloud biasanya memiliki model harga yang berbeda, seperti per penggunaan atau langganan, untuk memenuhi kebutuhan pengguna akhir mereka, baik untuk perusahaan besar maupun startup kecil.
Teknologi sumber terbuka banyak digunakan dalam set alat ilmu data. Saat dihosting di cloud, tim tidak perlu menginstal, mengkonfigurasi, memelihara, atau memperbaruinya secara lokal. Beberapa penyedia cloud, termasuk IBM Cloud, juga menawarkan perangkat alat yang sudah dikemas yang memungkinkan para ilmuwan data untuk membangun model tanpa pengkodean, sehingga semakin mendemokratisasi akses ke inovasi teknologi dan insight data.
Perusahaan dapat membuka banyak manfaat dari data science. Contoh penggunaan yang umum termasuk pengoptimalan proses melalui otomatisasi cerdas dan penargetan serta personalisasi yang ditingkatkan untuk meningkatkan pengalaman pelanggan (CX). Namun, contoh yang lebih spesifik meliputi:
Berikut adalah beberapa contoh penggunaan yang representatif untuk data science dan kecerdasan buatan:
Bereksperimenlah dengan model dasar dan bangun model machine learning secara otomatis di studio generasi berikutnya untuk pembangun AI.
Menyinkronisasi DevOps dan ModelOps. Membangun dan meningkatkan skala model AI dengan aplikasi cloud native Anda di hampir semua cloud.
Meningkatkan kemampuan interpretasi AI. Menilai dan mengurangi risiko AI. Menerapkan AI dengan kepercayaan dan keyakinan.
Membangun dan melatih model prediktif berkualitas tinggi dengan cepat. Menyederhanakan manajemen siklus hidup AI.
Autostrade per l'Italia mengimplementasikan beberapa solusi IBM untuk transformasi digital yang lengkap guna meningkatkan cara mereka memantau dan memelihara beragam aset infrastruktur nya.
Komunitas MANA bekerja sama dengan IBM Garage untuk membangun platform AI untuk menambang volume data lingkungan yang sangat besar dari berbagai saluran digital dan ribuan sumber.
Memiliki kebebasan penuh dalam memilih bahasa pemrograman, alat bantu, dan kerangka kerja akan meningkatkan pemikiran dan perkembangan kreatif.