Apa yang dimaksud dengan Ilmu Data?

Apa yang dimaksud dengan ilmu data?

Ilmu data menggabungkan matematika dan statistik, pemrograman khusus, analitik tingkat lanjut, kecerdasan buatan (AI) , dan machine learning dengan keahlian bidang studi tertentu untuk mengungkap insight yang dapat ditindaklanjuti yang tersembunyi dalam data organisasi. Insight ini dapat digunakan untuk memandu pengambilan keputusan dan perencanaan strategis.

Volume sumber data yang makin meningkat, dan diikuti oleh datanya, telah menjadikan ilmu data sebagai salah satu bidang yang paling cepat berkembang di setiap industri. Akibatnya, tidak mengherankan bahwa peran ilmuwan data dijuluki “pekerjaan terseksi abad ke-21" oleh Harvard Business Review (tautan berada di luar ibm.com). Organisasi makin bergantung pada mereka untuk menginterpretasikan data dan memberikan rekomendasi yang dapat ditindaklanjuti untuk meningkatkan hasil bisnis.

Siklus hidup ilmu data melibatkan berbagai peran, alat, dan proses, yang memungkinkan analis memperoleh insight yang dapat ditindaklanjuti. Biasanya, proyek ilmu data melewati tahapan berikut:

Pengumpulan data: Siklus hidup dimulai dengan pengumpulan data—baik data mentah terstruktur maupun tidak terstruktur dari semua sumber yang relevan dengan menggunakan berbagai metode. Metode ini dapat mencakup entri manual, web scraping, dan streaming data real-time dari sistem dan perangkat. Sumber data dapat mencakup data terstruktur, seperti data pelanggan, bersama dengan data tidak terstruktur seperti file log, video, audio, gambar, Internet of Things (IoT), media sosial, dan banyak lagi.

Penyimpanan data dan pemrosesan data: Karena data dapat memiliki format dan struktur yang berbeda, perusahaan perlu mempertimbangkan sistem penyimpanan yang berbeda berdasarkan jenis data yang perlu ditangkap. Tim manajemen data membantu menetapkan standar seputar penyimpanan dan struktur data, yang memfasilitasi alur kerja seputar analisis, machine learning, dan model pembelajaran mendalam. Tahap ini mencakup pembersihan data, deduplikasi, transformasi dan penggabungan data menggunakan pekerjaan ETL (ekstrak, transformasi, muat) atau teknologi integrasi data lainnya. Persiapan data ini sangat penting untuk meningkatkan kualitas data sebelum dimuat ke gudang data, data lake, atau repositori lainnya.

Analisis data: Di sini, ilmuwan data melakukan analisis data eksploratif untuk memeriksa bias, pola, rentang, dan distribusi nilai dalam data. Eksplorasi analisis data ini mendorong pembuatan hipotesis untuk uji a/b. Hal ini juga memungkinkan analis untuk menentukan relevansi data untuk digunakan dalam upaya pemodelan untuk analisis prediktif, machine learning, dan/atau pembelajaran mendalam. Bergantung pada keakuratan model, organisasi dapat bergantung pada insight ini untuk pengambilan keputusan bisnis, sehingga memungkinkan mereka untuk mendorong lebih banyak skalabilitas.

Mengkomunikasikan: Terakhir, insight disajikan dalam bentuk laporan dan visualisasi data lainnya yang membuat insight—dan dampaknya terhadap bisnis—lebih mudah dipahami oleh analis bisnis dan pengambil keputusan lainnya. Bahasa pemrograman ilmu data seperti R atau Python menyertakan komponen untuk menghasilkan visualisasi; sebagai alternatif, ilmuwan data dapat menggunakan alat visualisasi khusus.

Ilmu data dan MLOP untuk pemimpin data

Gunakan buku elektronik ini untuk menyelaraskan dengan para pemimpin lain dalam 3 tujuan utama MLOps dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.

Konten terkait

Daftar untuk mendapatkan laporan Gartner

Mulai perjalanan Anda dengan AI

Pelajari bagaimana menskalakan AI

Jelajahi Akademi AI

Ilmu data versus ilmuwan data

Ilmu data dianggap sebagai disiplin ilmu, sedangkan ilmuwan data adalah praktisi dalam bidang itu. Ilmuwan data tidak selalu bertanggung jawab langsung atas semua proses yang terlibat dalam siklus hidup ilmu data. Sebagai contoh, pipeline data biasanya ditangani oleh insinyur data—tetapi ilmuwan data dapat memberikan rekomendasi tentang jenis data apa yang berguna atau diperlukan. Meskipun para ilmuwan data dapat membangun model machine learning, meningkatkan upaya ini pada tingkat yang lebih besar membutuhkan lebih banyak keterampilan rekayasa perangkat lunak untuk mengoptimalkan program agar dapat berjalan lebih cepat. Sebagai hasilnya, ilmuwan data biasanya bermitra dengan insinyur machine learning untuk meningkatkan model machine learning.

Tanggung jawab ilmuwan data biasanya dapat tumpang tindih dengan analis data, terutama dengan analisis data eksplorasi dan visualisasi data. Namun, keahlian ilmuwan data biasanya lebih luas daripada analis data rata-rata. Sebagai perbandingan, ilmuwan data memanfaatkan bahasa pemrograman umum, seperti R dan Python, untuk melakukan lebih banyak inferensi statistik dan visualisasi data.

Untuk melakukan tugas-tugas ini, ilmuwan data memerlukan keterampilan ilmu komputer dan sains murni yang melebihi kemampuan analis bisnis atau analis data pada umumnya. Ilmuwan data juga harus memahami secara spesifik bisnisnya, seperti manufaktur mobil, eCommerce, atau layanan kesehatan.

Singkatnya, seorang ilmuwan data harus dapat:

Pengetahuan yang cukup tentang bisnis untuk mengajukan pertanyaan terkait dan mengidentifikasi kelemahan bisnis.
Menerapkan statistik dan ilmu komputer, bersama dengan ketajaman bisnis, untuk analisis data.
Menggunakan berbagai alat dan teknik untuk menyiapkan dan mengekstrak data—segala sesuatu mulai dari basis data dan SQL hingga penggalian data hingga metode integrasi data.
Mengekstrak insight dari big data menggunakan analitik prediktif dan kecerdasan buatan (AI), termasuk model machine learning, pemrosesan bahasa alami, dan pembelajaran mendalam.
Menulis program yang mengotomatiskan pemrosesan data dan perhitungan.
Menceritakan—dan mengilustrasikan—kisah yang dengan jelas menyampaikan makna hasil kepada para pengambil keputusan dan pemangku kepentingan di setiap tingkat pemahaman teknis.
Menjelaskan bagaimana hasilnya dapat digunakan untuk memecahkan masalah bisnis.
Berkolaborasi dengan anggota tim ilmu data lainnya, seperti analis data dan bisnis, arsitek TI, insinyur data, dan pengembang aplikasi.

Keterampilan ini sangat diminati, dan sebagai hasilnya, banyak individu yang mencoba masuk ke karier ilmu data, menjelajahi berbagai program ilmu data, seperti program sertifikasi, kursus ilmu data, dan program gelar yang ditawarkan oleh lembaga pendidikan.

Sekarang tersedia: watsonx.ai

Studio perusahaan baru yang menyatukan machine learning tradisional dengan kemampuan AI generatif baru yang didukung oleh model dasar.

Produk unggulan

Watson Studio

IBM Cloud Pak for Data

Ilmu data versus intelijen bisnis

Mungkin mudah untuk mengacaukan istilah "ilmu data" dan "intelejen bisnis" (BI) karena keduanya berhubungan dengan data organisasi dan analisis data tersebut, tetapi keduanya memiliki fokus yang berbeda.

Intelejen bisnis (BI) biasanya merupakan istilah umum untuk teknologi yang memungkinkan persiapan data, penggalian data, manajemen data, dan visualisasi data. Alat dan proses intelijen bisnis memungkinkan pengguna akhir untuk mengidentifikasi informasi yang dapat ditindaklanjuti dari data mentah, memfasilitasi pengambilan keputusan berbasis data dalam organisasi di berbagai industri. Meskipun alat bantu ilmu data tumpang tindih dalam banyak hal, intelijen bisnis lebih berfokus pada data dari masa lalu, dan insight dari alat bantu BI lebih bersifat deskriptif. BI menggunakan data untuk memahami apa yang terjadi sebelumnya untuk menginformasikan tindakan. BI diarahkan pada data statis (tidak berubah) yang biasanya terstruktur. Meskipun ilmu data menggunakan data deskriptif, biasanya ilmu data menggunakannya untuk menentukan variabel prediktif, yang kemudian digunakan untuk mengkategorikan data atau membuat perkiraan.

Ilmu data dan BI tidak saling eksklusif—organisasi yang berpengalaman secara digital menggunakan keduanya untuk sepenuhnya memahami dan mengekstrak nilai dari data mereka.

Alat ilmu data

Ilmuwan data mengandalkan bahasa pemrograman populer untuk melakukan analisis data eksploratif dan regresi statistik. Alat sumber terbuka ini mendukung pemodelan statistik yang dibangun sebelumnya, machine learning, dan kemampuan grafis. Bahasa-bahasa ini termasuk yang berikut (baca lebih lanjut di "Python vs R: Apa Bedanya?"):

Studio R: Bahasa pemrograman sumber terbuka dan lingkungan untuk mengembangkan komputasi statistik dan grafis.
Python: Ini adalah bahasa pemrograman yang dinamis dan fleksibel. Python mencakup banyak pustaka, seperti NumPy, Pandas, Matplotlib, untuk menganalisis data dengan cepat.

Untuk memfasilitasi berbagi kode dan informasi lainnya, ilmuwan data dapat menggunakan GitHub dan Jupyter notebook.

Beberapa ilmuwan data mungkin lebih memilih antarmuka pengguna, dan dua alat perusahaan umum untuk analisis statistik meliputi:

SAS: Rangkaian alat bantu yang komprehensif, termasuk visualisasi dan dasbor interaktif, untuk menganalisis, melaporkan, menggali data, dan melakukan pemodelan prediktif.
IBM SPSS: Menawarkan analisis statistik tingkat lanjut, pustaka algoritme machine learning yang luas, analisis teks, ekstensibilitas sumber terbuka, integrasi dengan big data, dan penerapan lancar ke dalam aplikasi.

Ilmuwan data juga mendapatkan kemahiran dalam menggunakan platform pemrosesan big data, seperti Apache Spark, kerangka kerja sumber terbuka Apache Hadoop, dan basis data NoSQL. Mereka juga terampil menggunakan berbagai alat visualisasi data, termasuk alat grafik sederhana yang disertakan dengan presentasi bisnis dan aplikasi spreadsheet (seperti Microsoft Excel), alat visualisasi komersial yang dibuat khusus untuk tujuan tertentu seperti Tableau dan IBM Cognos, dan alat sumber terbuka seperti D3.js (perpustakaan JavaScript untuk membuat visualisasi data interaktif) dan RAW Graphs. Untuk membangun model machine learning, ilmuwan data sering kali menggunakan beberapa kerangka kerja seperti PyTorch, TensorFlow, MXNet, dan Spark MLib.

Mengingat kurva pembelajaran yang curam dalam ilmu data, banyak perusahaan berupaya mempercepat laba atas investasi mereka untuk proyek AI; mereka sering kali kesulitan mendapatkan talenta yang dibutuhkan untuk mewujudkan potensi penuh proyek ilmu data. Untuk mengatasi kesenjangan ini, mereka beralih ke platform ilmu data multipersona dan machine learning (DSML), sehingga memunculkan peran “ilmuwan data warga.”

Platform DSML Multipersona menggunakan otomatisasi, portal layanan mandiri, dan antarmuka pengguna kode-rendah/tanpa kode sehingga orang-orang yang memiliki sedikit atau tanpa latar belakang dalam teknologi digital atau ilmu data ahli dapat menciptakan nilai bisnis menggunakan ilmu data dan machine learning. Platform ini juga mendukung ilmuwan data ahli dengan juga menawarkan antarmuka yang lebih teknis. Menggunakan platform DSML multipersona mendorong kolaborasi di seluruh perusahaan.

Ilmu data dan komputasi awan

Komputasi awan menskalakan ilmu data dengan menyediakan akses ke daya pemrosesan tambahan, penyimpanan, dan alat lain yang diperlukan untuk proyek ilmu data.

Karena ilmu data sering kali memanfaatkan kumpulan data yang besar, alat bantu yang dapat menyesuaikan dengan ukuran data menjadi sangat penting, terutama untuk proyek-proyek yang sensitif terhadap waktu. Solusi penyimpanan cloud, seperti data lake, menyediakan akses ke infrastruktur penyimpanan, yang mampu menyerap dan memproses data dalam jumlah besar dengan mudah. Sistem penyimpanan ini memberikan fleksibilitas kepada pengguna akhir, memungkinkan mereka untuk memutar klaster besar sesuai kebutuhan. Mereka juga dapat menambahkan node komputasi tambahan untuk mempercepat pekerjaan pemrosesan data, sehingga bisnis dapat melakukan pengorbanan jangka pendek untuk hasil jangka panjang yang lebih besar. Platform cloud biasanya memiliki model harga yang berbeda, seperti per penggunaan atau langganan, untuk memenuhi kebutuhan pengguna akhir mereka, baik untuk perusahaan besar maupun startup kecil.

Teknologi sumber terbuka banyak digunakan dalam set alat ilmu data. Saat dihosting di cloud, tim tidak perlu menginstal, mengkonfigurasi, memelihara, atau memperbaruinya secara lokal. Beberapa penyedia cloud, termasuk IBM Cloud, juga menawarkan perangkat alat yang sudah dikemas yang memungkinkan para ilmuwan data untuk membangun model tanpa pengkodean, sehingga semakin mendemokratisasi akses ke inovasi teknologi dan insight data.

contoh penggunaan ilmu data

Perusahaan dapat membuka banyak manfaat dari ilmu data. Contoh penggunaan yang umum termasuk pengoptimalan proses melalui otomatisasi cerdas dan penargetan serta personalisasi yang ditingkatkan untuk meningkatkan pengalaman pelanggan (CX). Namun, contoh yang lebih spesifik meliputi:

Berikut adalah beberapa contoh penggunaan yang representatif untuk ilmu data dan kecerdasan buatan:

Sebuah bank internasional memberikan layanan pinjaman yang lebih cepat dengan aplikasi seluler menggunakan model risiko kredit yang didukung machine learning dan arsitektur komputasi hybrid cloud yang tangguh dan aman.
Sebuah perusahaan elektronik sedang mengembangkan sensor cetak 3D yang sangat kuat untuk memandu kendaraan tanpa pengemudi masa depan. Solusi ini bergantung pada ilmu data dan alat analitik untuk meningkatkan kemampuan deteksi objek real-time.
Penyedia solusi otomatisasi proses robotik (RPA) mengembangkan solusi penambangan proses bisnis kognitif yang mengurangi waktu penanganan insiden antara 15% dan 95% untuk perusahaan kliennya. Solusi ini dilatih untuk memahami konten dan sentimen email pelanggan, mengarahkan tim layanan untuk memprioritaskan email yang paling relevan dan mendesak.
Sebuah perusahaan teknologi media digital menciptakan platform analisis pemirsa yang memungkinkan kliennya untuk melihat apa yang menarik bagi pemirsa TV seiring dengan banyaknya tawaran saluran digital yang terus berkembang. Solusi ini menggunakan analitik mendalam dan machine learning untuk mengumpulkan insight real-time tentang perilaku pemirsa.
Departemen kepolisian perkotaan menciptakan alat analisis insiden statistik untuk membantu petugas memahami kapan dan di mana harus menerapkan sumber daya untuk mencegah kejahatan. Solusi berbasis data membuat laporan dan dasbor untuk meningkatkan kesadaran situasional bagi petugas lapangan.
Mitra Bisnis IBM Shanghai Changjiang Science and Technology Development menggunakan teknologi IBM Watson untuk membangun platform penilaian medis berbasis AI yang dapat menganalisis catatan medis yang ada untuk mengkategorikan pasien berdasarkan risiko mereka mengalami stroke dan yang dapat memprediksi tingkat keberhasilan rencana perawatan yang berbeda.

Solusi terkait

watsonx.ai

Bereksperimenlah dengan model dasar dan bangun model machine learning secara otomatis di studio generasi berikutnya untuk pembangun AI.

Jelajahi watsonx.ai

Lihat demo interaktif

IBM® Watson Studio

Menyinkronisasi DevOps dan ModelOps. Membangun dan meningkatkan skala model AI dengan aplikasi cloud native Anda di hampir semua cloud.

Jelajahi IBM Watson Studio hari ini

AI yang dapat dijelaskan

Meningkatkan kemampuan interpretasi AI. Menilai dan mengurangi risiko AI. Menerapkan AI dengan kepercayaan dan keyakinan.

Pelajari selengkapnya tentang AI yang Dapat Dijelaskan

AutoAI

Membangun dan melatih model prediktif berkualitas tinggi dengan cepat. Menyederhanakan manajemen siklus hidup AI.

Jelajahi AutoAI

Sumber daya

Autostrade per l’Italia

Autostrade per l'Italia mengimplementasikan beberapa solusi IBM untuk transformasi digital yang lengkap guna meningkatkan cara mereka memantau dan memelihara beragam aset infrastrukturnya.

Komunitas MANA

Komunitas MANA bekerja sama dengan IBM Garage untuk membangun platform AI untuk menambang volume data lingkungan yang sangat besar dari berbagai saluran digital dan ribuan sumber.

Pemikiran arsitektur di Dunia Liar ilmu data

Memiliki kebebasan penuh dalam memilih bahasa pemrograman, alat bantu, dan kerangka kerja akan meningkatkan pemikiran dan perkembangan kreatif.