Apa yang dimaksud dengan ilmu data?

Wanita muda keturunan Afrika-Amerika berkonsentrasi mengerjakan laporan ekonomi.

Apa yang dimaksud dengan ilmu data?

Ilmu data menggabungkan matematika dan statistika, pemrograman khusus, analitik tingkat lanjut, kecerdasan buatan (AI), dan machine learning dengan keahlian bidang tertentu untuk mengungkap insight yang dapat ditindaklanjuti, yang tersembunyi dalam data organisasi. Insight ini dapat digunakan untuk memandu pengambilan keputusan dan perencanaan strategis.

Volume sumber data yang makin meningkat dan kemudian datanya, telah menjadikan ilmu data sebagai salah satu bidang yang paling cepat berkembang di setiap industri. Akibatnya, tidak mengherankan bahwa peran ilmuwan data dijuluki "pekerjaan paling seksi abad ke-21" oleh Harvard Business Review. Organisasi makin bergantung pada mereka untuk menginterpretasikan data dan memberikan rekomendasi yang dapat ditindaklanjuti untuk meningkatkan hasil bisnis.

Siklus hidup data science melibatkan berbagai peran, alat, dan proses, yang memungkinkan analis memperoleh insight yang dapat ditindaklanjuti. Biasanya, proyek data science melewati tahapan berikut:

  • Penyerapan data: Siklus hidup dimulai dengan pengumpulan data, baik data mentah terstruktur maupun tidak terstruktur dari semua sumber yang relevan dengan menggunakan berbagai metode. Metode ini dapat mencakup entri manual, web scraping, dan streaming data real-time dari sistem dan perangkat. Sumber data dapat mencakup data terstruktur, seperti data pelanggan, serta data tidak terstruktur seperti file log, video, audio, gambar, Internet of Things (IoT), media sosial, dan banyak lagi.
  • Penyimpanan data dan pemrosesan data: Karena data dapat memiliki format dan struktur yang berbeda, perusahaan perlu mempertimbangkan sistem penyimpanan berbeda berdasarkan jenis data yang perlu ditangkap. Tim manajemen data membantu menetapkan standar seputar penyimpanan dan struktur data, yang memfasilitasi alur kerja seputar analitik, machine learning, dan model pembelajaran mendalam. Tahap ini mencakup pembersihan data, deduplikasi, transformasi, dan penggabungan data menggunakan pekerjaan ETL (ekstrak, transformasi, muat) atau teknologi integrasi data lainnya. Persiapan data ini sangat penting untuk meningkatkan kualitas data sebelum dimuat ke gudang datadata lake, atau repositori lainnya.
  • Analisis data: Di sini, ilmuwan data melakukan analisis data eksploratif untuk memeriksa bias, pola, rentang, dan distribusi nilai dalam data. Eksplorasi analisis data ini mendorong pembuatan hipotesis untuk uji a/b. Hal ini juga memungkinkan analis untuk menentukan relevansi data untuk digunakan dalam upaya pemodelan untuk analisis prediktif, machine learning, dan/atau pembelajaran mendalam. Bergantung pada keakuratan model, organisasi dapat bergantung pada insight ini untuk pengambilan keputusan bisnis, sehingga memungkinkan mereka untuk mendorong lebih banyak skalabilitas.
  • Penyampaian: Terakhir, insight disajikan dalam bentuk laporan dan visualisasi data lainnya yang membuat insight dan dampaknya terhadap bisnis lebih mudah dipahami oleh analis bisnis dan pengambil keputusan lainnya. Bahasa pemrograman ilmu data seperti R atau Python mencakup komponen untuk menghasilkan visualisasi; sebagai alternatif, ilmuwan data dapat menggunakan alat visualisasi khusus.

Apa yang dilakukan ilmuwan data

Ilmuwan data adalah pakar dalam mengekstrak insight dan jawaban khusus industri dari data. Mereka memiliki keterampilan ilmu komputer dan sains murni yang melampaui keterampilan analis bisnis atau analis data pada umumnya, serta pemahaman yang mendalam tentang industri atau disiplin bisnis tempat mereka bekerja (seperti manufaktur mobil, eCommerce, atau perawatan kesehatan).  

Seorang ilmuwan data harus mampu:

  • Mengetahui tentang bisnis dengan memadai untuk mengajukan pertanyaan terkait dan mengidentifikasi kelemahan bisnis.

  • Menerapkan statistika dan ilmu komputer serta ketajaman bisnis pada analisis data.

  • Menggunakan berbagai alat dan teknik untuk menyiapkan dan mengekstrak data—segala sesuatu mulai dari basis data dan SQL hingga penambangan data sampai metode integrasi data.

  • Mengekstrak insight dari big data menggunakan analitik prediktif dan kecerdasan buatan (AI), termasuk model machine learningpemrosesan bahasa alami, dan pembelajaran mendalam.

  • Menulis program dan algoritma yang mengotomatiskan pemrosesan dan penghitungan data.

  • Menceritakan dan mengilustrasikan kisah yang dengan jelas menyampaikan makna hasil kepada para pengambil keputusan dan pemangku kepentingan di setiap tingkat pemahaman teknis.

  • Menjelaskan bagaimana hasilnya dapat digunakan untuk memecahkan masalah bisnis.

  • Berkolaborasi dengan anggota tim data science lainnya, seperti analis data dan bisnis, arsitek TI, insinyur data, dan pengembang aplikasi.

Keterampilan ini sangat diminati, dan sebagai hasilnya, banyak individu yang mencoba masuk ke karier ilmu data, menjelajahi berbagai program ilmu data, seperti program sertifikasi, kursus ilmu data, dan program gelar yang ditawarkan oleh lembaga pendidikan.

Ilmuwan data tidak selalu bertanggung jawab langsung atas semua proses yang terlibat dalam siklus hidup ilmu data. Sebagai contoh, saluran data biasanya ditangani oleh insinyur data, tetapi ilmuwan data dapat memberikan rekomendasi tentang jenis data apa yang berguna atau diperlukan. Meskipun para ilmuwan data dapat membangun model machine learning, meningkatkan upaya ini pada tingkat yang lebih besar membutuhkan lebih banyak keterampilan rekayasa perangkat lunak untuk mengoptimalkan program agar dapat berjalan lebih cepat. Akibatnya, ilmuwan data biasanya bermitra dengan insinyur machine learning untuk meningkatkan model machine learning.

Tanggung jawab ilmuwan data biasanya dapat tumpang tindih dengan analis data, terutama dengan analisis data eksplorasi dan visualisasi data. Namun, keahlian ilmuwan data biasanya lebih luas daripada analis data rata-rata. Sebagai perbandingan, ilmuwan data memanfaatkan bahasa pemrograman umum, seperti R dan Python, untuk melakukan lebih banyak inferensi statistik dan visualisasi data.

Gabungan Para Pakar | 28 Agustus, episode 70

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Data science versus intelijen bisnis

Mungkin mudah untuk mengacaukan istilah "data science" dan "intelijen bisnis" (BI) karena keduanya berhubungan dengan data organisasi dan analisis data tersebut, tetapi keduanya memiliki fokus yang berbeda.

Intelijen bisnis (BI) biasanya merupakan istilah umum untuk teknologi yang memungkinkan persiapan data, penggalian data, manajemen data, dan visualisasi data. Alat dan proses intelijen bisnis memungkinkan pengguna akhir untuk mengidentifikasi informasi yang dapat ditindaklanjuti dari data mentah, memfasilitasi pengambilan keputusan berbasis data dalam organisasi di berbagai industri. Meskipun alat bantu data science tumpang tindih dalam banyak hal, intelijen bisnis lebih berfokus pada data dari masa lalu, dan insight dari alat bantu BI lebih bersifat deskriptif. BI menggunakan data untuk memahami apa yang terjadi sebelumnya untuk menginformasikan tindakan. BI diarahkan pada data statis (tidak berubah) yang biasanya terstruktur. Meskipun ilmu data menggunakan data deskriptif, biasanya ilmu data menggunakannya untuk menentukan variabel prediktif, yang kemudian digunakan untuk mengkategorikan data atau membuat perkiraan.

Ilmu data dan BI bekerja berdampingan, organisasi yang cerdas di bidang digital menggunakan keduanya untuk sepenuhnya memahami dan mengekstrak nilai dari data mereka.

Alat ilmu data

Ilmuwan data mengandalkan bahasa pemrograman populer untuk melakukan analisis data eksploratif dan regresi statistik. Alat sumber terbuka ini mendukung pemodelan statistik yang dibangun sebelumnya, machine learning, dan kemampuan grafis. Semua bahasa ini termasuk yang berikut (baca lebih lanjut di "Python vs R: Apa Bedanya?"):

  • Studio R: Bahasa pemrograman sumber terbuka dan lingkungan untuk mengembangkan komputasi statistik dan grafis.
  • Python: Ini adalah bahasa pemrograman yang dinamis dan fleksibel. Python mencakup banyak pustaka, seperti NumPy, Pandas, Matplotlib, untuk menganalisis data dengan cepat.

Untuk memfasilitasi berbagi kode dan informasi lainnya, data scientist dapat menggunakan GitHub dan Jupyter notebook.

Beberapa data scientist mungkin lebih memilih antarmuka pengguna, dan dua alat perusahaan umum untuk analisis statistik meliputi:

  • SAS: Rangkaian alat bantu yang komprehensif, termasuk visualisasi dan dasbor interaktif, untuk menganalisis, melaporkan, menggali data, dan melakukan pemodelan prediktif.
  • IBM® SPSS: Menawarkan analisis statistik tingkat lanjut, pustaka algoritma machine learning yang luas, analisis teks, ekstensibilitas sumber terbuka, integrasi dengan big data, dan penerapan lancar ke dalam aplikasi.

Data scientist juga mendapatkan kemahiran dalam menggunakan platform pemrosesan big data, seperti Apache Spark, kerangka kerja sumber terbuka Apache Hadoop, dan basis data NoSQL. Mereka juga terampil menggunakan berbagai alat visualisasi data, termasuk alat grafik sederhana yang disertakan dengan presentasi bisnis dan aplikasi spreadsheet (seperti Microsoft Excel), alat visualisasi komersial yang dibuat khusus untuk tujuan tertentu seperti Tableau dan IBM Cognos, dan alat sumber terbuka seperti D3.js (perpustakaan JavaScript untuk membuat visualisasi data interaktif) dan RAW Graphs. Untuk membangun model machine learning, data scientist sering kali menggunakan beberapa kerangka kerja seperti PyTorch, TensorFlow, MXNet, dan Spark MLib.

Mengingat kurva pembelajaran yang curam dalam data science, banyak perusahaan berupaya mempercepat laba atas investasi mereka untuk proyek AI; mereka sering kali kesulitan mendapatkan talenta yang dibutuhkan untuk mewujudkan potensi penuh proyek data science. Untuk mengatasi kesenjangan ini, mereka beralih ke platform data science multipersona dan machine learning (DSML), sehingga memunculkan peran “data scientist masyarakat.”

Platform DSML Multipersona menggunakan otomatisasi, portal layanan mandiri, dan antarmuka pengguna kode-rendah/tanpa kode sehingga orang-orang yang memiliki sedikit atau tanpa latar belakang dalam teknologi digital atau ahli data science dapat menciptakan nilai bisnis menggunakan data science dan machine learning. Platform ini juga mendukung ahli data scientist dengan juga menawarkan antarmuka yang lebih teknis. Menggunakan platform DSML multipersona mendorong kolaborasi di seluruh perusahaan.

Data science dan komputasi awan

Komputasi awan menskalakan ilmu data dengan menyediakan akses ke kekuatan pemrosesan tambahan, penyimpanan, dan alat lain yang diperlukan untuk proyek ilmu data.

Karena ilmu data sering kali memanfaatkan kumpulan data yang besar, alat yang dapat meningkatkan sesuai ukuran data menjadi sangat penting, terutama untuk proyek berbatas waktu. Solusi penyimpanan cloud, seperti data lake, menyediakan akses ke infrastruktur penyimpanan yang mampu menyerap dan memproses data dalam jumlah besar dengan mudah. Sistem penyimpanan ini memberikan fleksibilitas kepada pengguna akhir, sehingga mereka dapat memulai klaster besar sesuai kebutuhan. Mereka juga dapat menambahkan node komputasi tambahan untuk mempercepat pekerjaan pemrosesan data, sehingga bisnis dapat melakukan penyeimbangan jangka pendek untuk hasil jangka panjang yang lebih besar. Platform cloud biasanya memiliki model harga berbeda, seperti per penggunaan atau langganan, untuk memenuhi kebutuhan pengguna akhir mereka, baik untuk perusahaan besar maupun perusahaan rintisan kecil.

Teknologi sumber terbuka banyak digunakan dalam kumpulan alat ilmu data. Saat dihosting di cloud, tim tidak perlu menginstal, mengonfigurasi, memelihara, atau memperbaruinya secara setempat. Beberapa penyedia cloud, termasuk IBM Cloud, juga menawarkan toolkit yang sudah dikemas sehingga para ilmuwan data dapat membangun model tanpa pengodean yang semakin memudahkan akses ke inovasi teknologi dan insight data.

contoh penggunaan data science

Perusahaan dapat membuka banyak manfaat dari data science. Contoh penggunaan yang umum termasuk pengoptimalan proses melalui otomatisasi cerdas dan penargetan serta personalisasi yang ditingkatkan untuk meningkatkan pengalaman pelanggan (CX). Namun, contoh yang lebih spesifik meliputi:

Berikut adalah beberapa contoh penggunaan yang representatif untuk data science dan kecerdasan buatan:

  • Sebuah bank internasional memberikan layanan pinjaman yang lebih cepat dengan aplikasi mobile menggunakan model risiko kredit yang didukung machine learning dan arsitektur komputasi hybrid cloud yang tangguh dan aman.
  • Sebuah perusahaan elektronik sedang mengembangkan sensor cetak 3D yang sangat kuat untuk memandu kendaraan tanpa pengemudi masa depan. Solusi ini bergantung pada ilmu data dan alat analitik untuk meningkatkan kemampuan deteksi objek real-time.
  • Penyedia solusi otomatisasi proses robotik (RPA) mengembangkan solusi penambangan proses bisnis kognitif yang mengurangi waktu penanganan insiden antara 15% dan 95% untuk perusahaan kliennya. Solusi ini dilatih untuk memahami konten dan sentimen email pelanggan, mengarahkan tim layanan untuk memprioritaskan email yang paling relevan dan mendesak.
  • Sebuah perusahaan teknologi media digital menciptakan platform analisis pemirsa yang memungkinkan klien nya untuk melihat apa yang menarik bagi pemirsa TV seiring dengan banyaknya tawaran saluran digital yang terus berkembang. Solusi ini menggunakan analitik mendalam dan machine learning untuk mengumpulkan insight real-time tentang perilaku pemirsa.
  • Departemen kepolisian perkotaan menciptakan alat analisis insiden statistik untuk membantu petugas memahami kapan dan di mana harus menerapkan sumber daya untuk mencegah kejahatan. Solusi berbasis data membuat laporan dan dasbor untuk meningkatkan kesadaran situasional bagi petugas lapangan.
  • Mitra Bisnis IBM Shanghai Changjiang Science and Technology Development menggunakan teknologi IBM Watson untuk membangun platform penilaian medis berbasis AI yang dapat menganalisis catatan medis yang ada untuk mengategorikan pasien berdasarkan risiko mereka mengalami stroke dan yang dapat memprediksi tingkat keberhasilan rencana perawatan berbeda.
Solusi terkait
Alat dan solusi ilmu data

Gunakan alat dan solusi ilmu data untuk mengungkap pola dan menyusun prediksi dengan menggunakan data, algoritma, machine learning, dan teknik AI.

Jelajahi solusi ilmu data
IBM Cognos Analytics

Memperkenalkan Cognos Analytics 12.0, wawasan yang didukung AI untuk pengambilan keputusan yang lebih baik.

Jelajahi Cognos Analytics
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Gunakan alat dan solusi ilmu data untuk mengungkap pola dan menyusun prediksi dengan menggunakan data, algoritma, machine learning, dan teknik AI.

Jelajahi solusi ilmu data Jelajahi layanan analitik