Info Prodi
Sabtu, 19 Apr 2025
  • 2 dari 8 Alasan Anak SMK & MAK Perlu Lanjut Kuliah di Prodi Teknik Elektro ITI: 1) Nggak perlu hebat dulu untuk bisa kuliah di sini, 2) Biaya kuliah bisa nyicil per bulan (bunga 0%).
14 Juli 2024

 Pengantar Analisis Data (Ilmu Data Analytics)

Minggu, 14 Juli 2024 Kategori : Artikel Ilmiah

Artikel pengantar ini akan mengenalkan apa itu Data Analytics (Analitika Data), posisi Data Analytics di dalam Data Science (Sains / Ilmu Data), tipe atau jenis data, visualisasi data serta perkembangan AI dalam kaitannya dengan Data Analytics. Pembaca juga dapat mengunduh buku lengkap sumber tulisan ini pada tautan di bagian bawah tulisan ini.

PENDAHULUAN

Di abad ke-21 ini, perusahaan big data berhasil mendominasi dunia. Sebut saja perusahaan seperti Amazon, Apple, Meta, Microsoft, Alibaba, Tencent dan lain sebagainya. Mereka adalah ibarat perusahaan minyak atau perusahaan baja yang beberapa dekade lalu juga merajai ekonomi dunia. Betapa berharganya data di abad ini adalah layaknya minyak atau baja yang begitu berharga pada masa lalu.

Di era big data seperti sekarang, kemampuan menganalisis data menjadi sangat penting. Meskipun data semakin kompleks dan beragam, namun dengan perkembangan yang sangat pesat di bidang AI (Artificial Intelligence) belakangan ini, nyatanya telah banyak membantu dalam hal analisis data yang berjumlah maha besar (big data analytics).

Oleh karena itu ilmu Data Analytics perlu diperkenalkan sejak awal. Bukan hanya di bangku kuliah, namun juga sebaiknya sejak di bangku sekolah sebelum masuk perguruan tinggi. Mengapa? Menurut proyeksi US Bureau of Labor Statistics, profesi yang terkait dengan Data Analytics seperti data scientist (ahli analisis data) di Amerika Serikat akan tumbuh 35% dari tahun 2022 – 2032 di mana pertumbuhan ini lebih tinggi daripada rata-rata semua profesi lainnya (Bureau of Labor Statistics, 2024).

Artinya akan terbuka 17.700 lowongan kerja bagi ahli analisis data tiap tahun selama 10 tahun hingga 2032. Barangkali karena kecenderungan ini pula di Indonesia semakin banyak perguruan tinggi yang membuka program studi atau jurusan Data Science / Sains Data / Ilmu Data.

PENGERTIAN DATA ANALYTICS

Dengan mengutip Blatt, dalam sebuah artikel jurnalnya Sun menjelaskan bahwa Data Analytics atau Analitika Data adalah proses memahami dan mengeksplorasi data dengan cara menghasilkan pola (pattern) dan wawasan (insight) yang bermakna. Untuk mencapainya digunakan suatu algoritma tertentu yang terkadang cukup kompleks (Sun, 2023).

Perlu ditegaskan di sini bahwa algoritma tersebut bukanlah algoritma yang termasuk ke dalam machine learning. Sedangkan kebutuhan untuk mengkomunikasikan pengetahuan yang didapat dari proses analisis data, yakni dalam bentuk visualisasi data, adalah juga termasuk salah satu bagian dari Data Analytics yang cukup penting menurut Sun.

Untuk lebih memahami posisi Analitika Data dan kaitannya dengan bidang ilmu lain seperti Matematika, Statistika, Machine Learning dan Data Science maka dapat dilihat pada Gambar 1 di bawah ini:

Gambar 10 1 Data Analytics

              Sumber: Chandragiri (2023)

Gambar 1. Posisi Data Analytics di dalam Data Science

Dari Gambar 1 di atas terlihat bahwa Analitika Data tidak lain adalah ilmu Statistika yang memanfaatkan bahasa pemrograman semisal Python untuk mengotomatiskan pemrosesan data. Python menjadi pilihan yang populer dalam Analitika Data karena bersifat terbuka (open source) dan gratis, dibandingkan misalnya dengan Matlab yang harus memiliki lisensi berbayar untuk menggunakannya.

Di samping itu, Python memang mempunyai kelebihan lainnya, yaitu memiliki jumlah library yang besar. Python library adalah sekumpulan kode siap pakai untuk berbagai kebutuhan yang dapat digunakan pengembang aplikasi tanpa harus menulis ulang kode tersebut pada program yang berbeda. Hingga tulisan ini dibuat terdapat lebih dari 137.000 Python library yang tersedia (Rajpal, 2024). 

Untuk keperluan analisis data, beberapa Python library yang populer dapat dimanfaatkan sebagaimana dapat dilihat pada Gambar 2 di bawah ini:

Gambar 10 2 Library Pyhon

              Sumber: Chandragiri (2024)

Gambar 2. Phyton library untuk Analitika Data

Berdasarkan Gambar 2 di atas, untuk mengumpulkan data, seperti dari website di internet dengan proses web scrapping, dapat digunakan library Scrapy, Beautiful Soup dan Selenium. Sedangkan untuk manipulasi data dapat menggunakan Numpy, Pandas dan Polars.

Analisis statistik dari data bisa menggunakan library Statsmodels, Pingouin dan SciPy. Jika data berupa deret waktu (time series) bisa dianalisis menggunakan Darts, Kats dan Tsfresh. Adapun jika data berupa bahasa manusia (natural language) dapat diproses menggunakan TextBlob, NLTK dan BERT. Terakhir, visualisasi dari data yang telah dianalisis dapat ditampilkan dengan bantuan library Plotly, Matplotlib dan Seaborn.

TIPE-TIPE DATA

Menurut kamus daring (online) Merriam Webster, data adalah (merriam-webster.com, n.d.):

  1. factual information (such as measurements or statistics) used as a basis for reasoning, discussion, or calculation
  2. information in digital form that can be transmitted or processed
  3. information output by a sensing device or organ that includes both useful and irrelevant or redundant information and must be processed to be meaningful

Dengan demikian dapat disimpulkan bahwa data adalah informasi dalam bentuk faktual atau digital untuk diproses lebih lanjut. Oleh karena itu, data mentah yang didapat dari alat-alat sensor atau hasil pengukuran atau sumber lainnya harus diproses / dianalisis lebih dulu agar dapat memberikan sesuatu yang bermakna (pengetahuan).

Dalam ilmu Statistika, terdapat beberapa jenis tipe data sebagaimana dapat dilihat pada Gambar 3 berikut.

Gambar 10 3 Tipe Tipe Data

     Sumber: Luthfiyani (n.d.)

Gambar 3. Tipe-tipe Data

Berdasarkan Gambar 3, data dapat dibagi ke dalam 2 tipe besar, yaitu Data Kategoris dan Data Numeris (Luthfiyani, n.d.):

  1. Data Kategoris/Kualitatif

Data kategoris adalah data yang menggambarkan sesuatu, namun tidak dapat dihitung dengan angka. Contohnya jenis kelamin, warna benda, film favorit, alamat rumah.

Meskipun demikian, data kategoris bisa mengandung angka di dalamnya, namun angka tersebut tidak dapat dioperasikan secara matematis. Contohnya tanggal lahir, nomor kendaraan, nomor telepon, nomor pegawai.

Selanjutnya, data kategoris dibagi lagi menjadi 2 tipe, yaitu:

  • Data Ordinal

    Data ordinal adalah data kategoris yang nilainya memiliki urutan natural.

    Contoh:

    – Jenjang pendidikan: TK, SD, SMP, SMA, sarjana, magister, doktor

    – Tingkat kesulitan: basic, intermediate, advanced

    • Data Nominal

    Data nominal adalah data kategoris yang nilai-nilainya tidak memiliki urutan natural.

    Contoh:

    – Makanan favorit: ayam goreng, nasi goreng, mie goreng, bakso

    – Jenis kelamin: pria dan wanita

    2. Data Numeris/Kuantitatif

    Data numeris adalah data yang berbentuk numeris dan merupakan jumlah dari suatu hal. Data numeris dapat dihitung dan dapat dioperasikan secara matematis. Contoh: jumlah siswa di suatu kelas, tinggi bangunan, suhu ruangan dan lain sebagainya.

    Selanjutnya, data numeris dibagi lagi menjadi 2 tipe, yaitu:

    • Data Diskrit

      Data diskrit adalah data numeris yang nilainya hanya terdiri dari bilangan bulat.

      Contoh:

      – jumlah siswa dalam kelas

      – jumlah hari dalam seminggu

      – jumlah absensi siswa

      • Data Kontinyu

      Data kontinyu adalah data numeris yang terdiri dari bilangan desimal.

      Contoh:

      – berat badan

      – luas tanah

      VISUALISASI DATA

      Hal lainnya yang cukup penting dalam analisis data adalah menampilkan data secara visual. Berikut ini diberikan suatu contoh program untuk menampilkan diagram sebar (scatter plot) menggunakan library Matplotlib (Luthfiyani, n.d.). Scatter plot adalah jenis plot yang menampilkan titik-titik di bidang kartesian, di mana posisi setiap titik ditentukan oleh nilai pada sumbu x dan sumbu y.

      import matplotlib.pyplot as plt

      import numpy as np

      X = list_skala

      Y = list_variable_A

      #membuat plotting:

      Scale = np.array(X)

      Variable_A = np.array(Y)

      plt.scatter(Scale, Variable_A)

      Plt.show()

      Penjelasan dari program di atas baris per baris adalah sebagai berikut:

      1. `import matplotlib.pyplot as plt`: Ini mengimpor modul `pyplot` dari library Matplotlib dengan nama alias `plt`, yang digunakan untuk membuat plot grafik.

      2. `import numpy as np`: Ini mengimpor modul `numpy` dengan nama alias `np`. Numpy digunakan untuk manipulasi data numeris, seperti mengubah list menjadi array, yang akan kita gunakan di sini.

      3. `X = list_skala`: Ini adalah nama variabel.

      4. `Y = list_variable_A`: Sama seperti sebelumnya

      5. `Scale = np.array(X)`: Mengubahlist skala menjadi array numpy, yang akan digunakan sebagai sumbu x dalam scatter plot.

      6. `Variable_A = np.array(Y)`: Mengubah list variabel A menjadi array numpy, yang akan digunakan sebagai sumbu y dalam scatter plot.

      7. `plt.scatter(Scale, Variable_A)`: Membuat scatter plot dengan menggunakan data dari `Scale` sebagai sumbu x dan `Variable_A` sebagai sumbu y.

      8. `plt.show()`: Menampilkan plot grafik yang telah dibuat.

      Apabila program tersebut dijalankan maka akan didapatkan scatter plot berdasarkan data yang diberikan melalui `X` dan `Y`. Namun pastikan dahulu bahwa kita sudah memiliki data yang ingin kita plot sebelum menjalankan program.

      Dapat disampaikan di sini, bahwa beberapa bentuk diagram yang populer adalah cocok untuk memvisualisasikan data berikut ini:

      1. Bar Chart (Diagram Batang): cocok untuk membandingkan kuantitas antara berbagai kategori.

      2. Line Chart (Diagram Garis): cocok untuk menunjukkan tren dalam suatu periode waktu.

      3. Pie Chart (Diagram Lingkaran): cocok untuk menunjukkan proporsi dan persentase.

      4. Scatter Plot (Diagram Sebar): cocok untuk merepresentasikan hubungan antara berbagai variabel.

      5. Histogram: cocok untuk memvisualisasikan distribusi data.

      Selanjutnya sebagai penutup, berikut ini pada Gambar 4 diberikan panduan memilih beberapa bentuk visualisasi data yang dikenal berikut contoh kasus penggunaannya.

      Gambar 10 4 Chart Visualization

                              Sumber: Chandragiri (2023)

      Gambar 4. Bentuk-bentuk visualisasi data

      PERKEMBANGAN AI UNTUK DATA ANALYTICS

      Perkembangan yang pesat dalam bidang AI (Kecerdasan Buatan) semisal dengan kehadiran ChatGPT telah sangat membantu mereka yang berminat dalam bidang ilmu Analitika Data (Data Analytics). ChatGPT dapat membantu mereka yang baru mulai belajar pemrograman Python atau pun yang sudah mahir. Hal ini karena ChatGPT 3.5 (versi gratis) pun telah dilatih untuk menguasai lebih dari 450 bahasa pemrograman, mulai dari yang paling kuno hingga mutakhir di September 2021 (Sutardi, 2023).

      ChatGPT dapat membantu para pembelajar maupun pengembang profesional dalam memberikan panduan dalam mempelajari Python, membuat potongan kode (code snippet generation), mendeteksi kesalahan kode, optimasi kode, merancang algoritma, memberikan saran panduan praktik terbaik (best practices), melakukan bug fixing, meninjau kode (code review), menerjemahkan kode dari Python ke bahasa lain atau sebaliknya (code translation) dan memberikan ide konsep proyek yang menarik (Sutardi, 2023).

      Di samping itu para pengguna ChatGPT Plus (berbayar) dapat memanfaatkan GPT yang tersedia untuk melakukan analisis data hingga menampilkannya secara visual tanpa harus membuat program dalam Python, hanya dengan cara mengunggah (upload) file data apa pun. GPT yang dapat dipakai antara lain:

      • Data Analysis, untuk analisis dan visualisasi data
      • AI 2 SQL, untuk menghasilkan SQL query sesuai dengan kebutuhan
      • SigTech, untuk analisis data dan portofolio keuangan

      Sebagai tambahan sumber daya dalam pembelajaran, pembaca dapat mengunduh (download) “ChatGPT Cheat Sheet for Data Science” yang akan sangat membantu dalam belajar pemrograman Python atau R dan SQL menggunakan ChatGPT dalam daftar referensi di bawah ini.  

      PENUTUP

      Telah dijelaskan bahwa Data Analytics (Analitika Data) merupakan ilmu Statistika yang memanfaatkan bahasa pemrograman semisal Python untuk mengotomatiskan pemrosesan data. Ia dibedakan dari Machine Learning dengan tidak digunakannya suatu model. Ia dibedakan juga dari Data Science dengan tidak digunakannya model dan juga pengetahuan di bidang ilmu tertentu untuk menginterpretasikan data yang telah dianalisis sehingga dapat diperoleh suatu wawasan yang  mendalam berdasarkan data tersebut.

      Bahasa pemrograman Python menjadi pilihan yang populer dalam Data Analytics karena bersifat terbuka (open source) dan gratis, dibandingkan dengan Matlab misalnya yang harus memiliki lisensi berbayar untuk dapat digunakan. Di samping itu, Python mempunyai kelebihan lainnya, yaitu memiliki jumlah library yang besar.

      Belakangan dengan kemunculan chatbot ChatGPT, maka ia dapat dimanfaatkan untuk membantu para pembelajar bahasa Python maupun pengembang profesional dalam memberikan panduan dalam belajar Python, membuat potongan kode (code snippet generation), mendeteksi kesalahan kode, optimasi kode, merancang algoritma, memberikan saran panduan praktik terbaik (best practices), melakukan bug fixing, meninjau kode (code review), menerjemahkan kode dari Python ke bahasa lain atau sebaliknya (code translation) dan memberikan ide konsep proyek yang menarik.

      Referensi:

      Bureau of Labor Statistics, U.S. Department of Labor. (April 17, 2024). Occupational Outlook Handbook, Data Scientists. From: https://www.bls.gov/ooh/math/data-scientists.htm

      Chandragiri, A. (2023). Unfolding the Formula of Data Science. From: https://www.linkedin.com/feed/update/urn:li:activity:7093867768600535040/

      Chandragiri, A. (2024). Exploring the Landscape of Python for Data Analytics. From: https://www.linkedin.com/feed/update/urn:li:activity:7163418082781093888/

      Chandragiri, A. (2023). Data Storytelling: A Visual Guide to Chart Selection. From: https://www.linkedin.com/feed/update/urn:li:activity:7130792566022688769

      Luthfiyani, U. K. (no date). Big Data Analytics (Powerpoint slides). 

      Merriam-webster.com. (no date). Data. From: https://www.merriam-webster.com/dictionary/data

      Rajpal, S. (April 30th, 2024). Top 30 Python Libraries To Know. From:  https://www.mygreatlearning.com/blog/open-source-python-libraries/

      Sun, Zh.H. (2023). Data, Analytics, and Intelligence. Journal of Computer Science Research,  5(4), 43-57. https://doi.org/10.30564/jcsr.v5i4.6072

      Sutardi, S. (2023). Programming dengan ChatGPT. In: Haryanti, S. (Ed.). ChatGPT untuk Pendidikan: Literasi Artificial Intelligence untuk Guru dan Dosen. Bandung: Penerbit Media Sains Indonesia.

      ChatGPT Cheat Sheet for Data Science. From:https://www.linkedin.com/posts/tscottclendaniel_%3F%3F%3F%3F%3F%3F%3F-%3F%3F%3F%3F%3F-%3F%3F%3F%3F%3F-for-activity-7189278297418027009-QDqR

      Disadur dari:

      Setiawan, A. (2024). Data Analytics. Di dalam: Hapsari, N.(Ed.) Transformasi Digital – Pengantar Literasi Digital untuk Mahasiswa. Seval Literindo Kreasi (Penerbit SEVAL), Lombok Barat.

      Keterangan:

      Penulis Bab “Data Analytics” dalam buku tersebut adalah Ir. Adi Setiawan, ST, M.Eng.Sc.,IPM yang juga dosen tetap Prodi Teknik Elektro Institut Teknologi Indonesia.

      Full ebook PDF buku yang disadur dapat diunduh pada tautan berikut: Transformasi Digital – Pengantar Literasi Digital untuk Mahasiswa.

      Tidak ada komentar

      Tinggalkan Komentar