Exploratory Data Analysis (EDA) Menjadi Tahapan Penting dalam Data Science 

Palapanews.com – Salah satu tahap dalam data science adalah Exploratory Data Analysis (EDA). Hal ini dianggap penting karena berperan dalam menentukan bagaimana proses pengolahannya terhadap data tersebut.

Dalam belajar data science, seorang talenta data dituntut harus paham pada tahapan ini. Maka dari itu, melalui talkshownya yang berjudul “Setiap Data Punya Cerita: Berkenalan dengan Exploratory Data Analysis” DQLab memberikan materi pengenalan dasar EDA pada pemula. Materi ini dibawakan secara daring oleh Ronny Fahrudin selaku Data Scientist di S3 Innovate Pte.Ltd. pada Rabu, 13 April 2022. 

Pengenalan data science sebagai materi pembuka sebelum masuk ke materi utama. Data science adalah ilmu interdisiplin tentang metode komputasi yang digunakan untuk memperoleh insight dari kumpulan data. EDA mencakup tiga fase, yaitu desain data, mengumpulkan data dan analisis data.

“Data science tidak akan jauh-jauh dari EDA, karena dalam menemukan insight dan solusi dibutuhkan EDA,” kata Ronny.

Memasuki era industri 4.0, data science mulai dianggap penting karena kehidupan sudah mulai tidak bisa lepas dari media sosial. Data-data tersebut selalu tumbuh dan tidak bisa berkurang, biasanya disebut big data. Kumpulan big data harus dimanfaatkan melalui pengolahan data science, agar menghasilkan insight dan solusi yang baik. 

“Nanti di industri 5.0 diperkirakan teknologi dan manusia bisa diselaraskan dengan data science,” ucap Ronny.

Dalam data science terdapat tujuh proses penggunaan data science. Dimulai dari problem definition, data mining, data preparation, exploratory data analysis, feature engineering, model building dan model evaluation. 

Baca juga: Tertarik dengan Data Science? Ini Dia Profesi Cemerlang untuk Kamu Versi DQLab UMN

Memasuki pembahasan EDA, dimulai dengan pengertiannya terlebih dahulu. Exploratory Data Analysis (EDA) adalah proses kritis dalam melakukan pengamatan awal pada data untuk menemukan pola, menemukan anomali, menguji hipotesis dan memeriksa asumsi dengan bantuan ringkasan statistik dan representasi grafis melalui visualisasi data.

EDA digunakan untuk menemukan struktur yang tidak terduga dalam data, mengidentifikasi variabel penting dalam dataset, menguji hipotesis atau cek asumsi-asumsi yang berhubungan dengan dataset, mengecek kualitas data yang dilanjutkan dengan proses cleansing dan processing, mencari hubungan sebab akibat yang ada dalam data, serta menyampaikan insight data kepada stakeholder.

Dalam menentukan data yang berkualitas, ada beberapa tips dengan memanfaatkan parameter menilai data. Hal pertama, yang harus dicek untuk menentukan kualitas data yaitu apakah data yang digunakan sudah sesuai dengan kebutuhan bisnis dan harapan.

Hal kedua, akurasi data harus sesuai dengan realitas dunia nyata. Hal ketiga, data harus konsisten terhadap data sebelumnya. Hal keempat, data harus relevan dengan masa kini. Hal kelima, data tidak boleh duplikat dan harus valid. Dan terakhir, data harus tersedia dan diketahui asal data tersebut.

Ronny juga menjelaskan step dalam EDA, mulai dari mengamati kumpulan data yang ada, mencari missing value dan membenahinya, jika diperlukan mengkategorikan data berdasarkan categorical dan numerical, identifikasi hubungan antar variabel dan indentifikasi outliers, skewness data, hingga aplikasikan statistik deskriptif dan interentials.

Masuk pada tahapan EDA dalam Python. Biasanya tools yang digunakan pada tahapan ini adalah NumPy, Pandas dan Scipy. Tools ini digunakan untuk transform dan cleaning, namun juga memiliki fungsi yang berbeda-beda. Numpy berfungsi melakukan proses komputasi numerik terutama dalam bentuk array multidimensional.

Pandas berfungsi untuk load data, prepare data, modelling data dan manipulation data. Sedangkan Scipy berfungsi untuk bekerja dengan array NumPy dan menyediakan banyak komputasi numerik yang ramah untuk pengguna dan efisien. 

Dalam Python, untuk membandingkan sebuah data dapat dilakukan dengan visualisasi data. Tools yang bisa digunakan seperti Matplotlib, Seaborn, Folium dan Plotly. Keempatnya memiliki fungsinya masing masing, Matplotlib digunakan untuk visualisasi data simple, Seaborn digunakan untuk visualisasi data yang cantik dan berwarna-warni, Folium digunakan untuk visualisasi data maps geografis, sedangkan Plotly digunakan untuk interaktif visualisasi.

Tujuan dari visualisasi data itu sendiri juga bermacam-macam tergantung jenis visualisasi data yang digunakan. Seperti bar chart dan bullet chart digunakan untuk perbandingan, scatterplot dan heatmap digunakan untuk korelasi, histogram dan boxplot digunaka untuk distribusi, line chart dan area chart digunakan untuk evaluasi tren, serta pie chart dan treemap digunakan untuk keseluruhan bagian. 

Penjelasan Ronny sampai pada tujuan visualisasi data pada EDA. Pesan dari Ronny, untuk menjadi praktisi data bekal yang harus dibawa adalah programming knowledge dan pemahaman bahasa pemrograman seperti R, Python dan lain-lain. Sehingga penyampaian materi EDA ini diharapkan bisa menjadi bekal yang cukup untuk berkarir di bidang data, EDA menjadi salah satu materi penting untuk dikuasai, dalam proses data science pasti akan melewati EDA. Mulai pelajari data science dan EDA bersama https://dqlab.id/. (red)

Komentar Anda

comments