Deteksi outlier
Sebuah
sumber data atau dataset pada umumnya mempunyai nilai-nilai pada setiap obyek
yang tidak terlalu berbeda jauh dengan obyek lain. Akan tetapi terkadang pada
data tersebut juga ditemukan obyek-obyek yang mempunyai nilai atau sifat atau karakteristik
yang berbeda dibandingkan dengan obyek pada umumnya.
Deteksi
oulier adalah suatu teknik untuk mencari obyek dimana obyek tersebut mempunyai
perilaku yang berbeda dibandingkan obyek-obyek pada umumnya. Teknik data mining
dapat digunakan untuk mendeteksi adanya suatu outlier pada sebuah dataset.
Teknik data mining yang diganakan adalah Clustering-based, Distance-based dan
Density-based.
Metode
Clustering-based
Clustering
merupakan salah satu teknik analisis dalam Data Mining dimana clustering
melakukan pengelompokan data berdasarkan kesamaan karakteristik data. Dengan
kesamaan karakteristik pada sebuah kelompok ini dapat diambil suatu informasi yang
mempunyai arti dan berguna.
Metode
Distance-based
Sebuah
metode pencarian outlier yang popular dengan menghitung jarak pada obyek
tetangga terdekat (nearest neighbor). Dalam pendekatan ini, satu obyek melihat
obyek-obyek local neighborhood yang dedefinisikan dengan k-nearest
neighbor. Jika ketertetanggaan antar obyek relatif dekat maka dikatakan obyek
tersebut normal, akan tetapi jika ketertetanggaan antar obyek relatif sangat
jauh maka dikatakan obyek tersebut tidak normal.
Analisis
obyek data
Obyek
data dikatakan sebagai outlier apabila obyek tersebut memiliki obyek tetangga
yang sangat sedikit pada jarak tertentu dan memiliki jarak yang jauh dibandingkan
dengan jarak rata-rata obyek-obyek data tetangga terdekat.
Metode
Density-based
Metode
density-based tidak secara eksplisit mengklasifikasikan sebuah obyek adalah
outlier atau bukan, akan tetapi lebih kepada pemberian nilai kepada obyek
sebagai derajat kekuatan obyek tersebut dapat dikategorikan sebagai outlier.
Ukuran derajat kekuatan ini adalah local outlier factor (LOF).
Pendekatan untuk pencarian outlier ini hanya membutuhkan satu parameter yaitu MinPts,
dimana MinPts adalah jumlah tetangga terdekat yang digunakan untuk
mendefinisikan local neighborhood suatu obyek. MinPts diasumsikan
sebagai jangkauan dari nilai MinPtsLB dan MinPtsUB. Nilai MinPtsLB dan MinPtsUB
disarankan bernilai 10 dan 20. Akhirnya semua obyek dalam dataset dihitung nilai
LOFnya.
Analisis
obyek data
Obyek
data akan dianggap memiliki nilai outlier yang tinggi jika pada jarak k
tetangga terdekat memiliki kepadatan yang sangat kecil. Semakin banyak obyek – obyek
tetangga dalam jarak k-tetangga terdekat, obyek ini memiliki nilai LOF
mendekati 1 dan tidak seharusnya diberi label sebagai outlier.
Data
preprosesing dalam deteksi outlier merupakan hal yang penting untuk diperhatikan
karena data yang akan dihasilkan dalam deteksi outlier ini khususnya
pada kasus data berdimensi sangat tinggi.
Reduksi dimensi merupakan satu hal yang sangat menarik untuk diteliti lebih
lanjut.
Masing
– masing metode mempunyai kelebihan dan kekurangan dikarenakan dari perbedaan
sudut pandang dalam mendeteksi obyek outlier. Dengan menggabungkan
beberapa metode diharapakan saling menutupi kekurangan metode dengan kelebihan
metode yang lain.
Melihat
ketiga metode tersebut maka Metode Clustering-based menunjukkan waktu deteksi
yang sangat cepat akan tetapi memiliki akurasi yang kurang tinggi. Pada metode Clustering-based
ini salah satu hal yang sulit ditentukan adalah obyek outlier yang dihasilkan
dalam suatu klaster. Metode
Density-based memiliki akurasi yang lebih tinggi dibandingkan dengan kedua
metode lainnya. Dan Metode Distance-based memiliki kekurangan dalam waktu
proses deteksi dan hasil deteksi yang kurang akurat dibandingkan dengan metode Density-based.
Pada pengujian berbagai distribusi obyek data dapat disimpulkan bahwa metode Density-based
secara umum dapat bekerja dengan baik dalam mencari outlier, hal ini dikarenakan
metode density-based memiliki ukuran derajat kekuatan atau local outlier
factor (LOF) dan pendekatan untuk pencarian outlier ini hanya membutuhkan
satu parameter yaitu MinPts sehingga
obyek data akan dianggap memiliki nilai outlier yang tinggi jika pada
jarak k tetangga terdekat memiliki kepadatan yang sangat kecil yang menunjukkan
terjadi perbedaan data atau terdapat
outlier pada dataset tersebut.
Tidak ada komentar:
Posting Komentar