Selamat datang di nHana bLog...
blog ini merupakan sarana pembelajaran,,,masih sederhana,,mohon saran dan bimbingannya...thengs ^^

Minggu, 18 Maret 2012

Metode Mendeteksi Outlier


Deteksi outlier

Sebuah sumber data atau dataset pada umumnya mempunyai nilai-nilai pada setiap obyek yang tidak terlalu berbeda jauh dengan obyek lain. Akan tetapi terkadang pada data tersebut juga ditemukan obyek-obyek yang mempunyai nilai atau sifat atau karakteristik yang berbeda dibandingkan dengan obyek pada umumnya.
Deteksi oulier adalah suatu teknik untuk mencari obyek dimana obyek tersebut mempunyai perilaku yang berbeda dibandingkan obyek-obyek pada umumnya. Teknik data mining dapat digunakan untuk mendeteksi adanya suatu outlier pada sebuah dataset. Teknik data mining yang diganakan adalah Clustering-based, Distance-based dan Density-based.

Metode Clustering-based
Clustering merupakan salah satu teknik analisis dalam Data Mining dimana clustering melakukan pengelompokan data berdasarkan kesamaan karakteristik data. Dengan kesamaan karakteristik pada sebuah kelompok ini dapat diambil suatu informasi yang mempunyai arti dan berguna.

Metode Distance-based
Sebuah metode pencarian outlier yang popular dengan menghitung jarak pada obyek tetangga terdekat (nearest neighbor). Dalam pendekatan ini, satu obyek melihat obyek-obyek local neighborhood yang dedefinisikan dengan k-nearest neighbor. Jika ketertetanggaan antar obyek relatif dekat maka dikatakan obyek tersebut normal, akan tetapi jika ketertetanggaan antar obyek relatif sangat jauh maka dikatakan obyek tersebut tidak normal.
Analisis obyek data
Obyek data dikatakan sebagai outlier apabila obyek tersebut memiliki obyek tetangga yang sangat sedikit pada jarak tertentu dan memiliki jarak yang jauh dibandingkan dengan jarak rata-rata obyek-obyek data tetangga terdekat.

Metode Density-based
Metode density-based tidak secara eksplisit mengklasifikasikan sebuah obyek adalah outlier atau bukan, akan tetapi lebih kepada pemberian nilai kepada obyek sebagai derajat kekuatan obyek tersebut dapat dikategorikan sebagai outlier. Ukuran derajat kekuatan ini adalah local outlier factor (LOF). Pendekatan untuk pencarian outlier ini hanya membutuhkan satu parameter yaitu MinPts, dimana MinPts adalah jumlah tetangga terdekat yang digunakan untuk mendefinisikan local neighborhood suatu obyek. MinPts diasumsikan sebagai jangkauan dari nilai MinPtsLB dan MinPtsUB. Nilai MinPtsLB dan MinPtsUB disarankan bernilai 10 dan 20. Akhirnya semua obyek dalam dataset dihitung nilai LOFnya.
Analisis obyek data
Obyek data akan dianggap memiliki nilai outlier yang tinggi jika pada jarak k tetangga terdekat memiliki kepadatan yang sangat kecil. Semakin banyak obyek – obyek tetangga dalam jarak k-tetangga terdekat, obyek ini memiliki nilai LOF mendekati 1 dan tidak seharusnya diberi label sebagai outlier.

Data preprosesing dalam deteksi outlier merupakan hal yang penting untuk diperhatikan karena data yang akan dihasilkan dalam deteksi outlier ini khususnya pada kasus data berdimensi sangat tinggi. Reduksi dimensi merupakan satu hal yang sangat menarik untuk diteliti lebih lanjut.

Masing – masing metode mempunyai kelebihan dan kekurangan dikarenakan dari perbedaan sudut pandang dalam mendeteksi obyek outlier. Dengan menggabungkan beberapa metode diharapakan saling menutupi kekurangan metode dengan kelebihan metode yang lain.

Melihat ketiga metode tersebut maka Metode Clustering-based menunjukkan waktu deteksi yang sangat cepat akan tetapi memiliki akurasi yang kurang tinggi. Pada metode Clustering-based ini salah satu hal yang sulit ditentukan adalah obyek outlier yang dihasilkan dalam suatu klaster. Metode Density-based memiliki akurasi yang lebih tinggi dibandingkan dengan kedua metode lainnya. Dan Metode Distance-based memiliki kekurangan dalam waktu proses deteksi dan hasil deteksi yang kurang akurat dibandingkan dengan metode Density-based. Pada pengujian berbagai distribusi obyek data dapat disimpulkan bahwa metode Density-based secara umum dapat bekerja dengan baik dalam mencari outlier, hal ini dikarenakan metode density-based memiliki ukuran derajat kekuatan atau local outlier factor (LOF) dan pendekatan untuk pencarian outlier ini hanya membutuhkan satu parameter yaitu MinPts sehingga obyek data akan dianggap memiliki nilai outlier yang tinggi jika pada jarak k tetangga terdekat memiliki kepadatan yang sangat kecil yang menunjukkan  terjadi perbedaan data atau terdapat outlier pada dataset tersebut.


Tidak ada komentar:

Posting Komentar