Analisis Cluster

Analisis Cluster

Definisi

Analisis cluster adalah suatu analisis statistik yang bertujuan memisahkan obyek kedalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota dalam kelompok atau variasi obyek dalam kelompok yang terbentuk sekecil mungkin.

 

Proses Analisis Cluster

Tujuan utama analisis cluster menggabungkan objek-objek yang mempunyai kesamaan kedalam sebuah kelompok atau cluster. Untuk mencapai tujuan itu kita harus menjawab tiga pertanyaan, yaitu :

(1)  Bagaimana kita mengukur tingkat kesamaan ?

(2)  Bagaimana kita membentuk cluster ?

(3)  Berapa banyak cluster yang akan kita benntuk ?

 

Proses Pengambilan Keputusan dalam Analisis Cluster

Pengambilan keputusan dengan analisis cluster memiliki 6 tahapan, yaitu : menentukan tujuan analisis cluster, menentukan desain penelitian analisis cluster, menentukan asumsi analisis cluster, menurunkan cluster-cluster dan memperkirakan overall fit, menginterpretasi hasil analisis cluster, mengukur tingkat validasi hasil analisis cluster.

 

Langkah 1 : Tujuan Analisis Cluster

Tujuan analisis cluster secara khusus antara lain :

(1)  Pengelompokkan

Analisis cluster digunakan dengan tujuan explanatory maupun confirmatory

(2)  Penyederhanaan data

           Analisis cluster menetapkan struktur dari observasi atau data bukan variabel.

(3)      Pengidentifikasian hubungan

Analisis cluster dapat menunjukkan ada tidaknya hubungan antar observasi atau obyek dalam analisis

 

Langkah 2 : Desain Penilitian dalam Analisis Cluster

Sebelum melakukan proses pemilahan obyek kedalam beberapa cluster, terlebih dahulu peneliti harus menjawab tiga pentanyaan, yaitu : apakah ourliers akan dihapus ?, bagaimana obyek-obyek yang mempunyai kesamaan diukur ?, haruskah data distandarisasi ?

 

Mendeteksi Outliers

Dalam melakukan pemilahan obyek kedalam cluster-cluster, analisis tidak hanya peka terhadap variabel-veriabel yang tidak sesuai dengan kasus yang diteliti tetapi juga peka terhadap outliers (obyek-obyek yang “berbeda” dengan obyek yang lainnya). Outliers terjadi karena 2 dua hal, yaitu :

(1)   Observasi “menyimpang” yang tidak mewakili populasi

(2)   Suatu undersampling kelompok-kelompok dalam populasi yang menyebabkan underrepresentation kelompok-kelompok dalam sampel

Dalam kedua kasus tersebut, outliers dapat mengubah struktur sebenarnya dari populasi sehingga kita akan memperoleh cluster-cluster yang tidak sesuai dengan struktur sebenarnya dari populasi tersebut. Karena itu, pembuangan outliers sangat penting dalam analisis ini. Outliers dapat dilihat melalui Profile Diagram. Outliers adalah obyek-obyek dengan profil-profil yang berbeda, atau value yang berbeda dalam satu atau beberapa variabel.

 

Kesamaan Ukuran

Konsep kesamaan yang diperlukan dalam analisis cluster. Interobject Similarity adalah sebuah ukuran untuk  kesesuaian atau kemiripan, diantara objek-objek yang akan dipilah menjadi beberapa cluster. Interobject Similarity dapat diukur dengan beberapa cara, antara lain :  Correlatioal Measures, Distance Measures, dan Association Measures. Pemilihan metode tergantung pada tujuan dan jenis data. Correlatioal Measures dan Distance Measures digunakan untuk data dengan tipe metic, sedangkan Association Measures digunakan bila data bertipe non-metic.

 

Correlatioal Measures

The Interobject Measures Similarity dapat diukur dengan corelation coefficient antara pasangan obyek-obyek yang diukur dalam beberapa variabel. Tingginya korelasi menujukkan kesamaan dan rendahnya korelasi menunjukkan ketidaksamaan.

 

Distance Measures

Distance Measures merupakan ukuran ketidaksamaan. Semakin tinggi nilainya semakin rendah kesamaan dalam pasangan obyek.

 

 Association Measures

Association Measuresbi of Similarity digunakan bila obyek-obyek yang diamati bertipe non-metic (tipe nominal atau ordinal). Misalnya, responden hanya menjawab ya atau  tidakdalam sebuah pertanyaan.

 

Standarisasi Data

Sama halnya dengan  seleksi kesamaan ukuran, dalam standarisasi data ni peneliti harus menjawab sebuah pertanyaan, yaitu : Apakah data yang tersedia harus distandarisasi? Dalam menjawab pertanyaan ini, penelti harus memperhatikan beberapa masalah, misalnya, jarak nilai dari masing-masing variabel karena perbedaan skala. Secara umum, variabel dengan penyebaran nilai yang tinggi mempunyai dampak yang lebih pada hasil akhir. Karena itu, peneliti diharapkan mengetahui secara lengkap pengukuran dari variabel-variabel. Proses standarisasi dalam analisi cluster ada dua, yaitu : standarisasi berdasarkan variabel dan standarisasi berdasarkan observasi.

 

 

 Langkah 3 : Asumsi-asumsi Analisis Cluster

Syarat normality, linearity, dan homoscedasticity sangat diperhatikan dalam teknik-teknik multivariate yang lain tetapi tidak dalam analisis cluster. Dalam analisis cluster, peneliti harus lebih memperhatikan masalah : seberapa besar sampel mewakili populasi (representativeness) dan ada tidaknya multicollinearity.

 

Langkah 4 : Menurunkan Cluster-Cluster dan Memperkirakan Overall Fit

Peneliti pertama kali harus menentukan clustering algorithm yang akan digunakan untuk membentuk cluster dan selanjutnya memutuskan berapa cluster yang akan dibentuk. Dua hal ini mempunyai implikasi yang substensial tidak hanya pada hasil yang akan diperoleh tetapi juga pada intepretasi hasil tersebut.

Clustering Algorithm

Petanyaan pertama yang harus dijawab dalam tahapan ini adalah : prosedur apa yang akan digunakan untuk mengelompokkan obyek-obyek dalam kelompok-kelompok atau cluster-cluster ? Atau dengan kata lain clustering algorithm atau aturan apa yang lebih tepat ?

Secara umum clustering algorithm digolongkan dalam dua kategori, yaitu :

(1)  Metode Hirarki

(2)  Metode Nonhirarki

 

Metode Hirarki Cluster

Dalam metode hirarki cluster terdapat dua tipe dasar yaitu agglomerative (pemusatan) dan divisive (penyebaran).  Dalam metode agglomerative, setiap obyek atau observasi dianggap sebagai sebuah cluster tersendiri. Dalam tahap selanjutnya, dua cluster yang mempunyai kemiripan digabungkan menjadi sebuah cluster baru demikian seterusnya. Sebaliknya, dalam metode divisive kita beranjak dari sebuah cluster besar yang terdiri dari semua obyek atau observasi. Selanjutnya, obyek atau observasi yang paling tinggi nilai ketidakmiripannya kita pisahkan demikian seterusnya.

Dalam agglomerative ada lima metode yang cukup terkenal, yaitu : Single Linkage, Complete Linkage, Average Linkage, Ward’s Method, Centroid Method.

Single Linkage, prosedur ini didasarkan pada jarak terkecil. Jika dua obyek terpisah oleh jarak yang pendek maka kedua obyek tersebut akan digabung menjadi satu cluster daan demikian saterusnya.

Complete Linkage, berlawanan dengan Single Linkage prosedur ini pengelompokkannya berdasarkan jarak terjauh.

Average Linkage, prosedure ini hampir sama dengan Single Linkage maupun Complete Linkage, namun kriteria yang digunakan adalah rata-rata jarak seluruh individu dalam suatu cluster dengan jarak seluruh individu dalam cluster yang lain.

Ward’s Method, jarak antara dua cluster dalam metode ini berdasarkan total sum of square dua cluster pada masing-masing variabel.

Centroid Method, jarak antara dua cluster dalam metode ini berdasarkan jarak centroid dua cluster yang bersangkutan.

 

Metode Non-Hirarki Cluster

Kebalikan dari metode hirarki, metode nonhirarki tidak meliputi proses “treelike construction“. Justru menempatkan objek-objek ke dalam cluster sekaligus sehingga terbentuk sejumlah cluster tertentu. Langkah pertama adalah memilih sebuah cluster sebagai inisial cluster pusat, dan semua objek dalam jarak tertentu ditempatkan pada cluster yang terbentuk. Kemudian memilih cluster selanjutnya dan penempatan dilanjutkan sampai semua objek ditempatkan. Objek-objek bisa ditempatkan lagi jika jaraknya lebih dekat pada cluster lain daripada cluster asalnya.  Metode nonhirarki cluster berkaitan dengan K-means custering, dan ada tiga pendekatan yang digunakan untuk menempatkan masing-masing observasi pada satu cluster.

Sequential Threshold, Metode Sequential Threshold memulai dengan pemilihan satu cluster dan menempatkan semua objek yang berada pada jarak tertentu ke dalamnya. Jika semua objek yang berada pada jarak tertentu telah dimasukkan, kemudian cluster yang kedua dipilih dan menempatkan semua objek yang berjarak tertentu ke dalamnya. Kemudian cluster ketiga dipilih dan proses dilanjutkan seperti yang sebelumnya.

Parallel Threshold, Metode Parallel Threshold merupakan kebalikan dari pendekatan yang pertama yaitu dengan memilih sejumlah cluster secara bersamaan dan menempatkan objek-objek kedalam cluster yang memiliki jarak antar muka terdekat. Pada saat proses berlangsung, jarak antar muka dapat ditentukan untuk memasukkan beberapa objek ke dalam cluster-cluster. Juga beberapa variasi pada metode ini, yaitu sisa objek-objek tidak dikelompokkan jika berada di luar jarak tertentu dari sejumlah cluster.

Optimization, Metode ketiga adalah serupa dengan kedua metode sebelumnya kecuali bahwa metode ini memungkinkan untuk menempatkan kembali objek-objek ke dalam cluster yang lebih dekat.

 

Kapan Kita Menggunakan Metode Hirarki atau metode Non-Hirarki ?

Jawaban pasti tidak untuk pertanyaan tersebut tidak ada karena dua alasan. Pertama, penelitian yang sedang diamati dimungkinkan dapat diselesaikan dengan kedua metode (hirarki atau non-hirarki). Kedua, penelitian yang diamati mungkin sebaiknya diselesaikan dengan suatu metode yang selanjutnya dengan metode yang lainnya.

Berapa Cluster yang Akan Dibentuk ?

Banyaknya cluster yang  akan dibentuk tidak dapat ditentukan secara sembarang. Penentuan banyaknya cluster yang akan dibentuk harus berdasarkan suatu teori yang akan mempengaruhi jumlah cluster secara langsung atau alami.

 

Langkah 5 : Interpretasi Cluster

Tahap interpretasi meliputi pengujian masing-masing cluster dalam terminology macam cluster untuk menamai atau memberikan keterangan secara tepat sebagai gambaran sifat dari cluster.

Ketika memulai proses interpretasi, ada satu ukuran yang sering digunakan yaitu cluster centroid. Jika prosedur pengelompokan dilakukan terhadap data asli, maka ini akan memberikan gambaran yang logic. Tetapi jika data telah distandarisasi atau jika analisis cluster dilakukan dengan menggunakan hasil analisis faktor (faktor komponen), peneliti harus mengembalikan skor asli untuk variabel asal dan menghitung rata-rata profiles menggunakan data  ini.

Gambaran dan interpretasi cluster , memberikan hasil lebih daripada deskriptif. Pertama, Metode ini memberikan sebuah rata-rata untuk perkiraan masing-masing cluster yang terbentuk sebagaimana yang dikemukakan pada toeri sebelumnya atau pengalaman praktek. Kedua, Gambaran cluster memberikan jalan untuk membuat perkiraan signifikansi praktis. Peneliti mungkin memerlukan bahwa perbedaan substansi yang ada pada sejumlah variable cluster dan penyelesaian cluster akan dikembangkan  sampai tampak sejumlah perbedaan.

 

Langkah 6 : Validasi dan Gambaran Cluster

Analisis cluster agak bersifat subjektif  dalam penentuan penyelesaian cluster yang optimal, sehingga peneliti seharusnya memberikan perhatian yang besar mengenai validasi dan jaminan tingkat signifikansi pada penyelesaian akhir dari cluster. Meskipun tidak ada metode untuk menjamin validitas dan tingkat signifikansi , beberapa pendekatan telah dikemukakan untuk memberikan dasar bagi perkiraan  peneliti.

Validasi Hasil Cluster

Validasi termasuk usaha yang dilakukan oleh peneliti untuk menjamin bahwa hasil cluster adalah representatif terhadap populasi secara umum, dan dengan demikian dapat digeneralisasi untuk objek yang lain dan stabil untuk waktu tertentu. Pendekatan langsung dalam hal ini adalah dengan analisis sample secara terpisah kemudian membandingkan antara  hasil cluster dengan perkiraan masing-masing cluster. Pendekatan ini sering tidak praktis, karena adanya keterbatasan waktu dan biaya atau ketidaktersediaan objek untuk perkalian analisis cluster. Dalam hal ini pendekatan tyang biasa digunakan adalah dengan membagi sample menjadi dua kelompok. Masing-masing dianalisis cluster secara terpisah, kemudian hasinya dibandingkan.

 

Profiling Hasil Cluster

Tahap Profiling meliputi penggambaran karakteristik masing-masing cluster untuk menjelaskan bagaimana mereka bisa berbeda secara relevan pada tiap dimensi. Tipe ini meliputi penggunaan analisis diskriminan. Prosedur dimulai setelah cluster ditentukan. Peneliti menggunakan data yang sebelumnya tidak masuk dalam prosedur cluster untuk menggambarkan karakteristik masing-masing cluster. Meskipun secara teori tidak masuk akal (rasional) dalam perbedaan silang cluster, akan tetapi hal ini diperlukan untuk memprediksi validasi taksiran, sehingga  minimal penting secara praktek.

Tag: , , ,

9 Tanggapan to “Analisis Cluster”

  1. masrobertk Says:

    Waa…. Bahan kuliah lagi yak??? Q dah lupa neh… Kudu belajar lagi neh…

  2. johan Says:

    OK

  3. marta Says:

    artikelnya bagus…ngomong tahu soal analisis hasil cluster yang dibentuk dengan menggunakan Ward Method hierarki clustering???kalo punya bahannya minta tolong dikirim ke sini nieta_imoetgithoo@yahoo.co.id.makasi banyak buat bantuannya…

  4. Rizky Says:

    mas, boleh tanya jika analisis klaster dua tahap bs digunakan u/ data yg kategorik dan kontinu…bisa tolong dijlesakn tentang analisis klaster dua tahap ? terima kasih

  5. sita Says:

    makasih banyak, berkat artikel ini sy jadi terbantu dalam belajar ngadepin UAS !! T.T
    soalnya slide yg dikasih dosen pakek basa inggris jadi ga terlalu ngerti… >.<
    alhamdulillah nemu blog ini,hehehe…🙂

  6. adel Says:

    sip mas, ni pagi-pagi mau ujian jadi ada pencerahan. hehe

  7. Prayudho BJ Says:

    Alhamdulillah .. semoga bermanfaat buat semua ….

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s


%d blogger menyukai ini: