Tahapan Melakukan Pemodelan Data yang Terbaik

Pastilah kita semua mengetahui, bahwa data itu sebenarnya sangat penting dan vital dalam segala aspek yang erat relasinya dengan pengambilan suatu keputusan dan kebijakan terhadap objek tertentu. Tentu kita mengerti pula, bahwa data dalam prosesnya hingga sampai kepada pengambilan keputusan memerlukan analisis dan pemodelan yang tepat.
Hal tersebut dilakukan guna mengidentifikasi pola dan karakteristik data, mencari adakah faktor-faktor yang signifikan dalam data dan bagaimana mendapatkan suatu model terbaik untuk tahapan analisis nantinya. Oleh karena itu, terdapat beberapa tahapan atau stage untuk menidentifikasi karakteristik serta pemodelan data, yaitu :

1. Exploration
    Dalam tahap eksplorasi data ini, kita lihat dulu datanya, apakah terdapat outlier (karena outlier kemungkinan informasi tersebut berasal dari populasi yang lain'dunia lain' karena memang sebuah penelitian atau survey dilakukan dengan mengambil sampel, sementara sampel itu diambil berdasarkan varians dalam populasi yang pastinya terdapat variasi indikator tertentu di dalamnya) atau pencilan, tingkat, pengkalkulasian beberapa estimator nya, baik ukuran pemusatan, ukuran dispersi dan penyebarannya. Hal ini berfungsi sebagai early warning data sebagai identifikasi awal.

2.Uji Asumsi Awal
   Seperti biasanya, kita uji data tersebut dengan uji normalitas. Apakah data tersebut mengikuti distribusi data yang normal atau tidak. Jika terjadi data tidak normal, cara yang paling tepat adalah dengan menambah jumlah sampel, dengan berdasarkan Central Limit Theorem maka jika data yang berjumlah besar, maka dapat didekati dengan distribusi normal. Uji normalitas yang biasanya dipakai oleh statistisi dan para ahli adalah uji Kolmogorov-Smirnov dan Liliefors, tetapi disini biasanya terbatasi oleh ketersediaan atau jumlah data yang ada. Setelah asumsi normalitas terpenuhi, maka kita lanjutkan ke tahap berikutnya, yaitu

3. Pemodelan
    Dalam tahap pemodelan ini, kita buat beberapa calon model yang relevan dengan data yang ada.
Kemudian, kita uji besarnya korelasi antar variable bebas, dan korelasi variabel bebas terhadap variabel terikatnya atau y dalam hal ini. Kumpulkan semua informasi mengenai koefisien korelasi yang ada. Kemudian tentukan VIFnya dan  koefsien determinasinya atau R2 kemudian periksa, apakah nilai VIF > 10 atau tidak dengan ketentuan bahwa jika nilai VIF > 10 maka mengidentifikasikan adanya Multicolinearity atau adanya hubungan antar variabel bebasnya dalam hall ini X nya (khusus untuk pemodelan yang mempertimbangkan adanya interaksi antar variabel bebas), jika tidak maka lanjutkan ke tahap berikutnya, yaitu

4. Lakukan Uji terhadap β1 dan β2
    Misalnya dua variabel bebas X1 dan X2
    Lakukan Uji masing-masing koefisien tersebut dengan uji t - Students. Jika hasilnya β1 tidak signifikan dan β2 hasilnya juga tidak signifikan, maka cek dulu dengan uji F. Jika hasilnya signifikan, pastilah disini menimbulkan kecurigaan adanya Multicolinearity juga, tetapi memang tergantung pula ketersediaan datanya, kalau memang jumlahnya terbatas mau tidak mau kita harus mengecek kembali seberapa besar korelasi antar variabel. Disini jelas, jika uji F "berkata" signifikan maka hanya terdapat salah satu variabel bebas saja yang paling tepat masuk dalam model. Artinya jika X1 masuk dalam model, X2 dapat dihilangkan dari model atau sebaliknya. Untuk memutuskan hal tersebut, lagi lagi kita harus melihat besarnya masing-masing koefisien korelasinya yeng terbesar, maka variabel tersebutlah yang fit dimasukkan dalam model.
Perlu diperhatikan pula, bahwa semakin sedikit variabel yang masuk dalam model, artinya model tersebut semakin baik dan efisien karena dengan hanya satu atau beberapa variabel bebas dapat secara umum mendeskripsikan model secara umum.

** Bagaimana cara membedakan antara Interaction dan Multicolinearity ?.......
Interaksi adalah suatu kecenderungan antar variabel bebas atau variabel bebas terhadap variable terikatnya. Adanya interaksi ini berdasarkan logika atau referensi tertentu.
Sementara Multicolinearity menunjukkan korelasi yang kuat antar variabel bebasnya, namun lemah terhadap variabel terikatnya atau Y.

Kemudian terdapat beberapa metode untuk memilih model yang terbaik, apapun pemodelannya baik dengan mempertimbangkan adanya interaksi atau tidak, yaitu :

1. Koefisien Determinasi atau R2p dan Sum Square Error
    Yaitu dengan mencari nilai SSE yang terkecil, dengan demikian R2p menjadi lebih besar dimana

     R2p = 1- {SSE/SST} dimana SST adalah Sum Square Total.
    Kelemahan metode ini adalah jika variabelnya sangat banyak maka  R2p dipengaruhi oleh adanya penambahan variabel.

2. R2adjusted
    Yaitu juga dengan mencari nilai Mean Square Error (MSE), diman MSE=SSE/dof
dof adalah derajad kebebasan n-p sehingga secara matematis diformulasikan

     R2adjusted = 1 - {(SSE/(n-p)) / (SST/(n-1))}= 1 - [(n-1).{MSE/SST}]
maka kita harus mencari nilai MSE yang terkecil dan jumlah n yang besar.
Kelebihan metode ini nilainya < R2p sehingga seperti mereduce pengaruh dari penambahan variabel.

 3. Cp Mellow's Criteria
     Yaitu dengan mencari nilai Cp yang mendekati nilai parameternya atau p. Jika terdapat Q variabel maka nilai Cp yang terbaik adalah yang mendekati nilai Q+1, yang secara matematis diformulasikan

     Cp = {SSEp/MSEp} - (n-2p)

dimana, n adalah jumlah sampel sementara p adalah jumlah parameter.

 4. Stepwise Selection

 4.1 Forward Selection
       Caranya adalah dengan melakukan uji beruntun, memasukkan variabel bebas X satu per satu, sampai semua variabel telah teruji kelayakannya dalam model,
X1 > uji .....hasil tolak Ho tetap dalam model
X2 | X1 > uji ketika X2 dimasukkan dalam model saat X1 sudah ada dalam model....hasil tolak Ho, maka X2 masuk dalam model
X3|X1,X2 >uji ketika X3 dimasukkan dalam model saat X1 dan X2 sudah ada dalam model....hasil tolak Ho, maka X3 masuk dalam model
X4|X1,X2,X3  >uji ketika X4 dimasukkan dalam model saat X1,X2 dan X3 sudah ada dalam model....hasil tolak Ho, maka X4 masuk dalam model
X5| X1,X2,X3, X4 >uji ketika X5 dimasukkan dalam model saat X1,X2,X3 dan X4 sudah ada dalam model....hasil terima Ho, maka X5 tidak masuk dalam model
 (cari yang nilai t-nya terbesar)
begitu seterusnya sampai habis....

 4.2 Backward Selection
       Caranya adalah melakukan uji beruntun, dengan mengidentifikasi variabel-variabel mana saja yang harus tetap dalam model penuh dan mana yang harus dihilangkan dari model,
X1|X2,X3,X4,X5,X6,X7,X8,X9,X10,X11,X12,X13 uji apakah X1 layak dalam model, jika tolak Ho > X1 tetap ada dalam model
X2|X1,X3,.......X13 uji apakah X2 layak dalam model, jika terima tolak Ho > X2 dihilangkan dari model
X3|X1,X3,......X13  uji apakah X3 layak dalam model, jika terima tolak Ho > X3 dihilangkan dari model
X4|X1,X4,...X13 uji apakah X4 layak dalam model, jika tolak Ho > X4 tetap dalam model
begitu seterusnya sampai habis kombinasinya,...
(cari yang nilai t-nya terbesar)

5. PRESS
    Caranya adalah dengan mengurangi datanya, jadi yang minimal jumlah datanya maka itulah model yang terbaik. Selain itu, ada pula metode AIC dan SBC, hanya kurang begitu populer digunakan.

0 komentar:

Posting Komentar