Data mining itu knowledge discovery from data. Data mining merupakan suatu pengetahun baru yang diekstrak dari sekian banyak data.
Data Mining itu merupakan matakuliah pilihan komputasi. Baru semester ini (2008/2009) dibuka. Karena yang ngajarnya pun baru pulang s3. Dosen yang ngajarnya paten2 dan mantap x ...
Baik dari cara ngejelasinnya atau ngajarnya. Tapi entah, penilaianya gak tau gimana karena baru perdana ikut mata kuliah dengan bpk itu. Nama dosen yang ngajar Dr. Hizir Sofyan dan Dr. Taufik Fuadi Abidin. Coba dosen-dosen lain gitu juga ya. Mungkin akan lebih baik kualitas mahasiswa-mahasiswa. Mungkin diterapin sistem luar x. (gak tau lah ...!!!)
Selama mengikuti kuliah, dah beberapa kali dikasih tugas sih. ini salah satunya buat rangkuman tentang Smoothing Data, sebenarnya sih ada 5 pilihan tapi saya pilih yang smoothing aja.
Gambar berikut merupakan contoh smoothing :
(gambar ini lupa ambil dari mana)
Selama mengikuti kuliah, dah beberapa kali dikasih tugas sih. ini salah satunya buat rangkuman tentang Smoothing Data, sebenarnya sih ada 5 pilihan tapi saya pilih yang smoothing aja.
Smoothing Data
Smoothing merupakan salah satu transformasi yang melibatkan hubungan suatu piksel dengan piksel tetangganya atau penyamaan pixel dengan sebelah-sebelahnya, untuk mengurangi kontras dan mensimulasikan citra yang tidak fokus. Smoothing bertujuan untuk menghaluskan data yang bernoise. Sedangkan noise adalah kesalahan yang terjadi secara random atau karena variasi yang terjadi dalam pengukuran variabel. Untuk menyelesaikan masalah noise adalah dengan smoothing. Ada beberapa cara pendekatan smoothing, yaitu :
1. Binning
Metode-metode binning menghaluskan nilai pada data yang terurut dengan berkonsultasi" dengan data "tetangganya", yaitu nilai-nilai di sekitarnya.
Nilai-nilai yang terurut didistribusikan ke dalam sejumlah "buckets" atau bins.
Penghalusan data secara lokal.
Nilai-nilai yang terurut didistribusikan ke dalam sejumlah "buckets" atau bins.
Penghalusan data secara lokal.
Pada contoh ini, data pertama kali diurutkan, dan kemudian dipartisi ke dalam bins dengan kedalaman yang sama, misal 3 (setiap bin berisi tiga nilai).
Binning juga digunakan sebagai suatu teknik diskretisasi
Binning juga digunakan sebagai suatu teknik diskretisasi
Contoh 1:
– Data untuk variabel harga yang terurut (dalam dollar): 4, 8, 15, 21, 21, 24, 25, 28, 34
– Pertama kali data dipartisi dalam bin-bin dengan equidepth 3 (kedalaman yang sama):
• Bin 1 : 4, 8, 15
• Bin 2 : 21, 21, 24
• Bin 3 : 25, 28, 34
– Pertama kali data dipartisi dalam bin-bin dengan equidepth 3 (kedalaman yang sama):
• Bin 1 : 4, 8, 15
• Bin 2 : 21, 21, 24
• Bin 3 : 25, 28, 34
Smoothing dengan bin-means (nilai rata-rata):
– Bin 1 : 9, 9, 9
– Bin 2 : 22, 22, 22
– Bin 3 : 29, 29, 29
– Bin 1 : 9, 9, 9
– Bin 2 : 22, 22, 22
– Bin 3 : 29, 29, 29
Smoothing dengan bin-median (nilai tengah):
– Bin 1 : 8, 8, 8
– Bin 2 : 21, 21, 21
– Bin 3 : 28, 28, 28
– Bin 1 : 8, 8, 8
– Bin 2 : 21, 21, 21
– Bin 3 : 28, 28, 28
Smoothing dengan bin-boundaries (nilai-nilai batas):
– Bin 1 : 4, 4, 15
{8 menjadi 4 karena lebih dekat ke 4 daripada ke 8}
– Bin 2 : 21, 21, 24
{21 menjadi 21 karena malahan nilainya sama}
– Bin 3 : 25, 25, 34
{28 menjadi 25 karena lebih dekat ke 25 daripada ke 34}
– Bin 1 : 4, 4, 15
{8 menjadi 4 karena lebih dekat ke 4 daripada ke 8}
– Bin 2 : 21, 21, 24
{21 menjadi 21 karena malahan nilainya sama}
– Bin 3 : 25, 25, 34
{28 menjadi 25 karena lebih dekat ke 25 daripada ke 34}
2. Clustering
Data Outliers (di luar nilai yang wajar) dapat dideteksi dengan clustering yang mengelompokkan nilai-nilai yang sama dalam sebuah group (cluster)
Secara intuitif, nilai yang berada di luar semua cluster yang terbentuk, dapat dipertimbangkan sebagai outliers. Berikut contoh data outir :
Secara intuitif, nilai yang berada di luar semua cluster yang terbentuk, dapat dipertimbangkan sebagai outliers. Berikut contoh data outir :
3. Regresion
Smoothing dapat dilakukan dengan fitting (mengepaskan) data pada sebuah function
yang diperoleh dengan perhitungan regresi.
– Regresi Linier melibatkan penemuan garis “terbaik” untuk mencocokan dua variabel, sehingga satu variabel dapat digunakan untuk meramalkan yang lain.
– Mulitiple Regresi Linier adalah perluasan dari regresi linear, dimana lebih dari dua variabel dilibatkan dan data disesuaikan pada permukaan multi dimensi.
Smoothing dapat dilakukan dengan fitting (mengepaskan) data pada sebuah function
yang diperoleh dengan perhitungan regresi.
– Regresi Linier melibatkan penemuan garis “terbaik” untuk mencocokan dua variabel, sehingga satu variabel dapat digunakan untuk meramalkan yang lain.
– Mulitiple Regresi Linier adalah perluasan dari regresi linear, dimana lebih dari dua variabel dilibatkan dan data disesuaikan pada permukaan multi dimensi.
(gambar ini lupa ambil dari mana)
Tidak ada komentar:
Posting Komentar