Jelaskan pengertian datamining dan KDD!
Serangkaian proses untuk menggali nilai tambah berupa informasi yang
selama ini tidak diketahui secara manual dari suatu basisdata. Informasi yang
dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting
atau menarik dari data yang terdapat dalam basisdata.
Sebutkan hal-hal yang melatarbelakangi datamining?
Melimpahnya data (overload data) yang dialami oleh berbagai
institusi, perusahaan atau organisasi.
Merlimpahnya data ini merupakan akumulasi data transaksi yang
terekam bertahun-tahun..
Data–data tersebut merupakan data transaksi yang umumnya diproses
menggunakan aplikasi komputer yang biasa disebut dengan OLTP (On Line
Transaction Processing).
Sebutkan dan jelaskan manfaat penggunaan datamining?
Dari sudut pandang komersial,
pemanfaatan dataming dapat digunakan dalam menangani meledaknya
volume data. Bagaimana mana menyimpannya,
mengestraknya serta memanfaaatkannya. Berbagai teknik komputasi dapat
digunakan menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan
menjadi asset untuk meningkatkan daya saing suatu institusi. Data mining tidak
hanya digunakan untuk menangani persoalan menumpuknya data/informasi dan
bagaimana menggudangkannya tanpa kehilangan informasi yang penting
(warehousing). Data mining juga diperlukan untuk menyelesaikan permasalahan
atau menjawab kebutuhan bisnis itu sendiri, misalnya:
Bagaimana mengetahui hilangnya pelanggan karena pesaing
Bagaimana mengetahui item produk atau konsumen yang memiliki
kesamaan karakteristik
Bagaimana mengidentifikasi produk-produk yang terjual bersamaan
dengan produk lain.
Bagaimana memprediski tingkat penjualan
Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi
suatu item.
Bagaimana memprediksi prilaku bisnis di masa yang akan datang
Remote sensor yang ditempatkan pada suatu satelit
Telescope yang digunakan untuk memindai langit
Simulasi saintifik yang membangkitkan data dalam ukuran terabytes
Dari sudut pandang keilmuan
Data mining dapat digunakan untuk mengcapture, menganlisis serta
menyimpan data yang bersifat real-time dan sangat besar, misalnya:
Sebutkan dan jelaskan manfaat secara singkat tahap KDD?
KDD adalah keseluruhan proses non-trivial untuk mencari dan
mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat
sah, baru, dapat bermanfaat dan dapat dimengerti. Serangkaian proses tersebut
yang memiliki tahap sebagai berikut
Pembersihan data dan integrasi data (cleaning and integration)
Proses ini digunakan untuk membuang data yang tidak konsisten dan
bersifat noise dari data yang terdapat di berbagai basisdata yang mungkin
berbeda format maupun platform yang kemudian diintegrasikan dalam satu database
datawarehouse.
Sebutkan dan jelaskan berbagai metode seleksi?
Sampling, adalah seleksi subset representatif dari populasi data
yang besar.
Denoising, adalah proses menghilangkan noise dari data yang akan
ditransformasikan
Feature extraction, adalah proses membuka spesifikasi data yang
signifikan dalam konteks tertentu.
Sebutkan dan jelaskan berbagai metode transformasi?
Centering, mengurangi setiap data dengan rata-rata dari setiap
atribut yang ada.
Normalisation, membagi setiap data yang dicentering dengan standar
deviasi dari atribut bersangkutan.
Scaling, mengubah data sehingga berada dalam skala tertentu.
Sebutkan dan jelaskan minimal 4 fungsi yang umum diterapkan dalam
datamining?
Assosiation, adalah proses untuk menemukan aturan assosiatif
antarasuatu kombinasi item dalam suatu waktu
Secuence, hampir sama dengan association bedanya seccuencediterapkan
lebih dari satu periode.
Clastering, adalah proses pengelompokan sejumlah data/obyek kedalam
kelompok-kelompok data (klaster) sehingga setiap klaster akanberisi data yang
saling mirip.
Classification, adalah proses penemuan model atau fungsi
yangmenjelaskan atau membedakan konsep atau kelas data, dengan tujuanuntuk
dapat memperkirakan kelas dari suatu objek yang labelnya tidakdiketahui.
Berikan 4 contoh dan penjelasan implementasi datamining?
Analisa Pasar dan Manajemen
Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan
seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon,
keluhan pembeli, ditambah dengan studi tentang gaya hidup publik.
Telekomunikasi
Sebuah perusahaan telekomunikasi menerapkan data mining untuk
melihatdari jutaan transaksi yang masuk, transaksi mana sajakah yang masih
harusditangani secara manual (dilayani oleh orang). Tujuannya tidak lain
adalahuntuk menambah layanan otomatis khusus untuk transaksi-transaksi
yangmasih dilayani secara manual. Dengan demikian jumlah operator
penerimatransaksi manual tetap bisa ditekan minimal.
Keuangan
Financial Crimes Enforcement Network di Amerika Serikat baru-baru
inimenggunakan data mining untuk me-nambang trilyunan dari berbagai subyek
seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi
transaksi-transaksi keuangan yang mencurigakan (seperti money laundry). Mereka
menyatakan bahwa hal tersebut akan susah dilakukan jika menggunakan analisis
standar.
(www.senate.gov/~appropriations/treasury/testimony/sloan.htm.
Mungkinsudah saatnya juga Badan Pemeriksa Keuangan Republik Indonesia
menggunakan teknologi ini untuk mendeteksi aliran dana BLBI.
Asuransi
Australian Health Insurance Commision menggunakan data mining
untukmengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi
tetap dilakukan oleh peserta asuransi. Hasilnya? Mereka berhasil menghemat satu
juta dollar per tahunnya. ATentu saja ini tidak hanya bias diterapkan untuk
asuransi kesehatan, tetapi juga untuk berbagai jenis asuransi lainnya.
Jelaskan pengetian dari metodologi datamining berikut ini?
Regresi, Adalah fungsi pembelajaran yang memetakan sebuah unsure
data ke sebuah variable prediksi bernilai nyata.
Jaringan syaraf tiruan, Adalah jaringan dari sekelompok unit
pemroses kecil yang dimodelkan berdasarkan jaringan saraf manusia. JST
merupakan sistem adaptif yang dapat merubah strukturnya untuk memecahkan
masalah berdasarkan informasi eksternal maupun internal yang mengalir melalui
jaringan tersebut.
Pohon keputusan, adalah
digunakan untuk memodelkan persoalan yang terdiri dari serangkaian keputusan
yang mengarah ke solusi. Tiap simpul dalam menyatakan keputusan, sedangkan daun
menyatakan solusi.
Algoritma genetika, adalah teknik pencarian yang di dalam ilmu
komputer untuk menemukan penyelesaian perkiraan untuk optimisasi dan masalah
pencarian. Atau juga dapat disebut kelas khusus dari algoritma evolusioner
dengan menggunakan teknik yang terinspirasi oleh biologi evolusioner seperti
warisan, mutasi, seleksi alam dan rekombinasi (atau crossover)
Jelaskan pengertian datawarehousing dari inmon dan Poe!
Menurut W.H. Inmon dan Richard D.H., data warehousing adalah koleksi
data yang mempunyai sifat berorientasi subjek,terintegrasi,time-variant, dan
bersifat tetap dari koleksi data dalam mendukung proses pengambilan keputusan
management.
Menurut Vidette Poe, data warehousing merupakan basisdata yang
bersifat analisis dan read only yang digunakan sebagai fondasi dari sistem
penunjang keputusan.
Jelaskan pengertian dari istilah-istilah warehousing berikut ini?
Datamart, adalah Data warehouse yang mendukung kebutuhan pada
tingkat departemen atau fungsi bisinis tertentu dalam perusahaan.
OLAP, adalah sebuah pendekatan secara cepat menyediakan
jawaban-jawaban terhadap kueri analitik yang multidimensi di dalam alam. OLAP
adalah bagian dari kategori yang lebih global dari pemikiran bisnis, yang juga
merangkum hubungan antara pelaporan dan penggalian data.
Dimention Table, adalah satu kumpulan tabel teman untuk meja fakta.
Fact Table, adalah tabel yang berisi pengukuran tentang meter atau
fakta cara bisnis . itu sering ditempatkan pada memusat skema bintang dan
dikelilingi oleh tabel ukuran
Jelaskan perbedaan-perbedaan antara data operasional dengan data warehouse?
Data Operasional
Dirancang berorientasi hanya pada aplikasi dan fungsi tertentu
Fokusnya pada desain basisdata dan proses
Berisi rincian atau detail data
Relasi antar table berdasar aturan terkini(selalu mengikuti aturan
terbaru)
Data Warehouse
Dirancang berdasar pada subjek-subjek tertentu (utama)
Focusnya pada pemodelan data dan desain data
Berisi data-data history yang akan dipakai dalam proses analisis
Banyak aturan bisnis dapat tersaji antara tabel-tabel
Sebutkan dan jelaskan secara singkat tugas-tugas yang dilakukan data warehouse?
Pembuatan laporan, Pembuatan laporan merupakan salah satu kegunaan
data warehousing yang paling umum dilakukan. Dengan menggunakan query sederhana
didapatkan laporan perhari,perbulan, pertahun atau jangka waktu kapanpun yang
diinginkan.
On-Line Analytical Processing (OLAP), Dengan adanya data warehouse,
semua informasi baik detail maupun hasil summary yang dibutuhkan dalam proses
analisa mudah didapat. OLAP mendayagunakan konsep data multi dimensi dan
memungkinkan para pemakai menganalisa data sampai mendetail, tanpa mengetikkan
satupun perintah SQL. Hal ini dimungkinkan karena pada konsep multi dimensi,
maka data yang berupa fakta yang sama bisa dilihat dengan menggunakan fungsi
yang berbeda. Fasilitas lain yang ada pada sofware OLAP adalah fasilitas
rool-up dan drill-down. Drill-down adalah kemampuan untuk melihat detail dari
suatu informasi dan roll-up adalah kebalikannya.
Proses informasi eksekutif, data warehousing dapat membuat ringkasan
informasi yang penting dengan tujuan membuat keputusan bisnis, tanpa harus
menjelajahi keseluruhan data. Dengan menggunakan data warehousing segala
laporan telah diringkas dan dapat pula mengetahui segala rinciannya secara
lengkap, sehingga mempermudah proses pengambilan keputusan. Informasi dan data
pada laporan data warehousing menjadi target informatif bagi pengguna.
Sebutkan 4 keuntungan menggunakan data warehouse!
Data diorganisir dengan baik untuk query analisis dan sebagai bahan
untuk pemrosesan transaksi.
Perbedaan diantara struktur data yang heterogen pada beberapa sumber
yang terpisah dapat diatasi.
Aturan untuk transformasi data diterapkan untuk memvalidasi dan
mengkonsolidasi data apabila data dipindahkan dari basisdata OLTP ke data
warehouse
Masalah keamanan dan kinerja bisa dipecahkan tanpa perlu mengubah
sistem produksi.
Sebutkan dan jelaskan secara singkat tiga jenis dasar sistem data
warehouse?
Data Warehouse Fungsional, Data warehouse dibuat lebih dari satu dan
dikelompokan berdasar fungsi yang ada di dalam perusahaan seperti fungsi
keuangan, marketing dan personalia.
Data Warehouse Terpusta, Sumber data dikumpulkan dalam satu tempat
tempat terpusat, kemudian data tersebar ke dalam fungsinya masing-masing sesuai
kebutuhan perusahaan.
Data Warehouse Terdistribusi, dalam warehouse ini digunakan gateway
yang berfungsi sebagai jemabatan penghubung antara data warehouse dengan
workstation yang menggunakan sistem beranek ragam. Jadi dapat perusahaan dapat
mengakses sumber data yang berada di luar lokasi perusahaan.
Sebutkan 3 jenis dasar dan kelebihan dari 3 jenis dasar sistem data warehouse!
Data Warehouse Fungsional, yaitu sistem mudah dibangun dengan biaya
relatif murah.
Data Warehouse Terpusat, yaitu data benar-benar terpadu karena
konsistensinya yang tinggi.
Data Warehouse Terdistribusi,nya yaitu data tetap konsisten karena
sebelum data di gunakan data terlebih dahulu di sesuaikan atau mengalami proses
sinkronisasi.
Sebutkan dan jelaskan komponen dari struktur data warehouse!
Current detail data, data detail yg aktif saat ini
Older detail data, “Merupakan data historis dari curen detail data
Lightly summarized data, merupakan hasil ringkasan dari curen detail
data
Highly summarized data, Merupakan hasil ringkasan yang bersifat
totalitas
Metadata, data tentang data
Sebutkan dan jelaskan 4 tahap awal metodologi dalam perancangan basis data untuk data warehouse?
Predictive modeling,Adalah untuk membantu model untuk memprediksi
suatu nilai yang mempunyai cirri-ciri tertentu.
Association analysis, adalah untuk menghasilkan sejumlah rule yang
menjelaskan sejumlah data yang terhubung kuat satu dengan yang lainnya.
Clustering,Adalah untuk mengelompokan data yang sejenis sehingga
data yang berada di cluster yang sama mempunyai banyak kesamaan dibandingkan
dengan data yang ada di cluster yang berbeda.
Anomaly detection, adalah untuk menemukan anomaly atau outlier yaitu
data yang berbeda dengan data-data yang lainnya.
EmoticonEmoticon