Pembahasan mengenai Data Mart tidak bisa lepas dengan pembahasan mengenai Data Warehouse karena keduanya bisa saling mendefinisikan seperti akan dibahas pada uraian dibawah ini.
Great Debate
Arsitektur mengenai Data Mart dan Data Warehouse ini sudah lama menjadi debat yang panjang karena keduanya memang bersandar pada filosofi tentang Data Warehouse yang berbeda. Yaitu filosofi yang berbeda antara Inmon dan Kimball.
Arsitektur mengenai Data Mart dan Data Warehouse ini sudah lama menjadi debat yang panjang karena keduanya memang bersandar pada filosofi tentang Data Warehouse yang berbeda. Yaitu filosofi yang berbeda antara Inmon dan Kimball.
Mengenai apakah Data Warehouse dan apakah Data Mart, Kimbal dan Inmon memberikan pernyataan sebagai berikut:
“… The data warehouse is nothing more than the union of all the data marts …”
Data Warehouse itu tidak lebih dari sekumpulan Data Mart ..
Ralph Kimball Dec. 29, 1997.
Data Warehouse itu tidak lebih dari sekumpulan Data Mart ..
Ralph Kimball Dec. 29, 1997.
Statemen ini dibalas Inmon dengan sindiran halus sbb.:
“You can catch all the minnows in the ocean and stack them together and they still do not make a whale.”
Anda dapat menangkap minnows (sejenis ikan kecil-kecil) di laut dan menumpuknya bersama dan mereka tetap tidak bisa menjadi ikan Paus.
Bill Inmon Jan. 8, 1998.
“You can catch all the minnows in the ocean and stack them together and they still do not make a whale.”
Anda dapat menangkap minnows (sejenis ikan kecil-kecil) di laut dan menumpuknya bersama dan mereka tetap tidak bisa menjadi ikan Paus.
Bill Inmon Jan. 8, 1998.
A Data Mart is a specific, subject oriented, repository of data designed to answer specific questions for a specific set of users.
So an organization could have multiple data marts serving the needs of marketing, sales, operations, collections, etc.
A data mart usually is organized as one dimensional model as a star-schema (OLAP cube) made of a fact table and multiple dimension tables.
So an organization could have multiple data marts serving the needs of marketing, sales, operations, collections, etc.
A data mart usually is organized as one dimensional model as a star-schema (OLAP cube) made of a fact table and multiple dimension tables.
Data Mart adalah fasiltas penyimpan data yang berorentasi pada Subject tertentu atau berorentasi pada Departemen tertentu dari suatu organisasi, fokus pada kebutuhan Departemen tertentu seperti Sales, Marketing, Operation atau Collection. Sehingga suatu Organisasi bisa mempunyai lebih dari satu Data Mart.
Data Mart pada umumnya di organisasikan sebagai suatu Dimensional Model, sperti Star-Schema (OLAP Cube) yang tersusun dari sebuah tabel Fact dan beberapa tabel Dimension.
Data Mart vs. Data Warehouse
Sebenarnya Data Mart memang tidak sama dengan Data Warehouse ada banyak perbedaanya, seperti ditunjukkan pada tabel dibawah ini:
Sebenarnya Data Mart memang tidak sama dengan Data Warehouse ada banyak perbedaanya, seperti ditunjukkan pada tabel dibawah ini:
Sehubungan dengan filosofi Inmon dan Kimball yang berbeda, maka arsitektur Data Mart bisa dibedakan menjadi dua, yaitu :
Dependent Data Mart dan Independent Data Mart. Perbedaan dari kedua arsitektur tersebut hanya terletak pada ketergantungan sumber datanya terhadap data warehouse.
Dependent Data Mart dan Independent Data Mart. Perbedaan dari kedua arsitektur tersebut hanya terletak pada ketergantungan sumber datanya terhadap data warehouse.
Dependent Data Mart (Inmon advocated) berlaku sebagai komponen atau suatu bagian dari enterprise Data Warehouse, Data Mart dibangun dengan cara extract data dari Data Warehouse.
Dilain pihak pada Independent Data Mart (Kimball advocated) dibangun dengan cara extract langsung data dari berbagai Source System.
Independent Data Mart tidak tergantung pada pusat penyimpan data seperti Data Warehouse arsitektur ini biasa juga disebut sebagai “Data Warehouse Bus structure”.
Independent Data Mart tidak tergantung pada pusat penyimpan data seperti Data Warehouse arsitektur ini biasa juga disebut sebagai “Data Warehouse Bus structure”.
Kedua arsitektur diatas menentukan bagaimana Data Mart dibangun, karena itu bisa dibedakan menjadi dua pendekatan, yakni.
1. Top-Down approach
Awalnya dibangun Enterprise Data Warehouse lebih dahulu, belakangan baru diturunkan per LOB atau departemen untuk menjadi Data Mart.
1. Top-Down approach
Awalnya dibangun Enterprise Data Warehouse lebih dahulu, belakangan baru diturunkan per LOB atau departemen untuk menjadi Data Mart.
2. Bottom-Up approach
Awalnya dibangun beberapa Data Mart, belakangan beberapa Data Mart yang mempunyai Conform Dimension bisa dirangkai menggunakan
jalur bersama yang disebut Arsitektur Data Warehouse BUS (Ralph Kimball).
Awalnya dibangun beberapa Data Mart, belakangan beberapa Data Mart yang mempunyai Conform Dimension bisa dirangkai menggunakan
jalur bersama yang disebut Arsitektur Data Warehouse BUS (Ralph Kimball).
(Mengenai Arsitektur Data Warehouse selengkapnya akan dibuat dalam sesion tersendiri.)
Beberapa keuntungan dalam membangun Data Mart lebih dulu dibanding langsung membangun Data Warehouse:
- Waktu yang diperlukan untuk membangun Data Mart adalah lebih sedikit.
- Volume Data pada Data Mart lebih sedikit
- Waktu Query lebih cepat
- Biaya membangun Data Mart lebih murah.
Reff:
BI Assorted, http://www.keysoft.co.in/articledisp.aspx?ArticleId=17
Exforsys Inc, http://www.exforsys.com/tutorials/msas/data-warehouse-design-kimball-vs-inmon.html
- Waktu yang diperlukan untuk membangun Data Mart adalah lebih sedikit.
- Volume Data pada Data Mart lebih sedikit
- Waktu Query lebih cepat
- Biaya membangun Data Mart lebih murah.
Reff:
BI Assorted, http://www.keysoft.co.in/articledisp.aspx?ArticleId=17
Exforsys Inc, http://www.exforsys.com/tutorials/msas/data-warehouse-design-kimball-vs-inmon.html
Pengertian Data Warehouse
Pemanfaatan data-data historis untuk suatu organisasi menjadi sangat penting untuk pengambilan keputusan di masa mendatang. Organisasi besar terkadang mempunyai banyak sumber data dalam berbagai sistem operasional. Adanya sistem operasional yang banyak tersebut adalah untuk menjaga performa kecepatan transaksi. Namun untuk kebutuhan pelaporan dan analisis data, akan sangat menyulitkan jika harus menelusuri satu persatu sistem operasional tersebut. Untuk mengatasi masalah tersebut, harus dirancang suatu sistem yang mempunyai kemampuan untuk mengambil data dari semua sistem operasional yang ada dan didesain khusus untuk kebutuhan pelaporan dan analisis. Untuk itulah data warehouse dibuat. Data warehouse merupakan suatu lingkungan yang terancang sebagaimana “the data warehouse is the heart of the architected environment, and is the foundation of all DSS processing “ (Inmon, 2002: 31), juga merupakan landasan untuk setiap sistem pendukung keputusan. Inmon juga mengemukakan bahwa “the data warehouse is a subject-oriented, integrated, time variant and non-volatile collection of data used in strategic decision making” (Imhoff et al., 2003: 13). Dengan demikian data warehouse sangat terkait erat dengan sistem pendukung keputusan, sebagaimana yang dikemukakan oleh Power (2005, 1) bahwa :
A data warehouse is a database designed to support a broad range of decision tasks in a specific organization. It is usually batch updated and structured for rapid online queries and managerial summaries. Data warehouses contain large amounts of historical data. The term data warehousing is often used to describe the process of creating, managing and using a data warehouse
Dengan demikian dapat disimpulkan bahwa data warehouse merupakan sebuah database yang didesain khusus untuk pelaporan dan analisis masa mendatang yang akan digunakan untuk proses pendukung pengambilan keputusan. Data di data warehouse diambil dari data di berbagai macam sistem operasional dengan terlebih dahulu diselaraskan sesuai kebutuhan. Setelah data masuk ke data warehouse, maka data tidak dapat diupdate dan dihapus (non-volatile) sehingga disini terlihat manfaat dari data warehouse sebagai penyimpan data historis.
Karakteristik Data Warehouse
Berdasarkan definisi yang dikemukakan Inmon tentang data warehouse, maka data warehouse mempunyai empat buah karakteristik yaitu :
1. Subject Oriented
Sebagaimana telah dijelaskan, data di dalam data warehouse didapat dari data yang ada di sistem operasional. Pada sistem operasional tersebut data diambil berdaskan aplikasi kejadian-kejadian yang ada. Sedangkan pada data warehouse data-data yang berdasarkan aplikasi kejadian tersebut dirubah menjadi data yang berdasarkan pada subjek yang terlibat pada kejadia-kejadian tersebut. Misalnya, sebuah super market pada sistem operasionalnya mencatat transaksi penjualan yang ada di setiap kasir, pembelian barang, dan penggajian karyawan. Maka data warehouse mengelompokkan data hasil kejadian-kejadian tersebut ke dalam berbagai subjek misalnya barang, karyawan, pemasukan, penggajian, dan pemasok.
2. Integrated
Data yang tersebar di banyak sistem operasional terkadang tidak beragam, baik itu penamaan field, nilai dari sebuah field, atau tipe data yang berbeda-beda untuk suatu hal yang sama. Sebagai contoh, suatu sistem operasional mendefinisikan isi dari field jenis kelamin adalah “pria” atau “wanita”, sedangkan pada sistem operasional lain field tersebut diisi dengan “laki-laki” atau “perempuan”. Hal seperti itulah yang harus diselaraskan agar data di data warehouse seragam sehingga proses analisis dapat dilakukan
3. Non-volatile
Dikarenakan data yang ada di data warehouse adalah data historis untuk kebutuhan masa mendatang, maka data yang ada tersebut bersifat non-volatile atau dengan kata lain, sekali data di-commit untuk masuk, maka data yang telah masuk tersebut tidak dapat diupdate dan dihapus.
4. Time variant
Setiap data yang masuk ke data warehouse dicatat berbagai waktunya, dimulai dari kapan data itu masuk, kapan sebuah transaksi terjadi, kapan terjadinya perubahan. Selain itu terkadang untuk menjaga performa, tabel-tabel fisik yang ada di data warehouse dapat dikelompokkan berdasarkan waktu sesuai kebutuhan analisis. Dengan adanya pencatatan dan pengelompokan waktu tersebut akan sangat membantu dalam kegiatan analisis data historis.
Manfaat Data Warehouse
Berdasarkan pada penjelasan-penjelasan tersebut di atas, dapat disebutkan bahwa penggunaan data warehouse akan memberikan berbagai manfaat, diantaranya :
- Walaupun mahal dalam pembuatannya, namun untuk kebutuhan pelaporan dan analisis dapat lebih menghemat biaya dan waktu.
- Dikarenakan terlebih dahulu mengisi data ke data warehouse, ketidakkonsistenan yang ada dapat diketahui dan diatasi sehingga akan mempermudah pelaporan dan analisis.
- Data yang ada di dalam data warehouse dapat digunakan untuk sistem pendukung keputusan.
- Data yang ada di dalam data warehouse akan tetap ada walaupun data di sistem operasional telah berubah atau dihapus
Apa itu data mining ?
Pendahuluan Perkembangan data mining(DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS(point of sales). Database data penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data. Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai rich of data but poor of information karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan kuburan data (data tombs). Investasi yang besar di bidang IT untuk mengumpulkan data berskala besar ini perlu dijustifikasi dengan didapatnya nilai tambah dari kumpulan data ini.,
Kebutuhan dari dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka kumpulkan telah mendorong penerapan teknik-teknik analisa data dari berbagai bidang seperti statistik, kecerdasan buatan dsb pada data berskala besar itu. Ternyata penerapan pada data berskala besar memberikan tantangan-tantangan baru yang akhirnya memunculkan metodologi baru yang disebut data mining ini. Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang lain yang memerlukan analisa data berskala besar seperti bioinformasi dan pertahanan negara.
Pada tulisan ini, penulis mencoba memperkenalkan data mining dengan membandingkannya dengan bidang ilmu yang sudah ada, dan juga memberikan beberapa ilustrasi tentang teknik-teknik yang umum dipakai di data mining,
Definisi
Ada beberapa definisi dari data mining yang dikenal di buku-buku teks data mining. Diantaranya adalah :
- Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
- Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya
Menarik untuk diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining :
- data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu
- objek dari data mining adalah data yang berjumlah besar atau kompleks
- tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat
Sejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1 menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistic, database dan juga information retrieval.
Proses data mining
salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.
Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.
Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.
Disini akan diuraikan tahap-tahap umum dari data mining. Sedikit juga disinggung tentang data warehouse karena dalam prakteknya data warehouse sering menjadi bagian integral dari proses data mining.
Perlu diingat sebelum seorang analis menerapkan tahapan-tahapan data mining tsb., sebagai prasyarat penerapan data mining, diperlukan pemahaman terhadap data dan proses diperolehnya data tsb. Yang lebih mendasar lagi adalah diperlukannya pemahaman mengapa menerapkan data mining dan target yang ingin dicapai. Sehingga secara garis besar sudah ada hipotesa mengenai aksi-aksi yang dapat diterapkan dari hasilnya nanti. Pemahaman-pemahaman tsb akan sangat membantu dalam mendesain proses data mining dan juga pemilihan teknik data mining yang akan diterapkan. Selain itu, bagi dunia bisnis akan memudahkan untuk melakukan pengukuran return on investment-nya (ROI).
Sumber :
http://datamining.japati.net/cgi-bin/indodm.cgi?bacaarsip&1155527614&artikel
http://datamining.japati.net/cgi-bin/indodm.cgi?bacaarsip&1155869822&artikel
Sumber :
http://datamining.japati.net/cgi-bin/indodm.cgi?bacaarsip&1155527614&artikel
http://datamining.japati.net/cgi-bin/indodm.cgi?bacaarsip&1155869822&artikel
OLAP itu terdiri dari beberapa lagi , yaitu apa yang disebut rolap , molap , dan holap . Lalu apa bedanya , nah bedanya singkatanya juga beda , yaitu :
rolap : relational olap
molap : multidimensional olap
holap : hybrid olap
nah lalu apa bedanya ?? nah itu pertanyaan yang bagus sekali . Kalo menurut pendapat saya , rolap jelas sekali olap yang berbasiskan relational dalam rdbms , sebagai contoh hasil pembentukan table dimensi maupun table fact yang dibentuk melalui proses ETL , bisa saja itulah contoh dari rolap .
nah , kalo molap ?? molap ini multidimensioan olap , mungkin tools yang tepat untuk ini adalah olap engine , hasil dari proses olap toool , sebagai contoh Hyperion Essbase juga bisa dikatakan sebagai tool nya molap , karena si essbase ini mampu untuk membentuk dimension dimension .
nah lalu bagaimana dengan holap , holap : hybrid olap , dari namannya saja hybrid , yaitu gabungan dari rolap dan molap , yang merupakan kombinasu dari kedua duanya . Contoh nya apa ?? ya sebagai contoh tool holap ini ya si essbase ini juga …
Read more>>