Skip to main content

Sistem Temu Kembali Informasi

Information Retrieval System atau Sistem temu kebali adalah suatu sistem yang digunakan untuk menemukan kembali dokumen-dokumen atau informasi yang relevan yang dibutuhkan oleh pengguna yang dilakukan pada situs web. Dimana sistem ini mencari apa yang di cari oleh user, searching yang dilakukan oleh user dengan memasukan query yang ingin dicari.

Konsep dasar dari IR adalah :
    Indexing
    Searching
    Perengkingan relevansi  keyword query

Indexing
    Berfungsi menghasilkan database index
    Merupakan proses persiapan sehingga dokumen siap untuk di retrive

Konsep dasar dalam Information Retrieval System terdiri dari Indexing, Searching dan perengkingan relevansi keyword query. Dimana proses indexing dilakukan untuk membentuk database index terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk retrive. Proses indexing sendiri meliputi 2 proses, yaitu dokukmen  indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.


Tahap-tahap dalam proses indexing ialah:

    Word Token / Parsing
    Stopword Removal / filtering
    Stemming
    TF/IDF ( Term Frequency – Inversed Document Frequency )

WORD  TOKEN / PARSING

Tahap tokenizing disebut juga sebagai parsing Yaitu pengambilan kata-kata (term) dari kumpulan dokumen menjadi kumpulan term dengan cara menghapus karakter tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercas. Proses tokenizing digambarkan seperti di bawah ini:

STOPWORD REMOVAL / FILTERING

Tahap Stopword Removal atau Filtering adalah Proses penghapusan atau pembuangan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not, tetapi, yang, sedangkan dan sebagainya.

Atau merupakan tahap pengambilan kata-kata penting dari hasi token. Diagram alir Filtering dapat dilihat pada gambar dibawah ini :

STEMMING

Proses stemming adalah proses pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar. Proses stemming dilakukan untuk mendapatkan  hasil peringkat halaman informasi yang relevan. Diagram alir Stemming dapat dilihat pada gambar dibawah ini :

TF/IDF ( Term Frequency – Inversed Document Frequency )

Metode TF/IDF adalah merupakan suatu metode pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term frequency dan inverse document frequency. Diagram alir TF/IDF dapat dilihat pada gambar dibawah ini :

Contoh Perhitungan Manual text mining

Dalam contoh perhitungan nin akan akan dijabarkan proses dalam text mining , yaitu case folding, tokenizing, filtering, stemming dan analisa TF/IDF


Dokument

Berawal dari senang terhadap burung akhirnya tertarik jenis burung yang satu ini, burung yang bernama LOVEBIRD, warnanya yang menarik dan sedap dipandang mata.

Case Folding

Dalam tahap ini dilakukan proses penerimaan karakter a-z dan selain katakter tersebut akan dibuang. Hasil dari proses case folding adalah sebagai berikut:

berawal dari senang terhadap burung akhirnya tertarik jenis burung yang satu ini burung yang bernama lovebird warnanya yang menarik dan sedap dipandang mata
 
Tokeninzing

Setelah dokumen melewati tahap case folding  maka dokumen tersebut akan di parsing berdasarkan spasi agar terbentuk kumpulan kata seperti tabel dibawah ini.

by. Suaib
FTI Unisbank Sore

Popular posts from this blog

Aljaba Boolean, Aljabar Biasa

Terdapat perbedaan antara aljabar Boolean dengan aljabar biasa untuk aritmetika bilangan riil : 1.    Hukum distributif yang pertama, a . (b + c) = (a . b) + (a . c) sudah dikenal di dalam aljabar biasa, tetapi hukum distributif yang kedua, a + (b . c) = (a + b) . (a + c), benar untuk aljabar Boolean, tetapi tidak benar untuk aljabar biasa. 2.    Aljabar Boolean tidak memiliki kebalikan perkalian (multiplicative inverse) dan kebalikan penjumlahan; karena itu, tidak ada operasi pembagian dan pengurangan di dalam aljabar Boolean. 3.    Aksioma nomor 4 pada definisi 2.1 mendefinisikan operator yang dinamakan komplemen yang tidak tersedia pada aljabar biasa. 4.     Aljabar biasa memperlakukan himpunan bilangan riil dengan elemen yang tidak berhingga banyaknya. Sedangkan aljabar Boolean memperlakukan himpunan elemen B yang sampai sekarang belum didefinisikan, tetapi pada aljabar Boolean dua-nilai, B didefinisikan sebag...

Pengertian Sistem Temu kembali Informasi (IRS)

Sistem temu kembali informasi berasal dari kata Information Retrieval System (IRS). Temu kembali informasi adalah sebuah media layanan bagi pengguna untuk memperoleh informasi atau sumber informasi yang dibutuhkan oleh pengguna. Sistem temu kembali informasi merupakan sistem informasi yang berfungsi untuk menemukan informasi yang relevan dengan kebutuhan pemakai. Sistem temu kembali informasi berfungsi sebagai perantara kebutuhan informasi pengguna dengan sumber informasi yang tersedia. Pengertian yang sama mengenai sistem temu kembali informasi menurut Sulistyo-Basuki sistem temu kembali informasi adalah kegiatan yang bertujuan untuk menyediakan dan memasok informasi bagi pemakai sebagai jawaban atas permintaan atau berdasarkan kebutuhan pemakai. Dapat dinyatakan bahwa sistem temu kembali informasi memiliki fungsi dalam menyediakan kebutuhan informasi sesuai dengan kebutuhan dan permintaan penggunanya.

Cara Kerja Informasi Retrieval

Cara Kerja Information Retrieval adalah sebagai berikut 1. Sistem akan mengambil dokumen dari korpus 2. Sistem akan melakukan token atau memisahkan term berdasarkan spasi 3. Sistem akan melakukan filtering yang berguna untuk menghilangkan term yang tidak atau kurang berguna, bisa dengan tala atau andriani (kalo irs berbahasa indonesia) 4. Sistem akan melakukan stemming, atau pemisahan or pembentukan kata dasar