Sunday, November 18, 2012

Retrieval System

Information Retrieval

Bagian-bagian dari sistem temu kembali informasi menurut GAMBAR DIATAS  yaitu :

1. Text Operations (operasi terhadap teks) yang meliputi pemilihan kata-kata dalam query maupun dokumen (term selection) dalam pentransformasian dokumen atau query menjadi terms index (indeks dari kata-kata).
2. Query formulation (formulasi terhadap query) yaitu memberi bobot pada indeks kata-kata query.
3. Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap query dan mengurutkan dokumen tersebut berdasarkan kesesuaiannya dengan query.
4. Indexing (pengindeksan), membangun basis data indeks dari koleksi dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan.

Tuesday, August 14, 2012

Proses Sistem Temu Kembali Informasi

IRS

Proses Sistem Temu Kembali Informasi.  Tahapan proses STKI adalah sebagai berikut:
1. Text Operations (operasi terhadap teks) yang meliputi pemilihan kata-kata dalam query maupun dokumen (term selection) dalam pentransformasian dokumen atau query menjadi terms index (indeks dari kata-kata).
2. Query formulation (formulasi terhadap query) yaitu memberi bobot pada indeks kata-kata query.
3. Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap query dan mengurutkan dokumen tersebut berdasarkan kesesuaiannya dengan query.
4. Indexing (pengindeksan), membangun basis data indeks dari koleksi dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan.

Manfaat Retrieval System

Manfaat Sistem Temu Kembali

Sistem Temu Kembali Informasi sebagai sistem yang berfungsi untuk menemukan informasi yang relevan dengan kebutuhan pemakai, merupakan salah satu tipe sistem informasi. Salah satu hal yang perlu diingat adalah bahwa informasi yang diproses terkandung dalam sebuah dokumen yang bersifat tekstual.Dalam sistem temu kembali informasi, document clustering memberikan beberapa manfaat, antara lain:
- mempercepat pemrosesan query dengan menelusur hanya pada sejumlah
kecil anggota atau wakil gugus, sehingga dapat mempercepat proses temu
kembali informasi.
- membantu melokalisir dokumen yang relevan.
- membentuk kelas-kelas dokumen sehingga mempermudah penjelajahan dan
  pemberian interpretasi terhadap hasil penelusuran.
- meningkatkan efektivitas dan efisiensi temu kembali informasi dan  memberikan alternatif metode penelusuran .

Tujuan Indexing

Tujuan Indexing

Salah satu faktor yang berpengaruh terhadap sistem temu kembali ialahpengindeksan dokumen. Pengindeksan (indexing) mencakup proses pencatatan ciri- ciri dokumen, analisis isi, klasifikasi maupun pembuatan entri ke dalam bahasa indeks. Tujuan pengindeksan ialah untuk memungkinkan ditemukannya dokumen yang relevan dengan pertanyaan (query) dengan tepat. Informasi dalam indeks adalah cantuman dari berbagai atribut yang diharapkan dapat digunakan sebagai dasar pencarian dokumen. Jika atribut tersebut berupa subjek, maka indeks yang mewakilinya disebut sebagai indeks subjek. Sedangkan bila atribut tersebut berupa pengarang, maka indeks yang mewakilinya disebut sebagai indeks pengarang. Umumnya kegiatan pengindeksan adalah berupa pengindeksan subjek, namun dalam kenyataannya di perpustakaan indeks subjek dan pengarang digunakan secara bersamaan dalam sistem temu kembali.
Indeks di perpustakaan berfungsi sebagai sarana atau kunci yang menunjukkankepada penelusur dokumen- dokumen yang potensial relevan dengan permintaannya. Sarana itu sering disebut sebagai wakil dari dokumen yang dimiliki, yaitu berupa katalog perpustakaan. Dengan demikian fungsi indeks pada database maupun perpustakaan pada prinsipnya adalah sama yaitu sebagai sarana temu kembali. Tujuan utama dari pengindeksan ialah untuk membentuk representasi dari dokumen dalam bentuk yang sesuai untuk dicantuman dalam berbagai tipe database.

Vektor Space Model, Model Probabilistik

Probabilistic

Proses temu balik dikatakan berhasil jika informasi tersebut dapat ditemukan dalam waktu yang singkat dan cepat dengan melalui tahapan atau proses yang singkat dan cepat pula. Dalam menelusur suatu informasi atau dokumen, seseorang akan merasa senang dan puas jika dalam waktu 15 menit ia berhasil menemukannya. Dan akan bertambah senang dan puas lagi jika ia berhasil menemukan informasi atau dokumen tersebut dalam 10 menit, 5 menit atau bahkan 2 menit. Kecepatan dan ketepatan itu akan semakin nyata saat teknologi informasi turut aktif menyertainya. Kehadiran komputer dalam sistem temu balik informasi atau dokumen, semakin menambah keragaman dan kemudahan dalam proses penelusuran.

Dalam Information Retrieval, mendapatkan dokumen yang relevan tidaklah cukup. Tujuan yang harus dipenuhi adalah bagaimana mendapatkan doukmen relevan dan tidak mendapatkan dokumen yang tidak relevan. Tujuan lainnya adalah bagaimana menyusun dokumen yang telah didapatkan tersebut ditampilkan terurut dari dokumen yang memiliki tingkat relevansi lebih tingi ke tingkat relevansi rendah. Penyusunan dokumen terurut tersebut disebut sebagai perangkingan dokumen. Model Ruang Vektor dan Model Probabilistik adalah 2 model pendekatan untuk melakukan hal tersebut.

Sistem Temu Balik Informasi

Sistem Temu Kembali

Sistem Temu Kembali  digunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis. Salah satu aplikasi umum dari sistem temu kembali informasi adalah search-engine atau mesin pencarian yang terdapat pada jaringan internet. Pengguna dapat mencari halaman-halaman Web yang dibutuhkannya melalui mesin tersebut.
Temu balik informasi atau dokumen adalah inti atau sari dari seluruh kegiatan yang ada di perpustakaan. Keberhasilan proses temu balik suatu informasi sangat tergantung pada proses penentuan subyek yang pilih oleh seorang pengolah informasi (pengindeks) untuk pemakai informasi. Ketepatan pemilihan subyek melalui kata atau istilah yang tepat yang disesuaikan dengan kemampuan menerjemahkan, menganalisa dan merangkum isi suatu dokumen dengan kemungkinan pemilihan kata atau istilah oleh pemakai informasi harus tepat. Atau paling tidak mendekati tepat, sehingga kecil kemungkinannya suatu informasi atau dokumen tidak ditemukan. 

Komponen Sistem Temu Kembali Informasi, komponen STKI

Komponen IR

Menurut Lancaster (1979) Sistem Temu Kembali Informasi terdiri dari 6 (enam) subsistem, yaitu:
1.    Subsistem dokumen
2.    Subsistem pengindeksan
3.    Subsistem kosa kata
4.    Subsistem pencarian
5.    Subsistem antarmuka pengguna-sistem
6.    Subsistem penyesuaian.

Dokumen sebagai objek data dalam Sistem Temu Kembali Informasi merupakan sumber informasi. Dokumen biasanya dinyatakan dalam bentuk indeks atau kata kunci. Kata kunci dapat diekstrak secara langsung dari teks dokumen atau ditentukan secara khusus oleh spesialis subjek dalam proses pengindeksan yang pada dasarnya terdiri dari proses analisis dan representasi dokumen. Pengindeksan dilakukan dengan menggunakan sistem pengindeksan tertentu, yaitu himpunan kosa kata yang dapat dijadikan sebagai bahasa indeks sehingga diperoleh informasi yang terorganisasi. Sementara itu, pencarian diawali dengan adanya kebutuhan informasi pengguna. 

Fungsi IR, Fungsi Sistem Temu Kembali Informasi

Fungsi Sistem Temu Kembali Informasi

Adapun fungsi utama Sistem Temu Kembali Informasi seperti dikemukakan oleh Lancaster (1979) dan Kent (1971) adalah sebagai berikut:
1.    Mengidentifikasi sumber informasi yang relevan dengan minat masyarakat pengguna yang ditargetkan.
2.    Menganalisis isi sumber informasi  (dokumen)
3.    Merepresentasikan isi sumber informasi dengan cara tertentu yang memungkinkan untuk dipertemukan dengan pertanyaan (query) pengguna.
4.    Merepresentasikan pertanyaan (query) pengguna dengan cara tertentu yang memungkinkan untuk dipertemukan sumber informasi yang terdapat dalam basis data.
5.    Mempertemukan pernyataan pencarian dengan data yang tersimpan dalam basis data.
6.    Menemu-kembalikan informasi yang relevan.
7.    Menyempurnakan unjuk kerja sistem berdasarkan umpan balik yang diberikan oleh pengguna.

Tujuan IR, Tujuan Sistem Temu Kembali

Tujuan Sistem Temu Kembali

Sistem Temu Kembali Informasi didisain untuk menemukan dokumen atau informasi yang diperlukan oleh masyarakat pengguna. Sistem Temu Kembali Informasi bertujuan untuk menjembatani kebutuhan informasi pengguna dengan sumber informasi yang tersedia dalam situasi seperti dikemukakan oleh Belkin (1980) sebagai berikut:
1.    Penulis mempresentasikan sekumpulan ide dalam sebuah dokumen menggunakan sekumpulan konsep.
2.    Terdapat beberapa pengguna yang memerlukan ide yang dikemukakan oleh penulis tersebut, tapi mereka tidak dapat mengidentifikasikan dan menemukannya dengan baik.
3.    Sistem temu kembali informasi bertujuan untuk mempertemukan ide yang dikemukakan oleh penulis dalam dokumen dengan kebutuhan informasi pengguna yang dinyatakan dalam bentuk pertanyaan (query).

by. beny Hidayat
UniversitasStikubank

Definisi Information Retrieval

Definisi STKI

Sistem temu kembali informasi (information retrieval) adalah ilmu pencarian informasi pada dokumen, pencarian untuk dokumen itu sendiri, pencarian untuk metadata yang menjelaskan dokumen, atau mencari di dalam database, baik relasi database yang stand-alone atau hipertext database yang terdapat pada network seperti internet atau world wide web atau intranet, untuk teks, suara, gambar, atau data.
Secara prinsip, penyimpanan informasi dan penemuan kembali informasi adalah hal yang sederhana. Misalkan terdapat tempat penyimpanan dokumen-dokumen dan seseorang (user) merumuskan suatu pertanyaan (request atau query) yang jawabannya adalah himpunan dokumen yang mengandung informasi yang diperlukan yang diekspresikan melalui pertanyaan user. User bisa saja memperoleh dokumen-dokumen yang diperlukannya dengan membaca semua dokumen dalam tempat penyimpanan, menyimpan dokumen-dokumen yang relevan dan membuang dokumen lainnya.

Definisi Stemming

definisi stemming

Stemmming merupakan salah satu proses dari pembuatan sistem temu kembali, dimana proses stemming akan dilakukan setelah proses filtering. Proses stemming ini membuat term yang ada pada tabel filtering menjadi kata dasar, dengan menghilankan semua imbuhan yang ada pada kata tersebut ( imbuhan meng-, me-, kan-, di- , i, pe, peng-, a-, dll.).

Pentingnya stemming dalam proses pembuatan sistem temu kembali yakni dimana saat menghilangkan imbuhan pada sebuah kata menjadi hal yang perlu diperhatikan. Karena dalam proses stemming yang penting yakni terlebih untuk menghilangkan imbuhan pada awalan setelah itu akhiran. Apabila yang dilakukan adalah sebaliknya maka tidak akan ditemukan kata dasar yang tepat dan sesuai dengan kamus bahasa. Dimana dari hasil proses tersebut akan didapatkan sebuah informasi mengenai banyaknya term yang muncul dalam sebuah dokumen setelah dilakukan perhitungan term frequency.

Algoritma Stemmer

algoritma stemmer

Brute force stemming. Algoritma ini adalah algoritma yang paling sederhana. Bermodalkan database kata dengan kata dasarnya, komputer dengan mudah mencari kata dasar. Namun metode ini mempunyai kelemahan yaitu jumlah database kata dan kata dasarnya harus besar. Kesalahan terjadi bila kata tidak ditemukan di database dan kemudian dianggap kata dasar, padahal bukan.

Stemming Indonesia

stemming Indonesia

Pencarian informasi berupa dokumen teks atau yang dikenal dengan istilah Information Retrieval (IR) merupakan proses pemisahan dokumen-dokumen yang dianggap relevan dari sekumpulan dokumen yang tersedia. Bertambahnya jumlah dokumen teks yang dapat diakses di internet diikuti dengan meningkatnya kebutuhan pengguna akan perangkat pencarianinformasi yang efektif dan efisien. Efektif berarti user mendapatkan dokumen yang relevan dengan query yangdiinputkan. Efisien berarti waktu pencarian yang sesingkat-singkatnya.Stemming adalah salah satu cara yang digunakan untuk meningkatkan performa IR dengan cara mentransformasi kata-kata dalam sebuah dokumen teks ke kata dasarnya. Algoritma Stemming untuk bahasa yang satu berbeda denganalgoritma stemming untuk bahasa lainnya. Sebagai contoh Bahasa Inggris memiliki morfologi yang berbeda denganBahasa Indonesia sehingga algoritma stemming untuk kedua bahasa tersebut juga berbeda. Proses stemming pada teks berbahasa Indonesia lebih rumit/kompleks karena terdapat variasi imbuhan yang harus dibuang untuk mendapatkan root word

Wednesday, August 1, 2012

Fungsi Boolean

Information Retrieval System

Dalam Aljabar Boolean, variable x disebut peubah Boolean. Fungsi Boolean adalah ekspresi yang dibentuk dari peubah Boolean melalui operasi penjumlahan, perkalian, atau komplemen.
Contoh:
1. f(x) = x
2. f(x,y) = x’y + x
3. g(x,y,z) = (x + y)’ + xyz’
Selain dengan cara aljabar, fungsi Boolean dapat dinyatakan dalam bentuk tabel kebenaran. Tabel kebenaran adalah suatu tabel yang menyatakan seluruh kemungkinan nilai peubah dari fungsinya.

Aljaba Boolean, Aljabar Biasa

Aljabar Boolean

Terdapat perbedaan antara aljabar Boolean dengan aljabar biasa untuk aritmetika bilangan riil :
1.    Hukum distributif yang pertama, a . (b + c) = (a . b) + (a . c) sudah dikenal di dalam aljabar biasa, tetapi hukum distributif yang kedua, a + (b . c) = (a + b) . (a + c), benar untuk aljabar Boolean, tetapi tidak benar untuk aljabar biasa.
2.    Aljabar Boolean tidak memiliki kebalikan perkalian (multiplicative inverse) dan kebalikan penjumlahan; karena itu, tidak ada operasi pembagian dan pengurangan di dalam aljabar Boolean.
3.    Aksioma nomor 4 pada definisi 2.1 mendefinisikan operator yang dinamakan komplemen yang tidak tersedia pada aljabar biasa.
4.     Aljabar biasa memperlakukan himpunan bilangan riil dengan elemen yang tidak berhingga banyaknya. Sedangkan aljabar Boolean memperlakukan himpunan elemen B yang sampai sekarang belum didefinisikan, tetapi pada aljabar Boolean dua-nilai, B didefinisikan sebagai himpunan dengan hanya dua nilai, 0 dan 1.

Definisi Operator Boolean

Information Retrieval Algorithms

Aljabar Boolean dapat didefinisikan secara abstrak dalam beberapa cara. Cara yang paling umum adalah dengan menspesifikasikan unsur – unsur pembentuknya dan operasi – operasi yang menyertainya.
(Definisi 2.1 – Menurut Lipschutz, Seymour & Marc Lars Lipson dalam bukunya ‘2000 Solved Problems in Discrete Mathematics’, McGraw-Hill, 1992) Misalkan B adalah himpunan yang didefinisikan pada dua operator biner, + dan ., dan sebuah operator uner,’. Misalkan 0 dan 1 adalah dua elemen yang berbeda dari B. Maka, tupel <B, +, ., ‘, 0, 1> disebut aljabar Boolean jika untuk setiap a, b, c 0 B berlaku aksioma (sering dinamakan juga Postulat Huntington) berikut :

Boolean

Information retrieval Models

Fungsi Boolean seringkali mengandung operasi–operasi yang tidak perlu, literal atau suku–suku yang berlebihan. Oleh karena itu fungsi Boolean dapat disederhanakan lebih lanjut. Menyederhanakan fungsi Boolean artinya mencari bentuk fungsi lain yang ekivalen tetapi dengan jumlah literal atau operasi yang lebih sedikit. Penyederhanaan fungsi Boolean disebut juga minimisasi fungsi.

Saturday, July 14, 2012

Manfaat Sistem Temu kembali Informasi (IRS)

Information Retrieval System Definition

Ada beberapa fungsi utama sistem temu balik informasi seperti yang dinyatakan Chowdhury (1999: 3), bahwa ada tujuh fungsi utama sistem temu balik informasi yang dapat didaftarkan sebagai berikut:
1. Untuk mengidentifikasi informasi (sumber informasi) yang relevan dengan bidang-bidang yang sesuai dengan minat dan tujuan komunitas pemakai.
2. Untuk menganalisis isi dari sumber informasi (dokumen).
3. Untuk merepresentasikan isi dan sumber informasi yang telah dianalisis dengan cara yang sesuai untuk kemudian menyesuaikannya dengan permintaan pemakai.
4. Untuk menganalisis permintaan-permintaan pemakai dan merepresentasikannya ke dalam bentuk yang disesuaikan, untuk disesuaikan dengan database.
5. Untuk menyesuaikan pernyataan penelusuran dengan database. 
6. Untuk menemukan informasi yang relevan.
7. Untuk membuat penyesuaian kebutuhan pada dasar sistem arus balik dari pemakai.

Pentingnya Sistem Temu kembali Informasi (IRS)


Banyak pakar yang mengungkapkan defenisi kebutuhan informasi. Salah satunya Krikelas dalam kutipan Ishak (2006: 91), ia mendefenisikan kebutuhan informasi sebagai berikut: “...when the current state of possessed knowledge is less than needed”. Dari pengungkapan Krikelas dapat diartikan bahwa kebutuhan informasi timbul ketika pengetahuan yang dimiliki seseorang kurang dari yang dibutuhkan, sehingga mendorong seseorang untuk mencari informasi.

Memahami kebutuhan pemakai sebenarnya tidak terlalu sulit. Melakukan pendekatan dengan pemakai (user   approach)  adalah  langkah awal untuk  dapat memahami kebutuhan informasi pemakai (information need). “Pendekatan ini dilakukan terutama untuk memahami karakteristik umum pemakai, mengetahui ruang lingkup atau konteks informasi yang dibutuhkan, mengidentifikasi subjek, dan menyeleksi sumber-sumber database yang akan digunakan dalam penelusuran” (Hasugian, 2006: 6).

Pengertian Sistem Temu kembali Informasi (IRS)

Sistem temu kembali informasi berasal dari kata Information Retrieval System (IRS). Temu kembali informasi adalah sebuah media layanan bagi pengguna untuk memperoleh informasi atau sumber informasi yang dibutuhkan oleh pengguna. Sistem temu kembali informasi merupakan sistem informasi yang berfungsi untuk menemukan informasi yang relevan dengan kebutuhan pemakai. Sistem temu kembali informasi berfungsi sebagai perantara kebutuhan informasi pengguna dengan sumber informasi yang tersedia. Pengertian yang sama mengenai sistem temu kembali informasi menurut Sulistyo-Basuki sistem temu kembali informasi adalah kegiatan yang bertujuan untuk menyediakan dan memasok informasi bagi pemakai sebagai jawaban atas permintaan atau berdasarkan kebutuhan pemakai. Dapat dinyatakan bahwa sistem temu kembali informasi memiliki fungsi dalam menyediakan kebutuhan informasi sesuai dengan kebutuhan dan permintaan penggunanya.

Pencarian dengan Metode Vektor Space Model (VSM)

Pencarian dalam sistem temu balik merupakan hal yang dibutuhkan, hal ini dikarenakan ketepatan pencarian sesuai keyword yang dimasukkan user dengan dokumen yang jumlahnya banyak. Vector space model adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana t adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks. Selanjutnya akan dihitung nilai cosinus sudut dari dua vektor, yaitu W dari tiap dokumen dan W dari kata kunci.

Vector space model solusi atas permasalah yang dihadapi jika menggunakan algoritma TF/IDF.Karena pada algoritma TF/IDF terdapat kemungkinan antar dokumen memiliki bobot yang sama, sehingga ambigu untuk diurutkan

Friday, July 13, 2012

Sistem Temu Kembali Informasi

Information Retrieval System atau Sistem temu kebali adalah suatu sistem yang digunakan untuk menemukan kembali dokumen-dokumen atau informasi yang relevan yang dibutuhkan oleh pengguna yang dilakukan pada situs web. Dimana sistem ini mencari apa yang di cari oleh user, searching yang dilakukan oleh user dengan memasukan query yang ingin dicari.

Konsep dasar dari IR adalah :
    Indexing
    Searching
    Perengkingan relevansi  keyword query

Indexing
    Berfungsi menghasilkan database index
    Merupakan proses persiapan sehingga dokumen siap untuk di retrive

Konsep dasar dalam Information Retrieval System terdiri dari Indexing, Searching dan perengkingan relevansi keyword query. Dimana proses indexing dilakukan untuk membentuk database index terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk retrive. Proses indexing sendiri meliputi 2 proses, yaitu dokukmen  indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.

Information Retrieval

Information Retrieval (IR) atau lebih dikenal dengan sistem temu kembali dewasa ini banyak diaplikasikan pada banyak disiplin ilmu.  Aplikasi IR sangat bermanfaat untuk banyak user.  Diantara manfaat yang bisa didapatkan adalah karena hasil dari IR bisa membantu memecahkan masalah user.  IR akan mengembalikan informasi sesuai dengan query yang di input oleh user.  IR akan menampilkan hasil pencarian kepada user, IR akan menampilkan informasi yang relevan.
Proses kerja IR atau cara kerja IR yang utama melalui 3 proses yang dikenal dengan PREprosesing.  Preprosesing didalamnya terdapat proses-proses sebagai berikut :
1. Tokenizing (tokenisasi)
2. Filtering (penyaringan atau seleksi)
3. Stemming (pembuatan kata dasar)


Information Retrieval System

Information Retrieval System (IRS) atau dikenal juga sebagai Sistem Temu kembali Informasi (STKI) merupakan ilmu yang mempelajari tentang bagaimana menemukan sebuah informasi baik itu dokumen berupa teks atau yang lainnya.  Implementasi dari IRS ini bisa dilakukan pada sistem terbuka maupun tertutup.
Sistem terbuka artinya STKI tersebut digunakan pada sistem online, sedangkan sistem tertutup artinya sistem itu berjalan pada sistem offline atau dunia nyata.
Aplikasi IRS ini secara tidak langsung sudah digunakan oleh anda, seperti aplikasi menggunakan mesin pencari yang ada pada google.com, yahoo.com, msn.com, bing.com atau yang lainnya.  Lebih jauh tentang iIRS atau STKI ini bisa ada simak seterusnya pada blog ini.

Evaluating Search Engines