Skip to main content

Stemming Indonesia

stemming Indonesia

Pencarian informasi berupa dokumen teks atau yang dikenal dengan istilah Information Retrieval (IR) merupakan proses pemisahan dokumen-dokumen yang dianggap relevan dari sekumpulan dokumen yang tersedia. Bertambahnya jumlah dokumen teks yang dapat diakses di internet diikuti dengan meningkatnya kebutuhan pengguna akan perangkat pencarianinformasi yang efektif dan efisien. Efektif berarti user mendapatkan dokumen yang relevan dengan query yangdiinputkan. Efisien berarti waktu pencarian yang sesingkat-singkatnya.Stemming adalah salah satu cara yang digunakan untuk meningkatkan performa IR dengan cara mentransformasi kata-kata dalam sebuah dokumen teks ke kata dasarnya. Algoritma Stemming untuk bahasa yang satu berbeda denganalgoritma stemming untuk bahasa lainnya. Sebagai contoh Bahasa Inggris memiliki morfologi yang berbeda denganBahasa Indonesia sehingga algoritma stemming untuk kedua bahasa tersebut juga berbeda. Proses stemming pada teks berbahasa Indonesia lebih rumit/kompleks karena terdapat variasi imbuhan yang harus dibuang untuk mendapatkan root word

dari sebuah kata. Beberapa algoritma stemming Bahasa Indonesia telah dikembangkan sebelumnya. Penggunaanalgoritma stemming yang sesuai mempengaruhi performa sistem IR. Dalam penelitian ini akan dibandingkan duaalgoritma stemming yaitu algoritma Porter dan algoritma Nazief & Adriani.Algoritma-algoritma stemming memiliki kelebihan dan kekurangannya masing-masing. Efektifitas algoritma stemmingdapat diukur berdasarkan beberapa parameter, seperti kecepatan proses, keakuratan, dan kesalahan. Dalam tulisan ini, penulis akan membandingkan efektifitas algoritma Nazief dan Adriani dengan algoritma Porter untuk proses stemming pada teks berBahasa Indonesia, sehingga akhirnya akan diketahui algoritma manakah yang lebih cepat, lebih akurat atauyang lebih banyak melakukan kesalahan stemming. Tujuan penelitian ini adalah untuk membandingkan kemampuan danketepatan algoritma Nazief & Adriani dengan algoritma Porter untuk proses stemming pada teks berBahasa Indonesia.
Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata-kata yang terdapat dalamsuatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata bersama, kebersamaan, menyamai, akan distem ke root wordnya yaitu “sama”. Proses stemming pada teks berBahasaIndonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukanhanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks, prefiks, dan konfiks juga dihilangkan.
Melakukan proses stemming,    yaitu proses menghilangkan imbuhan yang terdapat dalam istilah, sehingga istilah tersebut menjadi kata dasar. Misalkan istilah “membaca”, “dibacakan”, “terbaca” akan diubah menjadi kata dasarnya yaitu istilah “baca”.
Manfaat dari proses stemming ini adalah    untuk    mengurangi    tempat penyimpanan istilah,    untuk meningkatkan jumlah dokumen yang terambil, dan untuk memperluas arti dari suatu istilah. Stemming dapat dikatakan sebagai proses membentuk suatu kata menjadi kata dasarnya. Misalnya:
berkata             -> kata
mengakatakan  -> kata
perkataan         -> kata
Mungkin mudah bagi manusia untuk mencari kata dasar dari suatu kata. Namun bagi komputer yang tidak tahu apa-apa adalah kesulitan tersendiri. Contoh aplikasi yang menggunakan stemming antara lain: information retrieval, mesin pencari, dll.

by. Citra Pradipta
Universitas Stikubank Semarang

Popular posts from this blog

Pengertian Sistem Temu kembali Informasi (IRS)

Sistem temu kembali informasi berasal dari kata Information Retrieval System (IRS). Temu kembali informasi adalah sebuah media layanan bagi pengguna untuk memperoleh informasi atau sumber informasi yang dibutuhkan oleh pengguna. Sistem temu kembali informasi merupakan sistem informasi yang berfungsi untuk menemukan informasi yang relevan dengan kebutuhan pemakai. Sistem temu kembali informasi berfungsi sebagai perantara kebutuhan informasi pengguna dengan sumber informasi yang tersedia. Pengertian yang sama mengenai sistem temu kembali informasi menurut Sulistyo-Basuki sistem temu kembali informasi adalah kegiatan yang bertujuan untuk menyediakan dan memasok informasi bagi pemakai sebagai jawaban atas permintaan atau berdasarkan kebutuhan pemakai. Dapat dinyatakan bahwa sistem temu kembali informasi memiliki fungsi dalam menyediakan kebutuhan informasi sesuai dengan kebutuhan dan permintaan penggunanya.

Aljaba Boolean, Aljabar Biasa

Terdapat perbedaan antara aljabar Boolean dengan aljabar biasa untuk aritmetika bilangan riil : 1.    Hukum distributif yang pertama, a . (b + c) = (a . b) + (a . c) sudah dikenal di dalam aljabar biasa, tetapi hukum distributif yang kedua, a + (b . c) = (a + b) . (a + c), benar untuk aljabar Boolean, tetapi tidak benar untuk aljabar biasa. 2.    Aljabar Boolean tidak memiliki kebalikan perkalian (multiplicative inverse) dan kebalikan penjumlahan; karena itu, tidak ada operasi pembagian dan pengurangan di dalam aljabar Boolean. 3.    Aksioma nomor 4 pada definisi 2.1 mendefinisikan operator yang dinamakan komplemen yang tidak tersedia pada aljabar biasa. 4.     Aljabar biasa memperlakukan himpunan bilangan riil dengan elemen yang tidak berhingga banyaknya. Sedangkan aljabar Boolean memperlakukan himpunan elemen B yang sampai sekarang belum didefinisikan, tetapi pada aljabar Boolean dua-nilai, B didefinisikan sebagai himpunan dengan hanya dua nilai, 0 dan 1.

Manfaat Sistem Temu kembali Informasi (IRS)

Ada beberapa fungsi utama sistem temu balik informasi seperti yang dinyatakan Chowdhury (1999: 3), bahwa ada tujuh fungsi utama sistem temu balik informasi yang dapat didaftarkan sebagai berikut: 1. Untuk mengidentifikasi informasi (sumber informasi) yang relevan dengan bidang-bidang yang sesuai dengan minat dan tujuan komunitas pemakai. 2. Untuk menganalisis isi dari sumber informasi (dokumen). 3. Untuk merepresentasikan isi dan sumber informasi yang telah dianalisis dengan cara yang sesuai untuk kemudian menyesuaikannya dengan permintaan pemakai. 4. Untuk menganalisis permintaan-permintaan pemakai dan merepresentasikannya ke dalam bentuk yang disesuaikan, untuk disesuaikan dengan database. 5. Untuk menyesuaikan pernyataan penelusuran dengan database.  6. Untuk menemukan informasi yang relevan. 7. Untuk membuat penyesuaian kebutuhan pada dasar sistem arus balik dari pemakai.