I.
Pengertian
Information Retrieval
Information
Retrieval merupakan bagian dari computer science yang berhubungan
dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan
konteks dari dokumen-dokumen itu sendiri. Berdasarkan referensi dijelaskan
bahwa Information Retrieval merupakan suatu pencarian informasi yang didasarkan pada suatu query yang
diharapkan dapat memenuhi keinginan user dari kumpulan dokumen yang
ada. Beberapa pengertian Information Retrieval dari berbagai sumber, antara
lain :
Information Retrieval adalah “studi
tentang sistem pengindeksan, pencarian, dan mengingat data, khususnya teks atau
bentuk tidak terstruktur lainnya.”[virtechseo.com]
“Information Retrieval adalah seni
dan ilmu mencari informasi dalam dokumen, mencari dokumen itu sendiri, mencari
metadata yang menjelaskan dokumen, atau mencari dalam database, apakah
relasional database itu berdiri sendiri atau database hypertext jaringan
seperti Internet atau intranet, untuk teks , suara, gambar, atau data “
[Wikipedia]
Information
Retrieval adalah “bidang di persimpangan ilmu informasi dan ilmu komputer. Berkutat dengan pengindeksan dan pengambilan
informasi dari sumber informasi heterogen dan sebagian besar-tekstual. Istilah
ini diciptakan oleh Mooers pada tahun 1951, yang menganjurkan bahwa diterapkan
ke “aspek intelektual” deskripsi informasi dan sistem untuk pencarian (Mooers,
1951). “ [Hersh, 2003]
Informasi atau data yang dicari dapat berupa berupa teks,
image, audio, video dan lain-lain. Koleksi data teks yang dapat dijadikan
sumber pencarian juga dapat berupa pesan teks, seperti e-mail, fax, dan dokumen
berita, bahkan dokumen yang beredar di internet. Dengan jumlah dokumen koleksi
yang besar sebagai sumber pencarian, maka dibutuhkan suatu sistem yang dapat
membantu user menemukan dokumen yang relevan dalam waktu yang singkat dan
tepat.
2. Cara kerja IR dan contoh pada kasus mesin
pencari (search-engine):
Cara Kerja Informasi Retrieval
Cara Kerja Information Retrieval adalah sebagai berikut
1. Sistem akan mengambil dokumen dari korpus
2. Sistem akan melakukan token atau memisahkan term
berdasarkan spasi. Misalnya dalam sebuah pencarian SEPAK BOLA maka akan menampilkan
dua hasil pencarian yg pertama diantaranya : tentang Sepak
bola dan tentang bola juga ditampilkan seperti gambar
ini.
3. Sistem akan melakukan filtering yang berguna untuk
menghilangkan term yang tidak atau kurang berguna, bisa dengan tala atau
andriani (kalo irs berbahasa indonesia)
5. Sistem akan menyimpan hasil
stemming untuk keperluan di ambil atau di retrieve manakala ada penelusuran
kata atau term yang sesuai
Cra Kerja Search Engine
Mesin pencari web atau yang lebih dikenal dengan
istilah web search engine merupakan program komputer yang dirancang untuk
mencari informasi yang tersedia didalam dunia maya. Berbeda halnya dengan
direktori web (seperti dmoz.org) yang dikerjakan oleh manusia untuk
mengelompokkan suatu halaman informasi berdasarkan kriteria yang ada, web
search engine mengumpulkan informasi yang tersedia secara otomatis.
Mesin pencari web bekerja dengan cara
menyimpan hampir semua informasi halaman web, yang diambil langsung dari www.
Halaman-halaman ini diambil secara otomatis. Isi
setiap halaman lalu dianalisis untuk menentukan cara mengindeksnya.
(misalnya, kata-kata diambil dari judul,
subjudul, atau field khusus yang disebut meta tag).
Data tentang halaman web disimpan dalam sebuah
database indeks untuk digunakan dalam pencarian selanjutnya. Sebagian mesin
pencari, seperti Google, menyimpan seluruh atau sebagian halaman sumber (yang
disebut cache) maupun informasi tentang halaman web itu sendiri.
Ketika seorang pengguna mengunjungi mesin pencari
dan memasukkan query, biasanya dengan memasukkan kata kunci, mesin mencari
indeks dan memberikan daftar halaman web yang paling sesuai dengan kriterianya,
biasanya disertai ringkasan singkat mengenai judul dokumen dan terkadang
sebagian teksnya.
Mesin pencari lain yang menggunakan proses real-time, seperti Orase, tidak menggunakan indeks dalam cara kerjanya. Informasi yang diperlukan mesin tersebut hanya dikumpulkan jika ada pencarian baru. Jika dibandingkan dengan sistem berbasis indeks yang digunakan mesin-mesin seperti Google, sistem real-time ini unggul dalam beberapa hal seperti informasi selalu mutakhir, (hampir) tak ada broken link, dan lebih sedikit sumberdaya sistem yang diperlukan (Google menggunakan hampir 100.000 komputer, Orase hanya satu.). Tetapi, ada juga kelemahannya yaitu pencarian lebih lama rampungnya.
Komponen utama dalam Search Engine
Sebuah search engine memiliki beberapa komponen
agar dapat menyediakan layanan utamanya sebagai sebuah mesin pencari informasi.
Komponen tersebut antara lain :
1.
Web Crawler
Web Crawler atau yang dikenal juga dengan istilah
web spider bertugas untuk mengumpulkan semua informasi yang ada di dalam
halaman web.
Web crawler bekerja secara otomatis dengan cara
memberikan sejumlah alamat website untuk dikunjungi serta menyimpan semua
informasi yang terkandung didalamnya. Setiap kali web crawler mengunjungi
sebuah website, maka dia akan mendata semua link yang ada dihalaman yang
dikunjunginya itu untuk kemudian di kunjungi lagi satu persatu.
Proses web crawler dalam mengunjungi setiap
dokumen web disebut dengan web crawling atau spidering. Beberapa websites,
khususnya yang berhubungan dengan pencarian menggunakan proses spidering untuk
memperbaharui data data mereka. Web crawler biasa digunakan untuk membuat
salinan secara sebhagian atau keseluruhan halaman web yang telah dikunjunginya
agar dapat dip roses lebih lanjut oleh system pengindexan. Crawler dapat juga
digunakan untuk proses pemeliharaan sebuah website, seperti memvalidasi kode
html sebuah web, dan crawler juga digunakan untuk memperoleh data yang khusus
seperti mengumpulkan alamat e-mail.
Web crawler termasuk kedalam bagian software agent atau yang lebih dikenal dengan istilah program bot. Secara umum crawler memulai prosesnya dengan memberikan daftar sejumlah alamat website untuk dikunjungi, disebut sebagai seeds. Setiap kali sebuah halaman web dikunjungi, crawler akan mencari alamat yang lain yang terdapat didalamnya dan menambahkan kedalam daftar seeds sebelumnya.
Dalam melakukan prosesnya, web crawler juga mempunyai beberapa persoalan yang harus mampu di atasinya. Permasalahan tersebut mencakup :
- Halaman mana yang harus dikunjungi terlebih dahulu.
- Aturan dalam proses mengunjungi kembali sebuah halaman.
- Performansi, mencakup banyaknya halaman yang harus dikunjungi.
- Aturan dalam setiap kunjungan agar server yang dikunjungi tidak kelebihan beban.
- Kegagalan, mencakup tidak tersedianya halaman yang dikunjungi, server down, timeout, maupun jebakan yang sengaja dibuat oleh webmaster.
- Seberapa jauh kedalaman sebuah website yang akan dikunjungi.
- Hal yang tak kalah pentingnya
adalah kemampuan web crawler untuk mengikuti
perkembangan teknologi web, dimana setiap kali teknologi baru muncul, web crawler harus dapat menyesuaikan diri agar dapat mengunjungi halaman web yang menggunakan teknologi baru tersebut.
Proses sebuah web crawler untuk mendata link–link
yang terdapat didalam sebuah halaman web menggunakan pendekatan regular
expression. Crawler akan menelurusi setiap karakter yang ada untuk menemukan
hyperlink tag html ().
Setiap hyperlink tag yang ditemukan diperiksa
lebih lanjut apakah tag tersebut mengandung atribut nofollow rel, jika tidak
ada maka diambil nilai yang terdapat didalam attribute href yang merupakan
sebuah link baru.
2.
Indexing System
Indexing system bertugas untuk menganalisa
halaman web yang telah tersimpan sebelumnya dengan cara mengindeks setiap
kemungkinan term yang terdapat di dalamnnya. Data term yang ditemukan disimpan
dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya.
Indexing system mengumpulkan, memilah dan
menyimpan data untuk memberikan kemudahan dalam pengaksesan informasi secara
tepat dan akurat. Proses pengolahan halaman web agar dapat digunakan untuk
proses pencarian berikutnya dinakamakan web indexing. Dalam implementasinya
index system dirancang dari penggabungan beberapa cabang ilmu antara lain ilmu
bahasa, psikologi, matematika, informatika, fisika, dan ilmu komputer.
Tujuan dari penyimpanan data berupa indeks adalah
untuk performansi dan kecepatan dalam menemukan informasi yang relevan
berdasarkan inputan user. Tanpa adanya indeks, search engine harus melakukan
scan terhadap setiap dokumen yang ada didalam database. Hal ini tentu saja akan
membutuhkan proses sumber daya yang sangat besar dalam proses komputasi.
Sebagai contoh, indeks dari 10.000 dokumen dapat diproses dalam waktu beberapa
detik saja, sedangkan penulusuran secara berurutan setiap kata yang terdapat di
dalam 10.000 dokumen akan membutuhkan waktu yang berjam lamanya. Tempat
tambahan mungkin akan dibutuhkan di dalam computer untuk penyimpanan indeks,
tapi hal ini akan terbayar dengan penghematan waktu pada saat pemrosesan
pencarian dokumen yang dibutuhkan.
3.
Search system
Search system inilah yang berhubungan langsung
dengan pengguna, meyediakan hasil pencarian informasi yang diinginkan. Ketika
seorang pengguna mengunjungi mesin pencari dan memasukkan kata pencarian
biasanya dengan beberapa kata kunci, search system akan mencari data dari
indeks database, data yang cocok kemudian akan ditampilkan, biasanya disertai
ringkasan singkat mengenai judul dokumen dan terkadang sebagian teksnya.
3.
Bagaimana masa depan IR jika dihubungkan dengan kebutuhan manusia?Jelaskan
dengan detil.
Boleh diakui kebutuhan manusia masa kini tak bisa
lepas dari Information Retrieval/Temu Kembali Informasi. Sebagai contoh IR
dalam implementasinya sebagai Search Engine bisa menguntungkan
namun terkadang bisa juga merugikan. IR terus berevolusi, dari masalah yang
konservatif hingga masa kini, contoh sederhana sebuah Perpustakaan dari
pengumpulan dan pencarian data secara manual yang membutuhkan waktu lama hingga
diterapkannya system komputerisasi yang lebih efektif dan efisien dalam
pengumpulan dan pencarian data.
Berikut prediksi masa depan IR hubungannya dengan manusia:
Berikut prediksi masa depan IR hubungannya dengan manusia:
1. Semakin banyak orang menggunakan IR via
internet.
Berdasarkan data dari Internet World Stats (IWS),
total pengguna internet di dunia saat ini telah mencapai 1,7 miliar orang. Coba
bandingkan dengan keseluruhan populasi masyarakat seluruh dunia yang berjumlah
6,7 miliar orang. Tak diragukan lagi, pada 2020 akan semakin banyak orang yang
akan memiliki akses internet. National Science Foundation bahkan memprediksi
bahwa pengguna internet akan membludak hingga lima miliar orang.
2. IR akan membawa konten berkapasitas
exabytes bahkan zettabytes dalam dunia internet.
Para ahli menyebut istilah ‘exaflood’ untuk
menunjuk pertumbuhan jumlah data yang sangat cepat, yang ditransfer melalui
Internet. Cisco memperkirakan di 2012 trafik internet global akan naik hingga
44 exabytes per bulan, dua kali lipat dari trafik internet sekarang, yang
artinya juga sangat berpengaruh pada layanan Search Engine sebagai implemetasi
IR.
3. IR akan semakin Wireless
Jumlah pelanggan broadband mobile di dunia saat
ini membludak, mencapai angka 257 juta pada kuartal kedua 2009. Angka ini
mewakili pertumbuhan konsumen 3G, WiMAX dan layanan akses data berkecepatan
tinggi lainnya sebesar 85 persen. Pada 2014, para analis memprediksi akan ada
sekira 2,5 miliar orang yang berlangganan layanan broadband mobile, dengan
demikian IR tidak hanya didapatkan dalam internet tetapi dalam perkembangannya
bisa mobile dimana saja dengan aplikasinya.
4. Semakin banyak layanan berbasis IR
Para ahli sepakat bahwa dalam beberapa tahun ke
depan akan ada lebih banyak layanan berbasis cloud computing (komputasi awan)
atau berbasis internet. Studi terbartu dari Telecom Trends International
memperkirakan bahwa cloud computing akan meningkatkan pendapatan hingga USD45,5
miliar pada 2015.
5. Manajemen jaringan akan lebih otomatis
Selain lemah dari sisi keamanan, kelemahan
terbesar internet saat ini adalah kurang mapannya teknik manajemen jaringan.
Itu sebabnya, salah satu lembaga bernama National Science Foundation berambisi
dalam membuat perangkat manajemen jaringan terbaru. Dengan perangkat ini sistem
rebooot, pengumpulan data dan tugas lainnya bisa dilakukan secara otomatis.
6. IR tidak akan selalu bergantung pada
konektivitas yang selalu ‘on’
Dengan kian banyaknya pengguna internet di
pedalaman dan mereka yang bergantung pada komunikasi wireless, arsitektur
internet mengharuskan pengguna selalu memiliki koneksi yang terus ‘on’. Sebagai
gantinya, para ilmuwan kini tengah mengembangkan teknik komunikasi yang bisa
menolerir delay atau melakukan komunikasi dari pengguna satu ke yang lainnya
dengan cara berbeda, terutama bagi aplikasi mobile. Teknik ini akan bergantung
pada sebuah teknologi bernama inter-planetary Internet protocol.
7. IR semakin memikat para hacker
Pada 2020, akan ada lebih banyak hacker yang
menyerang. Saat ini internet ibarat telah dikepung hacker. Perusahaan keamanan
internet Symantec mendeteksi adanya 1,6 juta virus internet baru di 2008.
Jumlah ini bertambah dua kali lipat dari tahun sebelumnya. Para ahli
memperkirakan, serangan ini tak hanya akan lebih canggih tetapi juga akan
semakin menjalar di dunia maya setiap harinya seiring semakin akuratnya
teknologi IR.
3. Sejauh mana
perusahaan dapat memanfaatkan IR? Jelaskan dengan detil.
Manfaat IR bagi perusahaan, diantaranya :
- IR sangat mendukung dalam hal kebutuhan Informasi yang akurat mengenai apa saja yang berhubungan dengan layanan ataupun produk suatu perusahaan, sebagai acuan dalam pengambilan keputusan.
- IR dapat di maksimalkan sebagai sumber ide atau inspirasi untuk memajukan sebuah usaha, dengan adanya Search Engine kita bisa mengetahui perkembangan bidang usaha yang kita tekuni dari seluruh dunia, IR dapat memberikan sumber pemikiran baru untuk perusahaan.
- IR dalam hal efektifitas dan efisiensi waktu, tenaga, materi, dimana dengan adanya IR pencarian data, analisa dan survey dapat dilakukan hanya dengan menggunakan internet sebagai media IR.
- IR merupakan sumber informasi yang mungkin bisa bermanfaat untuk perusahaan sebagai bahan untuk pengembangan dan bahan untuk merancang strategi perusahaan.
- Dengan adanya IR perusahaan bisa langsung menganalisa segment pelanggan maupun kemampuan kompetitor melalui search engine sebagai mesin pencari data.
- Dengan adanya IR perusahaan bisa mendapatkan informasi manajerial seputar bidang perusahaan guna menunjang kinerja karyawan untuk lebih profesional dan untuk pengembangan perusahaan.
Dari manfaat IR di atas sudah jelas bahwa IR
sangat membantu kinerja suatu Perusahaan.
Tidak ada komentar:
Posting Komentar