Page View atau request halaman website yang
melonjak, bisa saja disebabkan oleh aplikasi yang sedang menelusuri halaman
website anda satu per satu, mengambil konten, dan menyimpannya. Inilah yang
dilakukan aplikasi web crawler.
Hal itu bukanlah
sesuatu yang baru. Saat akses internet masih sangat terbatas pada satu atau dua
decade yang lalu, orang mungkin memilih untuk men-download seluruh konten
website yang ingin dibaca, agar kemudian dapat dibaca kapan saja secara
offline. Ada juga yang melakukannya untuk tujuan lain, misalkan untuk
mengumpulkan alamat email/telepon yang terdapat pada konten, atau mengumpulkan
data specific seperti data gambar atau video.
Apakah
sebenarnya aplikasi web crawler, dan benarkah selalu merugikan pemilik website?
KONSEP WEB CRAWLER
Web crawler adalah sebuah program/script otomatis yang
memproses halaman web. Sering juga disebut dengan web spider atau web robot.
Ide dasarnya sederhana dan mirip dengan saat anda menjelajahi halaman website
secara manual dengan menggunakan browser. Bermula pada point awal berupa sebuah
link alamat website dan dibuka pada browser, lalu browser melakukan request dan
men-download data dari web server melalui protokol HTTP.
Setiap Hyperlink yang ditemui pada konten yang tampil akan dibuka
lagi pada windows/tab browser yang baru, demikian proses terus berulang. Nah
sebuah web crawler mengotomatisasikan pekerjaan itu.
Kesimpulannya, dua fungsi utama web crawler adalah:
1. Mengidentifikasikan
Hyperlink.
Hyperlink yang ditemui pada konten akan
ditambahkan pada daftar visit, disebut juga dengan istilah frontier.
2. Melakukan
proses kunjungan/visit secara rekursif.
Dari setiap hyperlink, Web crawler
akan menjelajahinya dan melakukan proses berulang, dengan ketentuan yang
disesuaikan dengan keperluan aplikasi.
Khusus untuk proses perulangan pengunjung hyperlink, dapat
terjadi spider trap, yaitu proses berulang tanpa akhir karena Web crawler
terperangkap untuk terus melakukan pencarian dalam jumlah tak terbatas. Hal ini
dapat terjadi secara tidak sengaja maupun sengaja.
Ketidak sengajaan dapat terjadi karena terdapat kesalahan
pada desain program web crawler sehingga membaca ulang hyperlink yang sudah
diakses, atau sebuah website secara tidak sengaja memiliki halaman dinamis yang
tak terbatas, contohnya halaman dinamis yang tercipta berdasarkan tanggal
kalender.
Kesengajaan dapat terjadi jika website memang dirancang untuk
melumpuhkan Web Crawler, misalnya dengan membuat halaman dinamis dengan angka
tak terhingga.
Selain
pengambilan konten untuk kepentingan tertentu. Web Crawler juga dapat
mengakibatkan kerugian lain bagi pemilik website. Antara lain penggunaan
resource yang meningkat, seperti pemakaian bandwidth dan CPU server, apalagi jika dua atau lebih web crawler mengakses website yang sama.
Salah satu solusinya, terdapat suatu standar untuk
administrator website yang disebut dengan protokol Robots.txt, untuk menentukan
bagian mana dari website yang tidak ingin diakses oleh web crawler.
Beberapa tool analitis statistik web seperti AWStats dapat
mengidentifikasi Web Crawler.
Beberapa daftar web crawler
Beberapa daftar web crawler
Arsitektur Web Crawler
Sumber : PC Media
1 komentar:
Web crawler = intelejen dari search engine, ya?
Posting Komentar