WEB CRAWLER

Page View atau request halaman website yang melonjak, bisa saja disebabkan oleh aplikasi yang sedang menelusuri halaman website anda satu per satu, mengambil konten, dan menyimpannya. Inilah yang dilakukan aplikasi web crawler.

Hal itu bukanlah sesuatu yang baru. Saat akses internet masih sangat terbatas pada satu atau dua decade yang lalu, orang mungkin memilih untuk men-download seluruh konten website yang ingin dibaca, agar kemudian dapat dibaca kapan saja secara offline. Ada juga yang melakukannya untuk tujuan lain, misalkan untuk mengumpulkan alamat email/telepon yang terdapat pada konten, atau mengumpulkan data specific seperti data gambar atau video.

Apakah sebenarnya aplikasi web crawler, dan benarkah selalu merugikan pemilik website?

KONSEP WEB CRAWLER

Web crawler adalah sebuah program/script otomatis yang memproses halaman web. Sering juga disebut dengan web spider atau web robot. Ide dasarnya sederhana dan mirip dengan saat anda menjelajahi halaman website secara manual dengan menggunakan browser. Bermula pada point awal berupa sebuah link alamat website dan dibuka pada browser, lalu browser melakukan request dan men-download data dari web server melalui protokol HTTP.

Setiap Hyperlink yang ditemui pada konten yang tampil akan dibuka lagi pada windows/tab browser yang baru, demikian proses terus berulang. Nah sebuah web crawler mengotomatisasikan pekerjaan itu.

Kesimpulannya, dua fungsi utama web crawler adalah:

1. Mengidentifikasikan Hyperlink.

Hyperlink yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.

2. Melakukan proses kunjungan/visit secara rekursif.

Dari setiap hyperlink, Web crawler akan menjelajahinya dan melakukan proses berulang, dengan ketentuan yang disesuaikan dengan keperluan aplikasi.

Khusus untuk proses perulangan pengunjung hyperlink, dapat terjadi spider trap, yaitu proses berulang tanpa akhir karena Web crawler terperangkap untuk terus melakukan pencarian dalam jumlah tak terbatas. Hal ini dapat terjadi secara tidak sengaja maupun sengaja.

Ketidak sengajaan dapat terjadi karena terdapat kesalahan pada desain program web crawler sehingga membaca ulang hyperlink yang sudah diakses, atau sebuah website secara tidak sengaja memiliki halaman dinamis yang tak terbatas, contohnya halaman dinamis yang tercipta berdasarkan tanggal kalender.

Kesengajaan dapat terjadi jika website memang dirancang untuk melumpuhkan Web Crawler, misalnya dengan membuat halaman dinamis dengan angka tak terhingga.

Selain pengambilan konten untuk kepentingan tertentu. Web Crawler juga dapat mengakibatkan kerugian lain bagi pemilik website. Antara lain penggunaan resource yang meningkat, seperti pemakaian bandwidth dan CPU server, apalagi jika dua atau lebih web crawler mengakses website yang sama.

Salah satu solusinya, terdapat suatu standar untuk administrator website yang disebut dengan protokol Robots.txt, untuk menentukan bagian mana dari website yang tidak ingin diakses oleh web crawler.