Kal's Blog: Tugas Web Crawler dan Routing protocol

Web Crawler dan Routing Protocols

Apa yang akan Dibahas ?

• Web Crawler

• Hukum Crawler

• Crawling Policies

• Routing Protocol

Web Crawler

Apa itu Web Crawler?

Web crawler adalah suatu program yang relatif simple karena bekerja dengan metode tertentu untuk melakukan scan atau “crawl” ke semua halaman web di internet untuk membuat indeks dari data yang dicari.

Proses pada Web Crawler

1. Scrapping

• Scrapping merupakan proses awal dalam web crawler yang fungsinya untuk mengambil halaman web

• Dalam langkah pertamanya, scraping bekerja dengan mendapatkan html berdasarkan alamat web yang di-input oleh user. Dokumen html tersebut diuraikan dalam beberapa bagian dengan penandaan kata diantara tanda “<” dan “>”.

• Tahap terakhir, pembacaan kata tersebut dibagi dalam tag html, body dan head, dimana sekumpulan kode dibaca dan dibagi dalam ketiga bagian tersebut

2. Parsing

Web crawler memisahkan kata dari keseluruhan halaman berdasarkan link yang diambil. Tiap link dalam halaman didefinisikan dengan sebuah penanda untuk pembacaan sebuah link, yaitu element “a href”. Pemisahan kata sendiri dalam web crawler digunakan untuk pengambilan link atau pranala link

3. Indexing

Sebuah proses crawler yang memudahkan setiap orang dalam pencarian informasi

Contoh Web Crawler

• Bingbot dari Bing

• Slurp Bot dari Yahoo

• DuckDuckBot dari DuckDuckGO

• Baiduspider dari Baidu (mesin pencari dari China)

• Yandex Bot dari Yandex (mesin pencari dari Rusia)

• Sogou Spider dari Sogou (mesin pencari dari China)

• Exabot dari Exalead

• Alexa Crawler dari Amazon

• Google bot dari Google

Crawling Policies

Web Crawler tercipta dari hasil kombinasi kebijakan-kebijakan, diantaranya :

• Selection policy (yang menyatakan halaman untuk diunduh)

• Re-visit policy (yang menyatakan kapan memeriksa perubahan pada halaman)

• Politeness policy (yang menyatakan bagaimana cara untuk menghindari Overloading Web sites)

• Parallelization policy (yang menyatakan bagaimana mengoordinasikan web crawler terdistribusi)

1. SELECTION POLICY

Sebuah studi tahun 2009 menunjukkan bahkan indeks mesin pencari skala besar tidak lebih dari 40-70% dari web yang dapat diindeks. Penelitian sebelumnya oleh Steve Lawrence dan Lee Giles menunjukkan bahwa tidak ada mesin pencari yang mengindeks lebih dari 16% dari Web pada tahun 1999.Merancang kebijakan pemilihan yang baik memiliki kesulitan tambahan: ia harus bekerja dengan informasi parsial, karena set lengkap halaman Web tidak dikenal selama perayapan.

Selection Policy Meliputi

• Restricting followed links (Membatasi tautan yang diikuti)

• URL normalization (Normalisasi URL)

• Path-ascending crawling (Perayapan jalur-naik)

• Focused crawling (Perayapan terfokus)

2. Re-Visit Policy

Web memiliki sifat yang sangat dinamis, dan merayapi sebagian kecil dari Web dapat memakan waktu berminggu-minggu atau berbulan-bulan.Pada saat perayap Web telah menyelesaikan perayapannya, banyak peristiwa dapat terjadi, termasuk pembuatan, pembaruan, dan penghapusan. Dari sudut pandang mesin pencari, ada biaya yang terkait dengan tidak mendeteksi suatu peristiwa, dan dengan demikian memiliki salinan sumber daya yang sudah usang. Fungsi biaya yang paling sering digunakan adalah Freshness dan Age.

3. Politeness Policy

Crawler dapat mengambil data jauh lebih cepat dan lebih dalam dari pada pencari manusia, sehingga mereka dapat memiliki dampak yang melumpuhkan pada kinerja suatu situs.Seperti dicatat oleh Koster, penggunaan crawler Web berguna untuk sejumlah tugas, tetapi disertai dengan harga untuk masyarakat umum.

Biaya Menggunakan Crawler Web Meliputi :

- Sumber Daya Jaringan

Karena crawler membutuhkan bandwidth yang besar dan beroperasi dengan tingkat paralelisme yang tinggi selama periode waktu yang lama

- Server Overload

Terutama jika frekuensi akses ke server yang diberikan terlalu tinggi

- Crawler Yang Ditulis Dengan Buruk

Yang dapat membuat crash server atau router, atau halaman unduh yang tidak dapat mereka tangani

- Perayap Pribadi

Jika digunakan oleh terlalu banyak pengguna, dapat mengganggu jaringan dan server Web.

4. Parallelization policy

Crawler Parallel adalah Crawler yang menjalankan banyak proses secara paralel. Tujuannya adalah untuk memaksimalkan kecepatan unduhan sambil meminimalkan overhead dari paralelisasi dan untuk menghindari unduhan berulang pada halaman yang sama

Apakah Crawler Diperbolehkan di Indonesia?

• Permasalahan hukum Indonesia yang berkaitan dengan crawler ini adalah hukum Hak Kekayaan Intelektual (HKI), khususnya hak cipta dan merek. Hal ini dikarenakan, web page (halaman situs) merupakan suatu karya cipta yang dilindungi oleh hukum

• Dalam UU No. 15 Tahun 2001 tentang Merek yang telah merevisi UU No 14 Tahun 1997 maupun dalam UU No.12 Tahun 1997 tentang Hak Cipta, tidak ada ketentuan yang secara spesifik menyebutkan masalah crawler ini.

• Pada saat program crawler mengakses situs yang telah mendaftar ke suatu search engine, data mining, sebenarnya memenuhi perumusan 'perbanyakan' sebagaimana diatur pasal 1 angka 5 UU No. 12 Tahun 1997 tentang Hak Cipta.

Lalu apakah crawler ini melanggar hak cipta?

Ada beberapa faktor yang harus diperhatikan:

- Pada umumnya, crawler dari suatu search engine mengakses dan melakukan data mining atas situs yang terdaftar (register) di tempatnya. Ini berarti harus diperhatikan, apakah pendaftaran dilakukan oleh pihak yang berhak atas situs yang didaftarkan tersebut atau tidak. Namun sebenarnya untuk apa suatu situs dibuat jika memang tidak untuk diakses, yang salah satu caranya dengan publisitas melalui search engine.

- Bagaimana data hasil indexing yang ditampilkan oleh search engine. Tentunya, search engine hanya akan menampilkan indeks, atau dengan kata lain seperti daftar isi sebagaimana di halaman depan suatu buku ataupun indeks sebagaimana di bagian akhir suatu buku .Crawler secara umumnya, tidak akan menampilkan isi situs secara bulat-bulat sebagaimana proses copy-paste.

Routing Protocol

Apa itu Routing Protocol?

Routing Protocol adalah suatu aturan untuk melakukan pertukaran informasi routing yang nantinya akan membentuk sebuah Routing Table sehingga pengalamatan pada paket data yang akan dikirim menjadi lebih jelas dan Routing Protocol akan dapat mencari rute tersingkat untuk mengirimkan paket data menuju alamat yang dituju.

Proses Routing

1.Distance Vector

menentukan jalur terbaiknya dengan berdasarkan Hop. Rute yang memiliki Hop yang paling sedikit ke alamat jaringan yang dituju, akan menjadi Rute Terbaik. Distance Vector mengirimkan isi Routing Table ke Router Tetangga secara lengkap dan kemudian menggabungkan isi yang diterima tersebut dengan si Routing Table yang mereka milikinya sehingga datanya lengkap.

Contoh : RIP & IGRP

2.Link-State

Menentukan routing terbaiknya berdasarkan informasi yang diperoleh oleh Router lainnya. Informasi yang dimaksud disini ialah berisi Status / Kondisi (State) terkini dari Link yang terhubung dengannya. Dari informasi tersebut kemudian akan dipilih “Cost” terendah untuk mencapai tujuan. Link-State dikembangkan dengan menggunakan Algoritma Shortest Path, yaitu Algoritma Djikstra’s.
Contoh : - OSPF (Open Shortest Path First)

- IS-IS (Intermediate System-to-Intermediate System).

Jenis Routing

1. RIP (Routing Information Protokol)

Performa

RIP menggunakan metode Triggered Update agar router tetap bisa memberikan informasi routing ketika timer belum habis,
RIP memiliki timer untuk mengetahui kapan router harus kembali memberikan informasi routing,
RIPv1 tidak mendukung Subnetting. Sedangkan RIPv2 sudah menyediakan sesuatu yang disebut dengan Prefix Routing, yang berisi informasi SubnetMask,
RIP secara default memiliki jumlah hop maksimum yaitu 15 Hop. Oleh karena itu, Hop ke-16 akan dianggap tidak terjangkau (Unreachable),
RIP v1 belum mendukung VLSM(Variable Length Subnet Masking) sedangkan RIP v2 sudah mendukung,
Ada fitur perbaikan Routing class – full dan class – less.

Kehandalan

Mengatur routing menggunakan RIP tidak rumit dan memberikan hasil yang cukup dapat diterima, terlebih jika jarang terjadi kegagalan link pada jaringan,
RIP dapat bekerja dengan baik di jenis jaringan yang kecil, tetapi RIP tidak efisien pada network yang besar atau pada jaringan yang memiliki jumlah Router yang banyak.

2. IGRP (Interior Gateway Routing Protocol)

Performa

IGRP mengirimkan update routing setiap interval 90 detik,
Jumlah hop maksimum 255 hop,
Jumlah host terbatas,
Administrative Distance 100,
IGRP menggunakan bandwidth, MTU, Load ,delay sebagai metric.

Kehandalan

IGRP merupakan Routing Protocol jenis Distance Vector milik Cisco,
Menggunakan Autonomous System yang dapat menentukan routing berdasarkan interior atau exterior,
IGRP tidak mempunyai routing tagging.

3. EIGRP (Echanted Interior Gateway Routing Protocol)

Performa

EIGRP dapat melakukan update dengan cepat dan reliable, serta ada pemisahan keep alive,
EIGRP memasukkan SubnetMask(VLSM) ke dalam Update Route-nya,
Mendukung fast convergence,
Mendukung partial updates,
Mendukung multiple network layer protocols,
Maksimal hop count 224

Kehandalan

EIGRP menambahkan Algoritma Pembaruan Diffusing Update Algorithm (DUAL) untuk meningkatkan perutean(menentukan path terbaik) dan menyediakan lingkungan tanpa loop,
Mempunyai routing tagging yang berfungsi untuk mengecek eksternal routing , sehingga EIGRP akan mengetahui routing protocol yang digunakan oleh nomor tetangganya,
Hanya dapat digunakan untuk Router Cisco.

4. OSPF (Open Shorth Path First)

Performa

Mendukung VLSM,
Tidak ada batasan jumlah hop,
mendukung Equal Load Balancing,
Merupakan Routing Protocol berbasis Link-State yang bersifat Open-Standard (Non-Propietary),
Menggunakan konsep hirarki routing protocol,
mendukung penggunaan beberapa metrik sekaligus

Kehandalan

Dikembangkan menggunakan Algoritma Djikstra’s Shortest Path First,
bisa menghasilkan banyak jalur ke sebuah tujuan membagi jaringan yang besar mejadi beberapa area,
dapat diterapkan di semua router merek apapun.