Web Crawler dan Routing Protocols
Apa yang akan
Dibahas ?
•
Web
Crawler
•
Hukum
Crawler
•
Crawling
Policies
•
Routing
Protocol
Web Crawler
Apa itu Web
Crawler?
Web
crawler adalah suatu program yang relatif simple karena bekerja dengan metode
tertentu untuk melakukan scan atau “crawl” ke semua halaman web di internet
untuk membuat indeks dari data yang dicari.
Proses pada
Web Crawler
1. Scrapping
•
Scrapping
merupakan proses awal dalam web crawler yang fungsinya untuk mengambil halaman
web
•
Dalam
langkah pertamanya, scraping bekerja dengan mendapatkan html berdasarkan alamat
web yang di-input oleh user. Dokumen html
tersebut diuraikan dalam beberapa bagian
dengan penandaan kata
diantara tanda “<”
dan “>”.
•
Tahap terakhir, pembacaan kata tersebut dibagi dalam tag html, body dan
head, dimana sekumpulan kode dibaca dan dibagi dalam ketiga bagian tersebut
2. Parsing
Web
crawler memisahkan kata dari keseluruhan halaman berdasarkan link yang diambil.
Tiap link dalam halaman didefinisikan dengan sebuah penanda untuk pembacaan
sebuah link, yaitu element “a href”. Pemisahan kata sendiri dalam web crawler
digunakan untuk pengambilan link atau pranala link
3. Indexing
Sebuah
proses crawler yang memudahkan setiap orang dalam pencarian informasi
Contoh Web Crawler
•
Bingbot
dari Bing
•
Slurp
Bot dari Yahoo
•
DuckDuckBot
dari DuckDuckGO
•
Baiduspider
dari Baidu (mesin pencari dari China)
•
Yandex
Bot dari Yandex (mesin pencari dari Rusia)
•
Sogou
Spider dari Sogou (mesin pencari dari China)
•
Exabot
dari Exalead
•
Alexa
Crawler dari Amazon
•
Google
bot dari Google
Crawling
Policies
Web Crawler tercipta dari hasil kombinasi
kebijakan-kebijakan, diantaranya :
•
Selection
policy (yang menyatakan halaman untuk diunduh)
•
Re-visit
policy (yang
menyatakan kapan memeriksa perubahan pada halaman)
•
Politeness
policy (yang
menyatakan bagaimana cara untuk menghindari Overloading Web sites)
•
Parallelization
policy (yang
menyatakan bagaimana mengoordinasikan web crawler terdistribusi)
1.
SELECTION
POLICY
Sebuah studi tahun 2009 menunjukkan bahkan indeks
mesin pencari skala besar tidak lebih dari 40-70% dari web yang dapat diindeks.
Penelitian sebelumnya oleh Steve Lawrence dan Lee Giles menunjukkan bahwa tidak
ada mesin pencari yang mengindeks lebih dari 16% dari Web pada tahun
1999.Merancang kebijakan pemilihan yang baik memiliki kesulitan tambahan: ia
harus bekerja dengan informasi parsial, karena set lengkap halaman Web tidak
dikenal selama perayapan.
Selection Policy Meliputi
•
Restricting followed links (Membatasi tautan yang
diikuti)
•
URL normalization (Normalisasi URL)
•
Path-ascending crawling (Perayapan jalur-naik)
•
Focused crawling (Perayapan terfokus)
2.
Re-Visit
Policy
Web memiliki sifat yang sangat dinamis, dan merayapi
sebagian kecil dari Web dapat memakan waktu berminggu-minggu atau
berbulan-bulan.Pada saat perayap Web telah menyelesaikan perayapannya, banyak
peristiwa dapat terjadi, termasuk pembuatan, pembaruan, dan penghapusan. Dari
sudut pandang mesin pencari, ada biaya yang terkait dengan tidak mendeteksi
suatu peristiwa, dan dengan demikian memiliki salinan sumber daya yang sudah
usang. Fungsi biaya yang paling sering digunakan adalah Freshness dan Age.
3.
Politeness
Policy
Crawler dapat mengambil data jauh lebih cepat dan
lebih dalam dari pada pencari manusia, sehingga mereka dapat memiliki dampak
yang melumpuhkan pada kinerja suatu situs.Seperti
dicatat oleh Koster, penggunaan crawler Web berguna untuk sejumlah tugas,
tetapi disertai dengan harga untuk masyarakat umum.
Biaya Menggunakan Crawler Web Meliputi :
-
Sumber Daya Jaringan
Karena crawler membutuhkan bandwidth yang besar dan
beroperasi dengan tingkat paralelisme yang tinggi selama periode waktu yang
lama
-
Server Overload
Terutama jika frekuensi akses ke server yang diberikan
terlalu tinggi
-
Crawler Yang Ditulis Dengan Buruk
Yang dapat membuat crash server atau router, atau
halaman unduh yang tidak dapat mereka tangani
-
Perayap Pribadi
Jika digunakan oleh terlalu banyak pengguna, dapat
mengganggu jaringan dan server Web.
4.
Parallelization
policy
Crawler Parallel
adalah Crawler yang menjalankan banyak proses secara paralel. Tujuannya
adalah untuk memaksimalkan kecepatan unduhan sambil meminimalkan overhead dari
paralelisasi dan untuk menghindari unduhan berulang pada halaman yang sama
Apakah Crawler
Diperbolehkan di Indonesia?
•
Permasalahan hukum Indonesia yang berkaitan dengan
crawler ini adalah hukum Hak Kekayaan Intelektual (HKI),
khususnya hak cipta dan merek. Hal ini dikarenakan, web page (halaman
situs) merupakan suatu karya cipta yang dilindungi oleh hukum
•
Dalam UU No. 15 Tahun 2001 tentang Merek yang telah
merevisi UU No 14 Tahun 1997 maupun dalam UU No.12
Tahun 1997 tentang Hak Cipta, tidak ada ketentuan yang secara
spesifik menyebutkan masalah crawler ini.
•
Pada saat program crawler mengakses
situs yang telah mendaftar ke suatu search engine, data
mining, sebenarnya memenuhi perumusan 'perbanyakan' sebagaimana
diatur pasal 1 angka 5 UU No. 12 Tahun 1997 tentang Hak Cipta.
Lalu apakah crawler ini
melanggar hak cipta?
Ada beberapa faktor yang harus diperhatikan:
-
Pada umumnya, crawler dari suatu search
engine mengakses dan melakukan data mining atas situs
yang terdaftar (register) di tempatnya. Ini berarti harus diperhatikan,
apakah pendaftaran dilakukan oleh pihak yang berhak atas situs yang didaftarkan
tersebut atau tidak. Namun sebenarnya untuk apa suatu situs dibuat jika memang
tidak untuk diakses, yang salah satu caranya dengan publisitas melalui search
engine.
-
Bagaimana data hasil indexing yang
ditampilkan oleh search engine. Tentunya, search
engine hanya akan menampilkan indeks, atau dengan kata lain seperti
daftar isi sebagaimana di halaman depan suatu buku ataupun indeks sebagaimana
di bagian akhir suatu buku .Crawler secara
umumnya, tidak akan menampilkan isi situs secara bulat-bulat sebagaimana
proses copy-paste.
Routing
Protocol
Apa itu
Routing Protocol?
Routing Protocol adalah suatu aturan untuk
melakukan pertukaran informasi routing yang nantinya akan membentuk
sebuah Routing Table sehingga pengalamatan pada paket data yang akan dikirim
menjadi lebih jelas dan Routing Protocol akan dapat mencari rute
tersingkat untuk mengirimkan paket data menuju alamat yang dituju.
Proses
Routing
1.Distance Vector
menentukan jalur terbaiknya dengan
berdasarkan Hop. Rute yang memiliki Hop yang paling sedikit ke
alamat jaringan yang dituju, akan menjadi Rute Terbaik. Distance
Vector mengirimkan isi Routing Table ke Router Tetangga secara
lengkap dan kemudian menggabungkan isi yang diterima tersebut
dengan si Routing Table yang mereka milikinya sehingga datanya
lengkap.
Contoh : RIP & IGRP
2.Link-State
Menentukan routing terbaiknya berdasarkan
informasi yang diperoleh oleh Router lainnya. Informasi yang dimaksud disini
ialah berisi Status / Kondisi (State) terkini dari Link yang
terhubung dengannya. Dari informasi tersebut kemudian akan dipilih “Cost”
terendah untuk mencapai tujuan. Link-State dikembangkan dengan menggunakan
Algoritma Shortest Path, yaitu Algoritma Djikstra’s.
Contoh : - OSPF (Open Shortest Path First)
Contoh : - OSPF (Open Shortest Path First)
- IS-IS (Intermediate
System-to-Intermediate System).
Jenis Routing
1.
RIP
(Routing Information Protokol)
Performa
- RIP menggunakan metode Triggered Update agar router tetap bisa
memberikan informasi routing ketika timer belum habis,
- RIP memiliki timer untuk mengetahui kapan router harus kembali
memberikan informasi routing,
- RIPv1 tidak mendukung Subnetting. Sedangkan RIPv2 sudah menyediakan
sesuatu yang disebut dengan Prefix Routing, yang berisi informasi
SubnetMask,
- RIP secara default memiliki jumlah hop maksimum yaitu 15 Hop. Oleh
karena itu, Hop ke-16 akan dianggap tidak terjangkau (Unreachable),
- RIP v1 belum mendukung VLSM(Variable Length Subnet Masking)
sedangkan RIP v2 sudah mendukung,
- Ada fitur perbaikan Routing class – full dan class – less.
Kehandalan
- Mengatur routing menggunakan RIP tidak rumit dan memberikan hasil
yang cukup dapat diterima, terlebih jika jarang terjadi kegagalan link
pada jaringan,
- RIP dapat bekerja dengan baik di jenis jaringan yang kecil, tetapi
RIP tidak efisien pada network yang besar atau pada jaringan yang memiliki
jumlah Router yang banyak.
2.
IGRP
(Interior Gateway Routing Protocol)
Performa
- IGRP mengirimkan update routing setiap interval 90 detik,
- Jumlah hop maksimum 255 hop,
- Jumlah host terbatas,
- Administrative Distance 100,
- IGRP menggunakan bandwidth, MTU, Load ,delay sebagai metric.
Kehandalan
- IGRP merupakan Routing Protocol jenis Distance Vector milik Cisco,
- Menggunakan Autonomous System yang dapat menentukan routing
berdasarkan interior atau exterior,
- IGRP tidak mempunyai routing tagging.
3.
EIGRP
(Echanted Interior Gateway Routing Protocol)
Performa
- EIGRP dapat melakukan update dengan cepat dan reliable, serta ada
pemisahan keep alive,
- EIGRP memasukkan
SubnetMask(VLSM) ke dalam Update Route-nya,
- Mendukung fast convergence,
- Mendukung partial updates,
- Mendukung multiple network layer protocols,
- Maksimal hop count 224
Kehandalan
- EIGRP menambahkan Algoritma Pembaruan Diffusing Update Algorithm
(DUAL) untuk meningkatkan perutean(menentukan path terbaik) dan
menyediakan lingkungan tanpa loop,
- Mempunyai routing tagging yang berfungsi untuk mengecek eksternal
routing , sehingga EIGRP akan mengetahui routing protocol yang digunakan
oleh nomor tetangganya,
- Hanya dapat digunakan untuk Router Cisco.
4.
OSPF
(Open Shorth Path First)
Performa
- Mendukung VLSM,
- Tidak ada batasan jumlah hop,
- mendukung Equal Load Balancing,
- Merupakan Routing Protocol berbasis Link-State yang bersifat
Open-Standard (Non-Propietary),
- Menggunakan konsep hirarki routing protocol,
- mendukung penggunaan beberapa metrik sekaligus
Kehandalan
- Dikembangkan menggunakan Algoritma Djikstra’s Shortest Path First,
- bisa menghasilkan banyak jalur ke sebuah tujuan membagi jaringan
yang besar mejadi beberapa area,
- dapat diterapkan di semua router merek apapun.
5.
BGP
(Border Gateway Protocol)
Performa
- Termasuk dalam kategori Eksterior Gateway Protocol sehingga
menggunakan konsep Autonomous System,
- Sangat terbatas dalam mempergunakan topologi.
Kehandalan
- Merupakan backbone dari jaringan internet di seluruh dunia,
- Sangat sederhana dalam instalasi,
Daftar Pustaka
ü (PDF) Implementasi Ontology Pada
Web Crawler.
Available from: https://www.researchgate.net/publication/330840265_Implementasi_Ontology_Pada_Web_Crawler
[accessed Apr 06 2020].