Rabu, 08 April 2020

Tugas Web Crawler dan Routing protocol


Web Crawler dan Routing Protocols
Apa yang akan Dibahas ?
       Web Crawler
       Hukum Crawler
       Crawling Policies
       Routing Protocol
Web Crawler
Apa itu Web Crawler?
Web crawler adalah suatu program yang relatif simple karena bekerja dengan metode tertentu untuk melakukan scan atau “crawl” ke semua halaman web di internet untuk membuat indeks dari data yang dicari.
Proses pada Web Crawler
1.      Scrapping
        Scrapping merupakan proses awal dalam web crawler yang fungsinya untuk mengambil halaman web
        Dalam langkah pertamanya, scraping bekerja dengan mendapatkan html berdasarkan alamat web   yang   di-input oleh user. Dokumen html tersebut  diuraikan  dalam beberapa  bagian  dengan  penandaan  kata  diantara  tanda  “<”  dan  “>”.
        Tahap  terakhir, pembacaan kata  tersebut dibagi dalam tag html, body dan head, dimana sekumpulan kode dibaca dan dibagi dalam ketiga bagian tersebut
2.      Parsing
Web crawler memisahkan kata dari keseluruhan halaman berdasarkan link yang diambil. Tiap link dalam halaman didefinisikan dengan sebuah penanda untuk pembacaan sebuah link, yaitu element “a href”. Pemisahan kata sendiri dalam web crawler digunakan untuk pengambilan link atau pranala link
3.      Indexing
Sebuah proses crawler yang memudahkan setiap orang dalam pencarian informasi







Contoh Web Crawler
        Bingbot dari Bing
        Slurp Bot dari Yahoo
        DuckDuckBot dari DuckDuckGO
        Baiduspider dari Baidu (mesin pencari dari China)
        Yandex Bot dari Yandex (mesin pencari dari Rusia)
        Sogou Spider dari Sogou (mesin pencari dari China)
        Exabot dari Exalead
        Alexa Crawler dari Amazon
        Google bot dari Google
Crawling Policies
Web Crawler tercipta dari hasil kombinasi kebijakan-kebijakan, diantaranya :
        Selection policy  (yang menyatakan halaman untuk diunduh)
        Re-visit policy (yang menyatakan kapan memeriksa perubahan pada halaman)
        Politeness policy (yang menyatakan bagaimana cara untuk menghindari Overloading Web sites)
        Parallelization policy (yang menyatakan bagaimana mengoordinasikan web crawler terdistribusi)
1.     SELECTION POLICY
Sebuah studi tahun 2009 menunjukkan bahkan indeks mesin pencari skala besar tidak lebih dari 40-70% dari web yang dapat diindeks. Penelitian sebelumnya oleh Steve Lawrence dan Lee Giles menunjukkan bahwa tidak ada mesin pencari yang mengindeks lebih dari 16% dari Web pada tahun 1999.Merancang kebijakan pemilihan yang baik memiliki kesulitan tambahan: ia harus bekerja dengan informasi parsial, karena set lengkap halaman Web tidak dikenal selama perayapan.
Selection Policy Meliputi
        Restricting followed links (Membatasi tautan yang diikuti)
        URL normalization (Normalisasi URL)
        Path-ascending crawling (Perayapan jalur-naik)
        Focused crawling (Perayapan terfokus)
2.     Re-Visit Policy
Web memiliki sifat yang sangat dinamis, dan merayapi sebagian kecil dari Web dapat memakan waktu berminggu-minggu atau berbulan-bulan.Pada saat perayap Web telah menyelesaikan perayapannya, banyak peristiwa dapat terjadi, termasuk pembuatan, pembaruan, dan penghapusan. Dari sudut pandang mesin pencari, ada biaya yang terkait dengan tidak mendeteksi suatu peristiwa, dan dengan demikian memiliki salinan sumber daya yang sudah usang. Fungsi biaya yang paling sering digunakan adalah Freshness dan Age.

3.     Politeness Policy
Crawler dapat mengambil data jauh lebih cepat dan lebih dalam dari pada pencari manusia, sehingga mereka dapat memiliki dampak yang melumpuhkan pada kinerja suatu situs.Seperti dicatat oleh Koster, penggunaan crawler Web berguna untuk sejumlah tugas, tetapi disertai dengan harga untuk masyarakat umum.
Biaya Menggunakan Crawler Web Meliputi   :
-        Sumber Daya Jaringan
Karena crawler membutuhkan bandwidth yang besar dan beroperasi dengan tingkat paralelisme yang tinggi selama periode waktu yang lama
-        Server Overload
Terutama jika frekuensi akses ke server yang diberikan terlalu tinggi
-        Crawler Yang Ditulis Dengan Buruk
Yang dapat membuat crash server atau router, atau halaman unduh yang tidak dapat mereka tangani
-        Perayap Pribadi
Jika digunakan oleh terlalu banyak pengguna, dapat mengganggu jaringan dan server Web.
4.     Parallelization policy
Crawler Parallel  adalah Crawler yang menjalankan banyak proses secara paralel. Tujuannya adalah untuk memaksimalkan kecepatan unduhan sambil meminimalkan overhead dari paralelisasi dan untuk menghindari unduhan berulang pada halaman yang sama

Apakah Crawler Diperbolehkan di Indonesia?
        Permasalahan hukum Indonesia yang berkaitan dengan crawler ini adalah hukum Hak Kekayaan Intelektual (HKI), khususnya hak cipta dan merek. Hal ini dikarenakan, web page (halaman situs) merupakan suatu karya cipta yang dilindungi oleh hukum

        Dalam UU No. 15 Tahun 2001 tentang Merek yang telah merevisi UU No 14 Tahun 1997 maupun dalam UU No.12 Tahun 1997 tentang Hak Cipta, tidak ada ketentuan yang secara spesifik menyebutkan masalah crawler ini.

        Pada saat program  crawler mengakses situs yang telah mendaftar ke suatu search engine, data mining, sebenarnya memenuhi perumusan 'perbanyakan' sebagaimana diatur pasal 1 angka 5 UU No. 12 Tahun 1997 tentang Hak Cipta.




Lalu apakah crawler ini melanggar hak cipta?
Ada beberapa faktor yang harus diperhatikan:
-        Pada umumnya, crawler dari suatu search engine mengakses dan melakukan data mining atas situs yang terdaftar (register) di tempatnya. Ini berarti harus diperhatikan, apakah pendaftaran dilakukan oleh pihak yang berhak atas situs yang didaftarkan tersebut atau tidak. Namun sebenarnya untuk apa suatu situs dibuat jika memang tidak untuk diakses, yang salah satu caranya dengan publisitas melalui search engine.
-        Bagaimana data hasil indexing yang ditampilkan oleh search engine. Tentunya, search engine hanya akan menampilkan indeks, atau dengan kata lain seperti daftar isi sebagaimana di halaman depan suatu buku ataupun indeks sebagaimana di bagian akhir suatu buku .Crawler secara umumnya, tidak akan menampilkan isi situs secara bulat-bulat sebagaimana proses copy-paste

Routing Protocol
Apa itu Routing Protocol?
Routing Protocol adalah suatu aturan untuk melakukan pertukaran informasi routing yang nantinya akan membentuk sebuah Routing Table sehingga pengalamatan pada paket data yang akan dikirim menjadi lebih jelas dan Routing Protocol akan dapat mencari rute tersingkat untuk mengirimkan paket data menuju alamat yang dituju.
Proses Routing
1.Distance Vector
menentukan jalur terbaiknya dengan berdasarkan Hop. Rute yang memiliki Hop yang paling sedikit ke alamat jaringan yang dituju, akan menjadi Rute Terbaik. Distance Vector mengirimkan isi Routing Table ke Router Tetangga secara lengkap dan kemudian menggabungkan isi yang diterima tersebut dengan si Routing Table yang mereka milikinya sehingga datanya lengkap.
Contoh : RIP & IGRP
2.Link-State
Menentukan routing terbaiknya berdasarkan informasi yang diperoleh oleh Router lainnya. Informasi yang dimaksud disini ialah berisi Status / Kondisi (State) terkini dari Link yang terhubung dengannya. Dari informasi tersebut kemudian akan dipilih “Cost” terendah untuk mencapai tujuan. Link-State dikembangkan dengan menggunakan Algoritma Shortest Path, yaitu Algoritma Djikstra’s.
Contoh :  - OSPF (Open Shortest Path First)
                - IS-IS (Intermediate System-to-Intermediate System).





Jenis Routing
1.    RIP (Routing Information Protokol)
Performa
  • RIP menggunakan metode Triggered Update agar router tetap bisa memberikan informasi routing ketika timer belum habis,
  • RIP memiliki timer untuk mengetahui kapan router harus kembali memberikan informasi routing,
  • RIPv1 tidak mendukung Subnetting. Sedangkan RIPv2 sudah menyediakan sesuatu yang disebut dengan Prefix Routing, yang berisi informasi SubnetMask,
  • RIP secara default memiliki jumlah hop maksimum yaitu 15 Hop. Oleh karena itu, Hop ke-16 akan dianggap tidak terjangkau (Unreachable),
  • RIP v1 belum mendukung VLSM(Variable Length Subnet Masking) sedangkan RIP v2 sudah mendukung,
  • Ada fitur perbaikan Routing class – full dan class – less.
 Kehandalan
  • Mengatur routing menggunakan RIP tidak rumit dan memberikan hasil yang cukup dapat diterima, terlebih jika jarang terjadi kegagalan link pada jaringan,
  • RIP dapat bekerja dengan baik di jenis jaringan yang kecil, tetapi RIP tidak efisien pada network yang besar atau pada jaringan yang memiliki jumlah Router yang banyak.

2.    IGRP (Interior Gateway Routing Protocol)
Performa
  • IGRP mengirimkan update routing setiap interval 90 detik,
  • Jumlah hop maksimum 255 hop,
  • Jumlah host terbatas,
  • Administrative Distance 100,
  • IGRP menggunakan bandwidth, MTU, Load ,delay sebagai metric.
 Kehandalan
  • IGRP merupakan Routing Protocol jenis Distance Vector milik Cisco,
  • Menggunakan Autonomous System yang dapat menentukan routing berdasarkan interior atau exterior,
  • IGRP tidak mempunyai routing tagging.


3.    EIGRP (Echanted Interior Gateway Routing Protocol)
Performa
  • EIGRP dapat melakukan update dengan cepat dan reliable, serta ada pemisahan keep alive,
  • EIGRP  memasukkan SubnetMask(VLSM) ke dalam Update Route-nya,
  • Mendukung fast convergence,
  • Mendukung partial updates,
  • Mendukung multiple network layer protocols,
  • Maksimal hop count 224
Kehandalan
  • EIGRP menambahkan Algoritma Pembaruan Diffusing Update Algorithm (DUAL) untuk meningkatkan perutean(menentukan path terbaik) dan menyediakan lingkungan tanpa loop,
  • Mempunyai routing tagging yang berfungsi untuk mengecek eksternal routing , sehingga EIGRP akan mengetahui routing protocol yang digunakan oleh nomor tetangganya,
  • Hanya dapat digunakan untuk Router Cisco.

4.    OSPF (Open Shorth Path First)
Performa
  • Mendukung VLSM,
  • Tidak ada batasan jumlah hop,
  • mendukung Equal Load Balancing,
  • Merupakan Routing Protocol berbasis Link-State yang bersifat Open-Standard (Non-Propietary),
  • Menggunakan konsep hirarki routing protocol,
  • mendukung penggunaan beberapa metrik sekaligus
Kehandalan
  • Dikembangkan menggunakan Algoritma Djikstra’s Shortest Path First,
  • bisa menghasilkan banyak jalur ke sebuah tujuan membagi jaringan yang besar mejadi beberapa area,
  • dapat diterapkan di semua router merek apapun.




5.    BGP (Border Gateway Protocol)
Performa
  • Termasuk dalam kategori Eksterior Gateway Protocol sehingga menggunakan konsep Autonomous System,
  • Sangat terbatas dalam mempergunakan topologi.
Kehandalan
  • Merupakan backbone dari jaringan internet di seluruh dunia,
  • Sangat sederhana dalam instalasi,


Daftar Pustaka
ü  (PDF) Implementasi Ontology Pada Web Crawler. Available from: https://www.researchgate.net/publication/330840265_Implementasi_Ontology_Pada_Web_Crawler [accessed Apr 06 2020].