ŠTO JE CRAWLNSCRAPE?
CrawlNScrape olakšava indeksiranje internetom, praćenje poveznica s web-mjesta na web-mjesto, zavirivanje tu i tamo, upoznavanje s etičkim indeksiranjem interneta i HTML scraping. Ovo je pravo puzanje kroz nepoznate, a možda i nepoznate aspekte interneta.
CrawlNScrape vam dopušta posjećivanje proizvoljnih web-mjesta kako biste izvukli sve podatke koji se tamo mogu pronaći - tehničke dijelove kao što su detalji HTML koda, slike, ikona, autor, opis, ključne riječi, meta podaci, podaci obrasca, mediji, a posebno IP adrese, zemljopisne Lokacije i poveznice - a još više - veze na druge web stranice!
S CrawlNScrape indeksiranje weba je pod vašom kontrolom. Tipičnom alatu za indeksiranje weba kao što je Google bot daje se skup "početnih stranica" i oslobađa ih da ih indeksira i struže. Uz CrawlNScrape, vi ste bot, a CrawlNScrape je vaš alat za indeksiranje i struganje. Vi kontrolirate izbor početne stranice, koja ćete stranice posjetiti i koje ćete podatke pretražiti.
Ako ste zainteresirani za indeksiranje interneta i scraping web stranica, trebali biste uživati u radu s ovom aplikacijom. Može biti zamorno dok se ne upoznate s odabirom | Kopiraj | Zalijepite na svoj uređaj, kako koristiti The Stack, dok se ne prilagodite tempu puzanja! i dok ne otkrijete koje su web stranice "dobro sjeme" za vaše posebne interese - po mogućnosti one s mnogo poveznica izvan stranice.
ETIČKO SKRIPANJE HTML-A...
Web indeksiranje treba poštivati pravila koja postavlja robots.txt. CrawlNScrape vam daje alate za rad na ovaj način. HTML scraping je kao i svaki drugi alat - možete ga koristiti za dobre stvari i možete ga koristiti za loše stvari. To što samo skrapiranje HTML-a nije protuzakonito ne znači da možete strugati bilo koje web mjesto koje želite. Neka web mjesta izričito zabranjuju izdvajanje podataka bilo putem datoteke robots.txt ili svoje stranice Uvjeti usluge. CrawlNScrape vam daje alate za preuzimanje i proučavanje datoteke robots.txt, tako da možete odlučiti hoćete li posjetiti ili ne posjetiti pojedinačna mjesta i hoćete li strugati ili ne strugati razne mape i datoteke, prema potrebi.
DUBOKI WEB!
Pomoću CrawlNScrape možete prikupiti URL-ove stranica na kojima možda želite izdvojiti HTML kôd i podatke. S Deep Crawlingom ideja je pretražiti bilo koju web stranicu u potrazi za poveznicama, posebno vezama na druge web stranice. Zatim istražite ta mjesta za daljnje poveznice, s drugim zemljama, kamo god. Zatim nastavite, sve dublje i dublje, u World Wide Web.
POČETAK...
Od početnog pogleda CrawlNScrape ima praktične, uvodne lekcije za početak. Osim toga, otkrit ćete da možete izaći na bilo koju drugu aplikaciju kao što su Google Maps, Google Search, uređivač teksta i na svoj omiljeni preglednik, a zatim se vratiti na CrawlNScrape zadržavajući svoje "mrvice kruha" netaknute u The Stacku, tako da možete ići kamo god tamo je mjesto za otići i istražiti što god se tamo može naći, s povjerenjem da se tamo možete ponovno vratiti.
PREGLED JE DOSTUPAN!
Ovo uvodno indeksiranje počinje pregledom opcija izbornika CrawlNScrape kako biste stekli razumijevanje strukture i tijeka aplikacije. Zatim počinje indeksirati na https://www.example.com u Phoenixu, Arizona, Sjedinjene Američke Države i putuje internetom do Stockholma, Švedska. Nakon toga biste možda mogli preuzeti ovu aplikaciju i nastaviti ovo putovanje kroz Stockholm, Švedska; London, Engleska; Dublin, Irska; i, dobro, kamo god...
… vidjeti ono što možete vidjeti
SLIJEDITE OVU LINKU ZA POČETAK...
https://mickwebsite.com/CrawlHelps/AboutCrawlNScrape.html
Mick
MultiMIPS@gmail.com