QUE É CRAWLNSCRAPE?
CrawlNScrape facilita o rastrexo por Internet, seguindo ligazóns dun sitio web a outro, mirando aquí e alí, obtendo unha introdución ao rastrexo ético de Internet e ao raspado HTML. Este é un verdadeiro rastrexo por facetas descoñecidas, e quizais descoñecidas, de Internet.
CrawlNScrape permítelle visitar sitios web arbitrarios para extraer os datos que se poidan atopar alí: bits técnicos, como detalles do código HTML, imaxes, icona, autor, descrición, palabras clave, metadatos, datos de formularios, medios e, especialmente, enderezos IP, xeográficos. Localizacións e ligazóns - e aínda máis especialmente - ligazóns a outros sitios web!
Con CrawlNScrape, a exploración web está baixo o teu control. Un rastreador web típico, como un bot de Google, recibe un conxunto de "sitios de sementes" e solto para rastrexar e raspar. Con CrawlNScrape, ti es o bot e CrawlNScrape é a túa ferramenta para rastrexar e raspar. Controla a elección do sitio de sementes, os sitios que visitará e os datos que raspará.
Se estás interesado no rastrexo por Internet e o raspado de sitios web, deberías gozar de traballar con esta aplicación. Pode ser tedioso ata que te familiarices con como Seleccionar | Copiar | Pega no teu dispositivo como usar The Stack ata que te acomodes ao ritmo de rastrexo. e ata que descubras que sitios web son "boas sementes" para os teus intereses particulares, preferentemente aqueles con moitas ligazóns fóra do sitio.
ESCAPE HTML ÉTICO...
O explorador web debe respectar as regras establecidas por robots.txt. CrawlNScrape ofrécelle as ferramentas para traballar deste xeito. O raspado de HTML é como calquera outra ferramenta: podes usalo para cousas boas e podes usalo para cousas malas. Que o raspado HTML en si non sexa ilegal non significa que poida raspar calquera sitio que queira. Algúns sitios prohiben explícitamente a extracción de datos a través do ficheiro robots.txt ou da súa páxina de Condicións de servizo. CrawlNScrape ofrécelle as ferramentas para descargar e estudar o ficheiro robots.txt, polo que pode escoller entre visitar ou non visitar sitios individuais, e raspar ou non raspar varios cartafoles e ficheiros, segundo corresponda.
A WEB PROFUNDA!
Con CrawlNScrape podes recompilar URL de páxinas onde queres extraer o código HTML e os datos. Con Deep Crawling a idea é buscar ligazóns en calquera páxina web, especialmente enlaces a outros sitios web. Despois explora eses sitios para obter máis ligazóns, a outros países, a onde sexa. Despois continúa, cada vez máis, na World Wide Web.
COMEZANDO...
Desde a vista inicial, CrawlNScrape ten leccións prácticas e introdutorias para comezar. Ademais descubrirás que podes saír a calquera outra aplicación, como Google Maps, a Busca de Google, un editor de texto e ao teu navegador favorito, despois volver a CrawlNScrape mentres mantés intactas as túas "migas de pan" en The Stack, para que poidas ir onde queiras. é un lugar para ir e explorar o que hai que atopar alí, coa confianza de que poderás volver alí de novo.
ESTÁ DISPONIBLE UN ANTERIOR!
Este rastrexo introductorio comeza cunha visión xeral das opcións do menú CrawlNScrape para que comprenda a estrutura e o fluxo da aplicación. A continuación, inicia un rastrexo en https://www.example.com en Phoenix, Arizona, Estados Unidos e percorre Internet ata Estocolmo, Suecia. Despois, quizais poidas descargar esta aplicación e continuar este percorrido por Estocolmo, Suecia; Londres, Inglaterra; Dublín, Irlanda; e, ben, a onde queira...
... para ver o que podes ver
SIGUE ESTE ENLACE PARA EMPEZAR...
https://mickwebsite.com/CrawlHelps/AboutCrawlNScrape.html
Mick
MultiMIPS@gmail.com
Última actualización
13 de xul. de 2024