用Python写网络爬虫(第2版)

Posts & Telecom Press · Katharine Jarmul

Feb 2024 · Packt Publishing Ltd

eBook

212

Pages

About this eBook

史上首本Python网络爬虫图书全新升级版上一版年度销量近40000册针对Python 3.x编写提供示例完整源码和实例网站搭建源码

Key Features

本书是使用Python 3.x的最新特性来爬取网络数据的权威指南。

提供示例完整源码和实例网站搭建源码

Book Description

史上首本Python网络爬虫图书全新升级版，上一版年度销量近40000册。

针对Python 3.x版本编写。

提供示例完整源码和实例网站搭建源码，确保用户能在本地成功复现爬取网站环境，并保障网站的稳定性与可靠性以及代码运行结果的可再现性。

Internet上包含了许多有用的数据，其中大部分是可以免费公开访问的。但是，这些数据不容易使用，它们内嵌在网站的架构和样式中，在提取时也需要多加小心。网络爬取技术作为一种收集和理解网络上海量信息的方式，正变得越来越有用。

本书是使用Python 3.x的最新特性来爬取网络数据的权威指南。本书讲解了从静态网站提取数据的方法，以及如何使用数据库和文件缓存技术来节省时间并管理服务器负载，然后介绍了如何使用浏览器、爬虫和并发爬虫开发一个更为复杂的爬虫。

借助于PyQt和Selenium，你可以决定何时以及如何从依赖JavaScript的网站上爬取数据，以及更好地理解在受CAPTCHA保护的复杂网站上提交表单的方法。本书还讲解了使用Python包（比如mechanize）进行自动化处理的方法、使用Scrapy库创建基于类的爬虫的方法，以及如何在真实的网站上实施所学的爬虫技巧。

本书最后还涵盖了使用爬虫对网站进行测试、远程爬取技术、图像处理以及其他相关的主题。

本书主要内容如下：

使用简单的Python程序从页面中提取数据；

构建并发爬虫，对页面进行并行处理；

通过跟踪链接来爬取一个网站；

从HTML中提取特性；

缓存下载的HTML，以供复用；

比较并发模型，确定最快的爬虫；

解析依赖于JavaScript的网站；

与表单和会话进行交互。

What will you learn

使用简单的Python程序从页面中提取数据；

构建并发爬虫，对页面进行并行处理；

通过跟踪链接来爬取一个网站；

从HTML中提取特性；

缓存下载的HTML，以供复用；

比较并发模型，确定最快的爬虫；

解析依赖于JavaScript的网站；

与表单和会话进行交互。

Who this book is for

Python开发人员、搜索引擎开发人员

About the author

人民邮电出版社，1953年10月成立，隶属于中国工信出版传媒集团，是工业和信息化部主管的大型专业出版社。建社以来，人民邮电出版社始终坚持正确的出版导向，坚持为科技发展与社会进步服务、为繁荣社会主义文化服务，坚持积极进取、改革创新，围绕“立足工信事业，面向现代社会，传播科学知识，引领美好生活”的出版宗旨，已发展成为集图书、期刊、音像电子及数字出版于一体的综合性出版大社。

人民邮电出版社是全国优秀出版社、全国百佳图书出版单位，第一届、第二届、第三届、第五届“中国出版政府奖先进出版单位”，拥有“全国文明单位”、中央国家机关“五一劳动奖状”、中央国家机关“文明单位标兵”和“首都文明单位标兵”等重要荣誉，切实将社会效益放在首位、实现社会效益与经济效益相统一，综合实力位居行业前列。

人民邮电出版社出版领域涵盖科技出版、教育出版、大众出版，涉及信息技术、通信、工业技术、科普、经济管理、摄影、艺术、运动与休闲、心理学、少儿、大中专教材等10余个出版门类，年出版图书近万种，年销售码洋逾30亿元，在全国图书零售市场的占有率名列前茅，其中计算机类、艺术类、摄影类、运动与休闲类排名第一，设计类排名第二，科普类、美术类排名第四，经管类、少儿类位居前列。

Katharine Jarmul是德国柏林的一位数据科学家和Python支持者。她经营了一家数据科学咨询公司——Kjamistan，为不同规模的企业提供诸如数据抽取、采集以及建模的服务。她从2008年开始使用Python进行编程，从2010年开始使用Python抓取网站，并且在使用网络爬虫进行数据分析和机器学习的不同规模的初创企业中工作过。读者可以通过Twitter（@kjam）关注她的想法以及动态。

Richard Lawson来自澳大利亚，毕业于墨尔本大学计算机科学专业。毕业后，他创办了一家专注于网络爬虫的公司，为超过50个国家的业务提供远程工作。他精通世界语，可以使用汉语和韩语对话，并且积极投身于开源软件事业。他目前正在牛津大学攻读研究生学位，并利用业余时间研发自主无人机。

Rate this eBook

Tell us what you think.

Reading information

Smartphones and tablets

Install the Google Play Books app for Android and iPad/iPhone. It syncs automatically with your account and allows you to read online or offline wherever you are.

Laptops and computers

You can listen to audiobooks purchased on Google Play using your computer's web browser.

eReaders and other devices

To read on e-ink devices like Kobo eReaders, you'll need to download a file and transfer it to your device. Follow the detailed Help Centre instructions to transfer the files to supported eReaders.