Python網路爬蟲:大數據擷取、清洗、儲存與分析-王者歸來

· 深智數位股份有限公司
ebook
554
Σελίδες

Σχετικά με το ebook

Python網路爬蟲
大數據擷取、清洗、儲存與分析
王者歸來(第二版)
★★★本書第一版是【博客來2020年】【電腦書年度暢銷榜第3名】★★★
★★★★★【26個主題】+【400個實例】★★★★★
★★★★★從【零】開始的【網路爬蟲入門書籍】★★★★★
★★★★★大數據【擷取】、【清洗】、【儲存與分析】★★★★★
★★★★★【網路趨勢】+【了解輿情】★★★★★

  第二版和第一版做比較,增加下列內容:
  ★:全書增加約50個程式實例
  ★:網路趨勢,了解輿情
  ★:網路關鍵字查詢
  ★:YouBike資訊
  ★:國際金融資料查詢
  ★:博客來圖書排行榜
  ★:中央氣象局
  ★:租屋網站
  ★:生活應用

  下列是本書有關網路爬蟲知識的主要內容:
  ★:認識搜尋引擎與網路爬蟲
  ★:認識約定成俗的協議robots.txt
  ★:從零開始解析HTML網頁
  ★:認識與使用Chrome開發人員環境解析網頁
  ★:認識Python內建urllib、urllib2模組,同時介紹好用的requests模組
  ★:說明lxml模組
  ★:XPath方法解說
  ★:css定位網頁元素
  ★:Cookie觀念
  ★:自動填寫表單
  ★:使用IP代理服務與實作
  ★:偵測IP
  ★:更進一步解說更新的模組Requests-HTML
  ★:認識適用大型爬蟲框架的Scrapy模組

  在書籍內容,筆者設計爬蟲程式探索下列相關網站:
  ☆:國際與國內股市資訊
  ☆:基金資訊
  ☆:股市數據
  ☆:人力銀行
  ☆:維基網站
  ☆:主流媒體網站
  ☆:政府開放數據網站
  ☆:YouBike服務網站
  ☆:PTT網站
  ☆:電影網站
  ☆:星座網站
  ☆:小說網站
  ☆:博客來網站
  ☆:中央氣象局
  ☆:露天拍賣網站
  ☆:httpbin網站
  ☆:python.org網站
  ☆:github.com網站
  ☆:ipstack.com網站API實作
  ☆:Google API實作
  ☆:Facebook API實作

  探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據:
  ★:CSV檔案格式
  ★:JSON檔案格式
  ★:XML、Pickle
  ★:Excel
  ★:SQLite

  在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題:
  ☆:URL編碼與中文網址觀念
  ☆:將中文儲存在JSON格式檔案
  ☆:亂碼處理
  ☆:簡體中文在繁體中文Windows環境資料下載與儲存
  ☆:解析Ajax動態加載網頁,獲得更多頁次資料
  ☆:使用Chromium瀏覽器協助Ajax動態加載

Ανακαλύψτε περισσότερα

Αξιολογήστε αυτό το ebook

Πείτε μας τη γνώμη σας.

Πληροφορίες ανάγνωσης

Smartphone και tablet
Εγκαταστήστε την εφαρμογή Βιβλία Google Play για Android και iPad/iPhone. Συγχρονίζεται αυτόματα με τον λογαριασμό σας και σας επιτρέπει να διαβάζετε στο διαδίκτυο ή εκτός σύνδεσης, όπου κι αν βρίσκεστε.
Φορητοί και επιτραπέζιοι υπολογιστές
Μπορείτε να ακούσετε ηχητικά βιβλία τα οποία αγοράσατε στο Google Play, χρησιμοποιώντας το πρόγραμμα περιήγησης στον ιστό του υπολογιστή σας.
eReader και άλλες συσκευές
Για να διαβάσετε περιεχόμενο σε συσκευές e-ink, όπως είναι οι συσκευές Kobo eReader, θα χρειαστεί να κατεβάσετε ένα αρχείο και να το μεταφέρετε στη συσκευή σας. Ακολουθήστε τις αναλυτικές οδηγίες του Κέντρου βοήθειας για να μεταφέρετε αρχεία σε υποστηριζόμενα eReader.