Python網路爬蟲:大數據擷取、清洗、儲存與分析-王者歸來

· 深智數位股份有限公司
សៀវភៅ​អេឡិចត្រូនិច
554
ទំព័រ

អំពីសៀវភៅ​អេឡិចត្រូនិកនេះ

Python網路爬蟲
大數據擷取、清洗、儲存與分析
王者歸來(第二版)
★★★本書第一版是【博客來2020年】【電腦書年度暢銷榜第3名】★★★
★★★★★【26個主題】+【400個實例】★★★★★
★★★★★從【零】開始的【網路爬蟲入門書籍】★★★★★
★★★★★大數據【擷取】、【清洗】、【儲存與分析】★★★★★
★★★★★【網路趨勢】+【了解輿情】★★★★★

  第二版和第一版做比較,增加下列內容:
  ★:全書增加約50個程式實例
  ★:網路趨勢,了解輿情
  ★:網路關鍵字查詢
  ★:YouBike資訊
  ★:國際金融資料查詢
  ★:博客來圖書排行榜
  ★:中央氣象局
  ★:租屋網站
  ★:生活應用

  下列是本書有關網路爬蟲知識的主要內容:
  ★:認識搜尋引擎與網路爬蟲
  ★:認識約定成俗的協議robots.txt
  ★:從零開始解析HTML網頁
  ★:認識與使用Chrome開發人員環境解析網頁
  ★:認識Python內建urllib、urllib2模組,同時介紹好用的requests模組
  ★:說明lxml模組
  ★:XPath方法解說
  ★:css定位網頁元素
  ★:Cookie觀念
  ★:自動填寫表單
  ★:使用IP代理服務與實作
  ★:偵測IP
  ★:更進一步解說更新的模組Requests-HTML
  ★:認識適用大型爬蟲框架的Scrapy模組

  在書籍內容,筆者設計爬蟲程式探索下列相關網站:
  ☆:國際與國內股市資訊
  ☆:基金資訊
  ☆:股市數據
  ☆:人力銀行
  ☆:維基網站
  ☆:主流媒體網站
  ☆:政府開放數據網站
  ☆:YouBike服務網站
  ☆:PTT網站
  ☆:電影網站
  ☆:星座網站
  ☆:小說網站
  ☆:博客來網站
  ☆:中央氣象局
  ☆:露天拍賣網站
  ☆:httpbin網站
  ☆:python.org網站
  ☆:github.com網站
  ☆:ipstack.com網站API實作
  ☆:Google API實作
  ☆:Facebook API實作

  探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據:
  ★:CSV檔案格式
  ★:JSON檔案格式
  ★:XML、Pickle
  ★:Excel
  ★:SQLite

  在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題:
  ☆:URL編碼與中文網址觀念
  ☆:將中文儲存在JSON格式檔案
  ☆:亂碼處理
  ☆:簡體中文在繁體中文Windows環境資料下載與儲存
  ☆:解析Ajax動態加載網頁,獲得更多頁次資料
  ☆:使用Chromium瀏覽器協助Ajax動態加載

ស្វែងរក​ច្រើនទៀត

វាយតម្លៃសៀវភៅ​អេឡិចត្រូនិកនេះ

ប្រាប់យើងអំពីការយល់ឃើញរបស់អ្នក។

អាន​ព័ត៌មាន

ទូរសព្ទឆ្លាតវៃ និង​ថេប្លេត
ដំឡើងកម្មវិធី Google Play Books សម្រាប់ Android និង iPad/iPhone ។ វា​ធ្វើសមកាលកម្ម​ដោយស្វ័យប្រវត្តិជាមួយ​គណនី​របស់អ្នក​ និង​អនុញ្ញាតឱ្យ​អ្នកអានពេល​មានអ៊ីនធឺណិត ឬគ្មាន​អ៊ីនធឺណិត​នៅគ្រប់ទីកន្លែង។
កុំព្យូទ័រ​យួរដៃ និងកុំព្យូទ័រ
អ្នកអាចស្ដាប់សៀវភៅជាសំឡេងដែលបានទិញនៅក្នុង Google Play ដោយប្រើកម្មវិធីរុករកតាមអ៊ីនធឺណិតក្នុងកុំព្យូទ័ររបស់អ្នក។
eReaders និង​ឧបករណ៍​ផ្សេង​ទៀត
ដើម្បីអាននៅលើ​ឧបករណ៍ e-ink ដូចជា​ឧបករណ៍អាន​សៀវភៅអេឡិចត្រូនិក Kobo អ្នកនឹងត្រូវ​ទាញយក​ឯកសារ ហើយ​ផ្ទេរវាទៅ​ឧបករណ៍​របស់អ្នក។ សូមអនុវត្តតាម​ការណែនាំលម្អិតរបស់មជ្ឈមណ្ឌលជំនួយ ដើម្បីផ្ទេរឯកសារ​ទៅឧបករណ៍អានសៀវភៅ​អេឡិចត្រូនិកដែលស្គាល់។