爬蟲:Crawer , Spider , robot

透過URL(Unitform Resource Locator)網址遵循一定規則抓取相關的訊息。

HTML(HyperTex Markup Language)網路的一種標籤/指令語言。

URL的內容就是HTML文件建立的網頁內容。

HTTP vs HTTPS

HTTP(Hyper Text Transfer Protocol是Client和Server的請求/回應標準。

  • 輸入網址列
  • HTTP協定幫助執行請求
  • SERVER依據請求給予回應
  • HTTP <–> TCP/IP

HTTPS則是多一個Security

  • 安全協定:經由SSL/TLS(加密封包) Secure Sockets Layer/ Transport Layer Scurity
  • 對Server做身分驗證,保護帳戶、身分、瀏覽資料的隱私和完整性
  • http <-> SSL-TLS <-> TCP/IP

TCP/IP(Transmission Control Protocol/Internet Protocal)

  • 指傳輸控制協定
  • IP為網際網路協定
  • 提供點對點的連結機制,將資料封裝、定址、傳輸、路由…

Header 偽裝瀏覽器

  • Accept 可接受回應內容類型
    • e.g. text/plain
  • Accept-Charset 可接受的字元集
    • e.g. utf-8
  • Accept-Encoding 可接受壓縮編碼
    • e.g. gzip,deflate
  • Accept-Language 可接受語言
    • e.g. zh-tw,en-US
  • Cookie 網頁紀錄先前的內容
    • e.g. $Version1
  • Connection 瀏覽器優先使用的連結類型
    • e.g. keep-alive
  • Content-Lengh 8位元表示的內容長度
    • e.g. 192
  • Date 傳送的訊息時間
    • e.g. Tue,20,Nov 2000 02:10:11 GMT
  • From Client的郵件地址
    • user@gmil.com
  • Host 伺服器域名
    • www.google.com
  • If-Match
  • Refer 前一存取頁面
    • e.g. http://dee.com
  • User-Agent 瀏覽器身分標示字串
    • e.g. Mozilla/5.0 , Firefox/21.0

JSON(JavaScrpit Object Notation)

  • 物件-使用{ }表示
  • 陣列-使用[ ]表示
{
     "data":[
          {
               "id":"ASADASDS5546"
               "message":"Hello World1"
          },
          {
               "id":"ASADASDJ01546"
               "message":"Hello World2"
          },
     ]
}

import json

temp1 = [5,10,15,20] //串列
temp2 = (1,5,10,9) //元組

# temp3 = [{'NAME':'Peter','Age':25}] //串列 , 單引號
# JSON是雙引號

jsonData1= json.dumps(temp1)
jsonData2= json.dumps(temp2)