Crawer Basic
爬蟲:Crawer , Spider , robot
透過URL(Unitform Resource Locator)網址遵循一定規則抓取相關的訊息。
HTML(HyperTex Markup Language)網路的一種標籤/指令語言。
URL的內容就是HTML文件建立的網頁內容。
HTTP vs HTTPS
HTTP(Hyper Text Transfer Protocol是Client和Server的請求/回應標準。
- 輸入網址列
- HTTP協定幫助執行請求
- SERVER依據請求給予回應
HTTP<–>TCP/IP
HTTPS則是多一個Security
- 安全協定:經由SSL/TLS(加密封包) Secure Sockets Layer/ Transport Layer Scurity
- 對Server做身分驗證,保護帳戶、身分、瀏覽資料的隱私和完整性
http<->SSL-TLS<->TCP/IP
TCP/IP(Transmission Control Protocol/Internet Protocal)
- 指傳輸控制協定
- IP為網際網路協定
- 提供點對點的連結機制,將資料封裝、定址、傳輸、路由…
Header 偽裝瀏覽器
Accept可接受回應內容類型- e.g. text/plain
Accept-Charset可接受的字元集- e.g. utf-8
- Accept-Encoding 可接受壓縮編碼
- e.g. gzip,deflate
- Accept-Language 可接受語言
- e.g. zh-tw,en-US
- Cookie 網頁紀錄先前的內容
- e.g. $Version1
- Connection 瀏覽器優先使用的連結類型
- e.g. keep-alive
- Content-Lengh 8位元表示的內容長度
- e.g. 192
- Date 傳送的訊息時間
- e.g. Tue,20,Nov 2000 02:10:11 GMT
- From Client的郵件地址
- user@gmil.com
- Host 伺服器域名
- www.google.com
- If-Match
- Refer 前一存取頁面
- e.g. http://dee.com
- User-Agent 瀏覽器身分標示字串
- e.g. Mozilla/5.0 , Firefox/21.0
JSON(JavaScrpit Object Notation)
- 物件-使用
{ }表示 - 陣列-使用
[ ]表示
{
"data":[
{
"id":"ASADASDS5546"
"message":"Hello World1"
},
{
"id":"ASADASDJ01546"
"message":"Hello World2"
},
]
}
import json
temp1 = [5,10,15,20] //串列
temp2 = (1,5,10,9) //元組
# temp3 = [{'NAME':'Peter','Age':25}] //串列 , 單引號
# JSON是雙引號
jsonData1= json.dumps(temp1)
jsonData2= json.dumps(temp2)