搜狗反爬虫

Date: 2019/05/08 Categories: 工作 Tags: 爬虫


搜狗需要cookie, 获取方式为

curl --referer https://www.sogou.com --user-agent 'Chrome/54.0 (Windows NT 10.0)' \
    --cookie-jar query.cookie.txt --verbose  'https://www.sogou.com/web?query='

获取的cookie类似

.sogou.com      TRUE    /       FALSE   2188000099      SUID 98B0CDCB541C940A000000005CD23563
.sogou.com      TRUE    /       FALSE   1588816099      IPLOC   CA
.sogou.com      TRUE    /       FALSE   1588816099      SNUID B991ECEB2025A877A73F63C6210CE107
www.sogou.com   FALSE   /       FALSE   1559872099      ABTEST  0|1557280099|v17

根据网上的文章爬取搜索引擎之搜狗

SUID可以一直使用, 而SNUID有使用次数限制, 大约1000次?

一个完整的爬虫架构 - 爬取搜狗微信文章/公众号的结果