關(guān)于Bytespider
一、頭條搜索UA介紹:
頭條搜索的爬蟲(chóng)UA為“Bytespider”首寫(xiě)字母為大寫(xiě),例如:
1.PC:Mozilla/5.0 (compatible; Bytespider; https://zhanzhang.toutiao.com/) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36
2.Android:Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
3.iOS:Mozilla/5.0 (iPhone; CPU iPhone OS 7_1_2 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Version/7.0 Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
二、頭條搜索ip字段介紹
頭條搜索的ip字段總共涉及10個(gè)ip,具體字段如下:
110.249.201.0/24
110.249.202.0/24
111.225.148.0/24
111.225.149.0/24
220.243.135.0/24
220.243.136.0/24
220.243.188.0/24
220.243.189.0/24
60.8.123.0/24
60.8.151.0/24
三、基本流程
1. 抓取網(wǎng)頁(yè)
每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁(yè)抓取程序爬蟲(chóng)(Spider)。爬蟲(chóng)順著網(wǎng)頁(yè)中的超鏈接,從這個(gè)網(wǎng)站爬到另一個(gè)網(wǎng)站,通過(guò)超鏈接分析連續(xù)訪問(wèn)抓取更多網(wǎng)頁(yè)。被抓取的網(wǎng)頁(yè)被稱(chēng)之為網(wǎng)頁(yè)快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁(yè)出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁(yè)。
2. 處理網(wǎng)頁(yè)
搜索引擎抓到網(wǎng)頁(yè)后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫(kù)和索引。其他還包括去除重復(fù)網(wǎng)頁(yè)、分詞(中文)、判斷網(wǎng)頁(yè)類(lèi)型、分析超鏈接、計(jì)算網(wǎng)頁(yè)的重要度/豐富度等。
3. 提供檢索服務(wù)
用戶(hù)輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫(kù)中找到匹配該關(guān)鍵詞的網(wǎng)頁(yè);為了用戶(hù)便于判斷,除了網(wǎng)頁(yè)標(biāo)題和URL外,還會(huì)提供一段來(lái)自網(wǎng)頁(yè)的摘要以及其他信息。
四、Bytespider IP反解析
反查IP
站長(zhǎng)可以通過(guò)DNS反查IP的方式判斷某只spider是否來(lái)自頭條搜索引擎。根據(jù)平臺(tái)不同驗(yàn)證方法不同,如linux/windows/os三種平臺(tái)下的驗(yàn)證方法分別如下
1.在linux平臺(tái)下,您可以使用host ip命令反解ip來(lái)判斷是否來(lái)自Bytespider的抓取。Bytespider的hostname以*.bytedance.com的格式命名,非 *.bytedance.com即為冒充。
host 111.225.148.250
148.148.225.111.in-addr.arpa domain name pointer bytespider-111-225-148-148.crawl.bytedance.com.
2.在windows平臺(tái)或者IBM OS/2平臺(tái)下,您可以使用nslookup ip命令反解ip來(lái)判斷是否來(lái)自Bytespider的抓取。打開(kāi)命令處理器 輸入nslookup -qt=ptr xxx.xxx.xxx.xxx(IP地 址)就能解析ip,來(lái)判斷是否來(lái)自Bytespider的抓取,Bytespider的hostname以*.bytedance.com 的格式命名,非*.bytedance.com 即為冒充。
3.在mac os平臺(tái)下,您可以使用dig命令反解ip來(lái)判斷是否來(lái)自Bytespider的抓取。打開(kāi)命令處理器輸入dig -x xxx.xxx.xxx.xxx(IP地址)就能解析ip, 來(lái)判斷是否來(lái)自Bytespider的抓取,Bytespider的hostname以 *.bytedance.com的格式命名,非 *.bytedance.com即為冒充。
五、問(wèn)題反饋
1.如果您的網(wǎng)站發(fā)現(xiàn)有頭條spider的UA Bytespider 抓取存在抓取量過(guò)大,導(dǎo)致您的網(wǎng)站出現(xiàn)緩慢、宕機(jī)等問(wèn)題,您可以通過(guò)“抓取頻次”功能,對(duì)網(wǎng)站進(jìn)行設(shè)置抓取要求,我們會(huì)在1天內(nèi)時(shí)間內(nèi)生效。
2.關(guān)于spider有其他問(wèn)題,可以向zhanzhang@bytedance.com提交反饋,我們會(huì)及時(shí)處理。
? Copyright 2023 深圳藍(lán)曬科技有限公司. 粵ICP備2023054553號(hào)-1