Python爬蟲協(xié)議

116814 閱讀 0 評(píng)論 0 點(diǎn)贊

當(dāng)我們真正接觸了爬蟲之后會(huì)發(fā)現(xiàn)爬蟲的功能十分強(qiáng)大，但是我們并不能為所欲為的使用爬蟲，爬蟲需要遵循robots協(xié)議，該協(xié)議是國(guó)際互聯(lián)網(wǎng)界通行的道德規(guī)范，每一個(gè)爬蟲都應(yīng)該遵守，本節(jié)我們就來介紹一下爬蟲協(xié)議。

1. 違規(guī)案例（1）——BE違規(guī)抓取eBay

十二年前，BE公司利用爬蟲抓取了eBay等多個(gè)大型拍賣網(wǎng)站的商業(yè)信息，并把這些信息放置在自己的網(wǎng)站上供用戶瀏覽，獲得了客觀的網(wǎng)站流量，對(duì)于eBay來說，BE的爬蟲每天超過十萬次的訪問自家的服務(wù)器，造成了很大的壓力，因此向BE提出禁止抓取，但是BE因?yàn)槔娴脑蚨鵁o視這個(gè)要求，之后eBay便把BE告上法庭，經(jīng)過聯(lián)邦法官的取證后，認(rèn)定BE侵權(quán)，禁止了BE的行為。

2. 違規(guī)案例（2）——360搜索無視r(shí)obots協(xié)議

2012年8月29日，上線十日便輕松登頂國(guó)內(nèi)第二大搜索引擎的奇虎360搜索遭到百度的起訴，百度認(rèn)為360公司違反Robots協(xié)議抓取百度知道、百度百科等數(shù)據(jù)，而法庭也尊重Robots協(xié)議，因此360賠償百度70萬元，由此可見，Robots協(xié)議在互聯(lián)網(wǎng)業(yè)界和司法界都是得到認(rèn)可的，我們?cè)谑褂玫臅r(shí)候也要嚴(yán)格遵循此協(xié)議。

3. 爬蟲協(xié)議

Robots協(xié)議（也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等）的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”（Robots Exclusion Protocol），網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取，該協(xié)議屬于一個(gè)規(guī)范，并不能保證網(wǎng)站的隱私。

Robots協(xié)議是國(guó)際互聯(lián)網(wǎng)界通行的道德規(guī)范，基于以下原則：
1. 搜索技術(shù)應(yīng)服務(wù)于人類，同時(shí)尊重信息提供者的意愿，并維護(hù)其隱私權(quán)。

2. 網(wǎng)站有義務(wù)保證其使用者的個(gè)人信息和隱私不被侵犯。

在使用爬蟲的時(shí)候我們應(yīng)當(dāng)注意一下幾點(diǎn)：

1. 拒絕訪問和抓取有關(guān)不良信息的網(wǎng)站。

2. 注意版權(quán)意識(shí)，對(duì)于原創(chuàng)內(nèi)容，未經(jīng)允許不要將信息用于其他用途，特別是商業(yè)方面。

3. 嚴(yán)格遵循robots.txt協(xié)議。

4. 爬蟲協(xié)議查看方式

大部分網(wǎng)站都會(huì)提供自己的robots.txt文件，這個(gè)文件會(huì)告訴我們?cè)摼W(wǎng)站的爬取準(zhǔn)則，查看方式是在域名加"/robots.txt"并回車。

我們來看一下百度的爬蟲協(xié)議：