1. 遍歷文檔樹(shù)
在解析文檔文件的過(guò)程中,如果需要遍歷文檔,我們需要使用到一些特殊的方法。
例如:
1) .contents
獲取Tag的所有子節(jié)點(diǎn),以列表的形式返回。
例如:
con = soup.head.contents for i in con: print(i)
先把tag的.content對(duì)象以列表的形式存儲(chǔ)在con中,然后通過(guò)遍歷來(lái)查看其中的元素。
2) .children
獲取Tag的所有子節(jié)點(diǎn),存儲(chǔ)在一個(gè)生成器中,可以直接通過(guò)遍歷的方式來(lái)訪問(wèn),和上面例子一致。
3) .descendants
獲取Tag的所有子孫節(jié)點(diǎn)。
4) .strings
獲取子孫節(jié)點(diǎn)中的所有內(nèi)容,可以通過(guò)遍歷的方式來(lái)訪問(wèn)。
5) .parent
獲取到Tag標(biāo)簽的父節(jié)點(diǎn)。
6) .parents
遞歸得到所有父輩節(jié)點(diǎn),存放在一個(gè)生成器中,可以通過(guò)遍歷的方式來(lái)訪問(wèn)。
7) .previous_siblings
獲取Tag上面的所有兄弟節(jié)點(diǎn),返回生成器。
8) .next_siblings
獲取Tag下面的所有兄弟節(jié)點(diǎn),返回生成器。
9) .has_attr
用于判斷Tag是否包含屬性。
2. 搜素文檔樹(shù)
我們?cè)谑褂玫倪^(guò)程中如果要匹配到搜索內(nèi)容的全部信息,這時(shí)候就需要搜索整個(gè)文檔樹(shù),我們需要采用到find_all方法,這個(gè)過(guò)濾器能貫穿整個(gè)搜索的AIP,它可以使用在tag的name中,它的語(yǔ)法格式為:
find_all( name , attrs , recursive , text , **kwargs )
name參數(shù)即tag的名字,attrs為類或id,recursive為遞歸性,text為文本參數(shù)。
我們對(duì)于下面一段網(wǎng)頁(yè)信息進(jìn)行學(xué)習(xí)使用。
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>C語(yǔ)言網(wǎng)</title> </head> <body> <div id = "contnt"> <div id="top"> <div id="dot"> <a class="dotcpp" href="http://news.baidu.com" name="jc">教程</a> <a class="dotcpp" href="http://www.sztianhecheng.cn/wp/" name="zy">資源</a> <a class="dotcpp" href="https://blog.dotcpp.com/" name="bk">博客</a> <a class="dotcpp" href="http://www.sztianhecheng.cn/team/" name="xz">小組 </a> <a class="dotcpp" href="http://www.sztianhecheng.cn/wp/#" name="xl">訓(xùn)練 </a> <a class="dotcpp" href="http://www.sztianhecheng.cn/oj/contest.html" name="bs">比賽 </a> </div> </div> </div> </body> </html>
1) name
name對(duì)應(yīng)的是標(biāo)簽的名字,我們可以通過(guò)函數(shù)判斷名字的存在,來(lái)遍歷文檔中的所有name標(biāo)簽的相關(guān)信息。
from bs4 import BeautifulSoup soup = BeautifulSoup(html,"html.parser") def name_is_exists(tag): return tag.has_attr("name") s = soup.find_all(name_is_exists) for i in s: print(i)
輸出結(jié)果為:
<a class="dotcpp" href="http://news.baidu.com" name="jc">教程</a> <a class="dotcpp" href="http://www.sztianhecheng.cn/wp/" name="zy">資源</a> <a class="dotcpp" href="https://blog.dotcpp.com/" name="bk">博客</a> <a class="dotcpp" href="http://www.sztianhecheng.cn/team/" name="xz">小組 </a> <a class="dotcpp" href="http://www.sztianhecheng.cn/wp/#" name="xl">訓(xùn)練 </a> <a class="dotcpp" href="http://www.sztianhecheng.cn/oj/contest.html" name="bs">比賽 </a>
通過(guò)這個(gè)簡(jiǎn)單的例子我們篩選出了具備name名字的所有標(biāo)簽并輸出。
2) attrs
因?yàn)樵谝粋€(gè)html文檔中有很多屬性,我們想要篩選到我們想要的信息,也可以通過(guò)屬性的不同來(lái)篩選,我們?nèi)绻炎詈笪臋n中最后一個(gè)比賽的中的class內(nèi)容改為:
<a href="http://www.sztianhecheng.cn/oj/contest.html" name="bs" >比賽 </a>
然后我們通過(guò)標(biāo)簽的選擇,可以直接獲取到這條標(biāo)簽的內(nèi)容,代碼如下:
from bs4 import BeautifulSoup soup = BeautifulSoup(html,"html.parser") s = soup.find_all(attrs={"class":"dot"}) for item in s: print(item)
輸出結(jié)果為:
<a class="dot" href="http://www.sztianhecheng.cn/oj/contest.html" name="bs">比賽 </a>
3) Text
Text參數(shù)可以搜索文檔中的字符串內(nèi)容,與name參數(shù)的可選值一致,也可以通過(guò)正則表達(dá)式篩選,我們繼續(xù)對(duì)上面的html文件進(jìn)行過(guò)濾,代碼如下:
from bs4 import BeautifulSoup soup = BeautifulSoup(html,"html.parser") t_list = soup.find_all(text=["比賽", "博客", "訓(xùn)練"]) for item in t_list: print(item)
輸出結(jié)果為:
博客 訓(xùn)練 比賽
在使用的時(shí)候還會(huì)使用到find()方法,它會(huì)返回符合條件的第一個(gè)Tag,我們?cè)诤Y選一條符合要求的信息時(shí)可以采用find()方法,當(dāng)然我們也可以在find_all()中通過(guò)limit 參數(shù)來(lái)限定為‘1’來(lái)進(jìn)行查找,如下面例子中,它們對(duì)應(yīng)的是同一信息。
ts = soup.find_all("title",limit=1) print(ts) t = soup.find("title") print(t)
3. 總結(jié)
BeautifulSoup在我們解析網(wǎng)頁(yè)的時(shí)候簡(jiǎn)單好用,能夠幫助我們快速的找到相應(yīng)的信息,相應(yīng)的語(yǔ)法也比較基礎(chǔ),常用的一些內(nèi)容我們基本介紹完了,如果想要了解更多內(nèi)容可以通過(guò)相關(guān)文檔進(jìn)一步的學(xué)習(xí)。https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
C語(yǔ)言網(wǎng)提供由在職研發(fā)工程師或ACM藍(lán)橋杯競(jìng)賽優(yōu)秀選手錄制的視頻教程,并配有習(xí)題和答疑,點(diǎn)擊了解:
一點(diǎn)編程也不會(huì)寫的:零基礎(chǔ)C語(yǔ)言學(xué)練課程
解決困擾你多年的C語(yǔ)言疑難雜癥特性的C語(yǔ)言進(jìn)階課程
從零到寫出一個(gè)爬蟲的Python編程課程
只會(huì)語(yǔ)法寫不出代碼?手把手帶你寫100個(gè)編程真題的編程百練課程
信息學(xué)奧賽或C++選手的 必學(xué)C++課程
藍(lán)橋杯ACM、信息學(xué)奧賽的必學(xué)課程:算法競(jìng)賽課入門課程
手把手講解近五年真題的藍(lán)橋杯輔導(dǎo)課程