两个吃奶一个添下面视频_人妻第一页香蕉网_欧美xxxx少妇_妺妺窝人体色www婷婷

1. 遍歷文檔樹(shù)

        在解析文檔文件的過(guò)程中,如果需要遍歷文檔,我們需要使用到一些特殊的方法。

        例如:

        1) .contents

        獲取Tag的所有子節(jié)點(diǎn),以列表的形式返回。

        例如:

con =  soup.head.contents
for i in con:
    print(i)

        先把tag的.content對(duì)象以列表的形式存儲(chǔ)在con中,然后通過(guò)遍歷來(lái)查看其中的元素。

        2) .children

        獲取Tag的所有子節(jié)點(diǎn),存儲(chǔ)在一個(gè)生成器中,可以直接通過(guò)遍歷的方式來(lái)訪問(wèn),和上面例子一致。

        3) .descendants

        獲取Tag的所有子孫節(jié)點(diǎn)。

        4) .strings

        獲取子孫節(jié)點(diǎn)中的所有內(nèi)容,可以通過(guò)遍歷的方式來(lái)訪問(wèn)。

        5) .parent

        獲取到Tag標(biāo)簽的父節(jié)點(diǎn)。

        6) .parents

        遞歸得到所有父輩節(jié)點(diǎn),存放在一個(gè)生成器中,可以通過(guò)遍歷的方式來(lái)訪問(wèn)。

        7) .previous_siblings

        獲取Tag上面的所有兄弟節(jié)點(diǎn),返回生成器。

        8) .next_siblings

        獲取Tag下面的所有兄弟節(jié)點(diǎn),返回生成器。

        9) .has_attr

        用于判斷Tag是否包含屬性。

2. 搜素文檔樹(shù)

        我們?cè)谑褂玫倪^(guò)程中如果要匹配到搜索內(nèi)容的全部信息,這時(shí)候就需要搜索整個(gè)文檔樹(shù),我們需要采用到find_all方法,這個(gè)過(guò)濾器能貫穿整個(gè)搜索的AIP,它可以使用在tag的name中,它的語(yǔ)法格式為:

find_all( name , attrs , recursive , text , **kwargs )

        name參數(shù)即tag的名字,attrs為類或id,recursive為遞歸性,text為文本參數(shù)。

        我們對(duì)于下面一段網(wǎng)頁(yè)信息進(jìn)行學(xué)習(xí)使用。

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>C語(yǔ)言網(wǎng)</title>
</head>
<body>
<div id = "contnt">
    <div id="top">
            <div id="dot">
            <a class="dotcpp" href="http://news.baidu.com" name="jc">教程</a>
            <a class="dotcpp" href="http://www.sztianhecheng.cn/wp/" name="zy">資源</a>
            <a class="dotcpp" href="https://blog.dotcpp.com/" name="bk">博客</a>
            <a class="dotcpp" href="http://www.sztianhecheng.cn/team/" name="xz">小組 </a>
            <a class="dotcpp" href="http://www.sztianhecheng.cn/wp/#" name="xl">訓(xùn)練 </a>
            <a class="dotcpp" href="http://www.sztianhecheng.cn/oj/contest.html" name="bs">比賽 </a>
          </div>
    </div>
</div>
</body>
</html>

        1) name

        name對(duì)應(yīng)的是標(biāo)簽的名字,我們可以通過(guò)函數(shù)判斷名字的存在,來(lái)遍歷文檔中的所有name標(biāo)簽的相關(guān)信息。

from bs4 import BeautifulSoup
soup = BeautifulSoup(html,"html.parser")
def name_is_exists(tag):
    return tag.has_attr("name")
s = soup.find_all(name_is_exists)
for i in s:
    print(i)

        輸出結(jié)果為:

<a class="dotcpp" href="http://news.baidu.com" name="jc">教程</a>
<a class="dotcpp" href="http://www.sztianhecheng.cn/wp/" name="zy">資源</a>
<a class="dotcpp" href="https://blog.dotcpp.com/" name="bk">博客</a>
<a class="dotcpp" href="http://www.sztianhecheng.cn/team/" name="xz">小組 </a>
<a class="dotcpp" href="http://www.sztianhecheng.cn/wp/#" name="xl">訓(xùn)練 </a>
<a class="dotcpp" href="http://www.sztianhecheng.cn/oj/contest.html" name="bs">比賽 </a>

        通過(guò)這個(gè)簡(jiǎn)單的例子我們篩選出了具備name名字的所有標(biāo)簽并輸出。

        2) attrs

        因?yàn)樵谝粋€(gè)html文檔中有很多屬性,我們想要篩選到我們想要的信息,也可以通過(guò)屬性的不同來(lái)篩選,我們?nèi)绻炎詈笪臋n中最后一個(gè)比賽的中的class內(nèi)容改為:

<a href="http://www.sztianhecheng.cn/oj/contest.html" name="bs" >比賽 </a>

        然后我們通過(guò)標(biāo)簽的選擇,可以直接獲取到這條標(biāo)簽的內(nèi)容,代碼如下:

from bs4 import BeautifulSoup
soup = BeautifulSoup(html,"html.parser")
s = soup.find_all(attrs={"class":"dot"})
for item in s:
    print(item)

        輸出結(jié)果為:

<a class="dot" href="http://www.sztianhecheng.cn/oj/contest.html" name="bs">比賽 </a>

        3) Text

        Text參數(shù)可以搜索文檔中的字符串內(nèi)容,與name參數(shù)的可選值一致,也可以通過(guò)正則表達(dá)式篩選,我們繼續(xù)對(duì)上面的html文件進(jìn)行過(guò)濾,代碼如下:

from bs4 import BeautifulSoup
soup = BeautifulSoup(html,"html.parser")
t_list = soup.find_all(text=["比賽", "博客", "訓(xùn)練"])
for item in t_list:
    print(item)

        輸出結(jié)果為:

博客
訓(xùn)練
比賽

        在使用的時(shí)候還會(huì)使用到find()方法,它會(huì)返回符合條件的第一個(gè)Tag,我們?cè)诤Y選一條符合要求的信息時(shí)可以采用find()方法,當(dāng)然我們也可以在find_all()中通過(guò)limit 參數(shù)來(lái)限定為‘1’來(lái)進(jìn)行查找,如下面例子中,它們對(duì)應(yīng)的是同一信息。

ts = soup.find_all("title",limit=1) 
print(ts) 
t = soup.find("title") 
print(t)

3. 總結(jié)

        BeautifulSoup在我們解析網(wǎng)頁(yè)的時(shí)候簡(jiǎn)單好用,能夠幫助我們快速的找到相應(yīng)的信息,相應(yīng)的語(yǔ)法也比較基礎(chǔ),常用的一些內(nèi)容我們基本介紹完了,如果想要了解更多內(nèi)容可以通過(guò)相關(guān)文檔進(jìn)一步的學(xué)習(xí)。https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 


點(diǎn)贊(0)

C語(yǔ)言網(wǎng)提供由在職研發(fā)工程師或ACM藍(lán)橋杯競(jìng)賽優(yōu)秀選手錄制的視頻教程,并配有習(xí)題和答疑,點(diǎn)擊了解:

一點(diǎn)編程也不會(huì)寫的:零基礎(chǔ)C語(yǔ)言學(xué)練課程

解決困擾你多年的C語(yǔ)言疑難雜癥特性的C語(yǔ)言進(jìn)階課程

從零到寫出一個(gè)爬蟲的Python編程課程

只會(huì)語(yǔ)法寫不出代碼?手把手帶你寫100個(gè)編程真題的編程百練課程

信息學(xué)奧賽或C++選手的 必學(xué)C++課程

藍(lán)橋杯ACM、信息學(xué)奧賽的必學(xué)課程:算法競(jìng)賽課入門課程

手把手講解近五年真題的藍(lán)橋杯輔導(dǎo)課程

Dotcpp在線編譯      (登錄可減少運(yùn)行等待時(shí)間)