BeautifulSoup(2)

98706 閱讀 0 評(píng)論 0 點(diǎn)贊

1. 遍歷文檔樹(shù)

在解析文檔文件的過(guò)程中，如果需要遍歷文檔，我們需要使用到一些特殊的方法。

例如：

1) .contents

獲取Tag的所有子節(jié)點(diǎn)，以列表的形式返回。

例如：

con =  soup.head.contents
for i in con:
    print(i)

先把tag的.content對(duì)象以列表的形式存儲(chǔ)在con中，然后通過(guò)遍歷來(lái)查看其中的元素。

2) .children

獲取Tag的所有子節(jié)點(diǎn)，存儲(chǔ)在一個(gè)生成器中，可以直接通過(guò)遍歷的方式來(lái)訪問(wèn)，和上面例子一致。

3) .descendants

獲取Tag的所有子孫節(jié)點(diǎn)。

4) .strings

獲取子孫節(jié)點(diǎn)中的所有內(nèi)容，可以通過(guò)遍歷的方式來(lái)訪問(wèn)。

5) .parent

獲取到Tag標(biāo)簽的父節(jié)點(diǎn)。

6) .parents

遞歸得到所有父輩節(jié)點(diǎn)，存放在一個(gè)生成器中，可以通過(guò)遍歷的方式來(lái)訪問(wèn)。

7) .previous_siblings

獲取Tag上面的所有兄弟節(jié)點(diǎn)，返回生成器。

8) .next_siblings

獲取Tag下面的所有兄弟節(jié)點(diǎn)，返回生成器。

9) .has_attr

用于判斷Tag是否包含屬性。

2. 搜素文檔樹(shù)

我們?cè)谑褂玫倪^(guò)程中如果要匹配到搜索內(nèi)容的全部信息，這時(shí)候就需要搜索整個(gè)文檔樹(shù)，我們需要采用到find_all方法，這個(gè)過(guò)濾器能貫穿整個(gè)搜索的AIP，它可以使用在tag的name中，它的語(yǔ)法格式為：

find_all( name , attrs , recursive , text , **kwargs )

name參數(shù)即tag的名字，attrs為類或id，recursive為遞歸性，text為文本參數(shù)。

我們對(duì)于下面一段網(wǎng)頁(yè)信息進(jìn)行學(xué)習(xí)使用。

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>C語(yǔ)言網(wǎng)</title>
</head>
<body>
<div id = "contnt">
    <div id="top">
            <div id="dot">
            <a class="dotcpp" href="http://news.baidu.com" name="jc">教程</a>
            <a class="dotcpp" href="http://www.sztianhecheng.cn/wp/" name="zy">資源</a>
            <a class="dotcpp" href="https://blog.dotcpp.com/" name="bk">博客</a>
            <a class="dotcpp" href="http://www.sztianhecheng.cn/team/" name="xz">小組 </a>
            <a class="dotcpp" href="http://www.sztianhecheng.cn/wp/#" name="xl">訓(xùn)練 </a>
            <a class="dotcpp" href="http://www.sztianhecheng.cn/oj/contest.html" name="bs">比賽 </a>
          </div>
    </div>
</div>
</body>
</html>

1) name

name對(duì)應(yīng)的是標(biāo)簽的名字，我們可以通過(guò)函數(shù)判斷名字的存在，來(lái)遍歷文檔中的所有name標(biāo)簽的相關(guān)信息。

from bs4 import BeautifulSoup
soup = BeautifulSoup(html,"html.parser")
def name_is_exists(tag):
    return tag.has_attr("name")
s = soup.find_all(name_is_exists)
for i in s:
    print(i)

輸出結(jié)果為：

<a class="dotcpp" href="http://news.baidu.com" name="jc">教程</a>
<a class="dotcpp" href="http://www.sztianhecheng.cn/wp/" name="zy">資源</a>
<a class="dotcpp" href="https://blog.dotcpp.com/" name="bk">博客</a>
<a class="dotcpp" href="http://www.sztianhecheng.cn/team/" name="xz">小組 </a>
<a class="dotcpp" href="http://www.sztianhecheng.cn/wp/#" name="xl">訓(xùn)練 </a>
<a class="dotcpp" href="http://www.sztianhecheng.cn/oj/contest.html" name="bs">比賽 </a>

通過(guò)這個(gè)簡(jiǎn)單的例子我們篩選出了具備name名字的所有標(biāo)簽并輸出。

2) attrs

因?yàn)樵谝粋€(gè)html文檔中有很多屬性，我們想要篩選到我們想要的信息，也可以通過(guò)屬性的不同來(lái)篩選，我們?nèi)绻炎詈笪臋n中最后一個(gè)比賽的中的class內(nèi)容改為：

<a href="http://www.sztianhecheng.cn/oj/contest.html" name="bs" >比賽 </a>

然后我們通過(guò)標(biāo)簽的選擇，可以直接獲取到這條標(biāo)簽的內(nèi)容，代碼如下：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html,"html.parser")
s = soup.find_all(attrs={"class":"dot"})
for item in s:
    print(item)

輸出結(jié)果為：

<a class="dot" href="http://www.sztianhecheng.cn/oj/contest.html" name="bs">比賽 </a>

3) Text

Text參數(shù)可以搜索文檔中的字符串內(nèi)容，與name參數(shù)的可選值一致，也可以通過(guò)正則表達(dá)式篩選，我們繼續(xù)對(duì)上面的html文件進(jìn)行過(guò)濾，代碼如下：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html,"html.parser")
t_list = soup.find_all(text=["比賽", "博客", "訓(xùn)練"])
for item in t_list:
    print(item)

輸出結(jié)果為：

博客
訓(xùn)練
比賽

在使用的時(shí)候還會(huì)使用到find()方法，它會(huì)返回符合條件的第一個(gè)Tag，我們?cè)诤Y選一條符合要求的信息時(shí)可以采用find()方法，當(dāng)然我們也可以在find_all()中通過(guò)limit 參數(shù)來(lái)限定為‘1’來(lái)進(jìn)行查找，如下面例子中，它們對(duì)應(yīng)的是同一信息。

ts = soup.find_all("title",limit=1) 
print(ts) 
t = soup.find("title") 
print(t)

3. 總結(jié)

BeautifulSoup在我們解析網(wǎng)頁(yè)的時(shí)候簡(jiǎn)單好用，能夠幫助我們快速的找到相應(yīng)的信息，相應(yīng)的語(yǔ)法也比較基礎(chǔ)，常用的一些內(nèi)容我們基本介紹完了，如果想要了解更多內(nèi)容可以通過(guò)相關(guān)文檔進(jìn)一步的學(xué)習(xí)。https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

點(diǎn)贊(0)