python BeautifulSoup使用方法详解

脚本专栏 2026/7/4 佚名

3 2 1

直接看例子：

复制代码代码如下:
#!/usr/bin/python
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
The Dormouse's story
Once upon a time there were three little sisters; and their names were
<a href="https://www.jb51.net" class="sister" id="link1">Elsie</a>,
<a href="https://www.jb51.net" class="sister" id="link2">Lacie</a> and
<a href="https://www.jb51.net" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.
...
"""
soup = BeautifulSoup(html_doc)
print soup.title
print soup.title.name
print soup.title.string
print soup.p
print soup.a
print soup.find_all('a')
print soup.find(id='link3')
print soup.get_text()

结果为：
复制代码代码如下:
<title>The Dormouse's story</title>
title
The Dormouse's story
The Dormouse's story
<a class="sister" href="https://www.jb51.net" id="link1">Elsie</a>
[<a class="sister" href="https://www.jb51.net" id="link1">Elsie</a>, <a class="sister" href="https://www.jb51.net" id="link2">Lacie</a>, <a class="sister" href="https://www.jb51.net" id="link3">Tillie</a>]
<a class="sister" href="https://www.jb51.net" id="link3">Tillie</a>
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...

可以看出：soup 就是BeautifulSoup处理格式化后的字符串，soup.title 得到的是title标签，soup.p 得到的是文档中的第一个p标签，要想得到所有标签，得用find_all
函数。find_all 函数返回的是一个序列，可以对它进行循环，依次得到想到的东西.
get_text() 是返回文本,这个对每一个BeautifulSoup处理后的对象得到的标签都是生效的。你可以试试 print soup.p.get_text()
其实是可以获得标签的其他属性的，比如我要获得a标签的href属性的值，可以使用 print soup.a['href'],类似的其他属性，比如class也是可以这么得到的（soup.a['class']）。
特别的，一些特殊的标签，比如head标签，是可以通过soup.head 得到，其实前面也已经说了。
如何获得标签的内容数组？使用contents 属性就可以比如使用 print soup.head.contents，就获得了head下的所有子孩子，以列表的形式返回结果，
可以使用 [num] 的形式获得 ,获得标签，使用.name 就可以。
获取标签的孩子，也可以使用children，但是不能print soup.head.children 没有返回列表，返回的是 <listiterator object at 0x108e6d150>,
不过使用list可以将其转化为列表。当然可以使用for 语句遍历里面的孩子。
关于string属性，如果超过一个标签的话，那么就会返回None，否则就返回具体的字符串print soup.title.string 就返回了 The Dormouse's story
超过一个标签的话，可以试用strings
向上查找可以用parent函数，如果查找所有的，那么可以使用parents函数
查找下一个兄弟使用next_sibling,查找上一个兄弟节点使用previous_sibling,如果是查找所有的，那么在对应的函数后面加s就可以

如何遍历树？

使用find_all 函数
复制代码代码如下:
find_all(name, attrs, recursive, text, limit, **kwargs)

举例说明：

复制代码代码如下:
print soup.find_all('title')
print soup.find_all('p','title')
print soup.find_all('a')
print soup.find_all(id="link2")
print soup.find_all(id=True)

返回值为：
复制代码代码如下:
[<title>The Dormouse's story</title>]
[The Dormouse's story]
[<a class="sister" href="https://www.jb51.net" id="link1">Elsie</a>, <a class="sister" href="https://www.jb51.net" id="link2">Lacie</a>, <a class="sister" href="https://www.jb51.net" id="link3">Tillie</a>]
[<a class="sister" href="https://www.jb51.net" id="link2">Lacie</a>]
[<a class="sister" href="https://www.jb51.net" id="link1">Elsie</a>, <a class="sister" href="https://www.jb51.net" id="link2">Lacie</a>, <a class="sister" href="https://www.jb51.net" id="link3">Tillie</a>]

通过css查找,直接上例子：

复制代码代码如下:
print soup.find_all("a", class_="sister")
print soup.select("p.title")

通过属性进行查找
复制代码代码如下:
print soup.find_all("a", attrs={"class": "sister"})

通过文本进行查找
复制代码代码如下:
print soup.find_all(text="Elsie")
print soup.find_all(text=["Tillie", "Elsie", "Lacie"])

限制结果个数
复制代码代码如下:
print soup.find_all("a", limit=2)

结果为：
复制代码代码如下:
[<a class="sister" href="https://www.jb51.net" id="link1">Elsie</a>, <a class="sister" href="https://www.jb51.net" id="link2">Lacie</a>, <a class="sister" href="https://www.jb51.net" id="link3">Tillie</a>]
[The Dormouse's story]
[<a class="sister" href="https://www.jb51.net" id="link1">Elsie</a>, <a class="sister" href="https://www.jb51.net" id="link2">Lacie</a>, <a class="sister" href="https://www.jb51.net" id="link3">Tillie</a>]
[u'Elsie']
[u'Elsie', u'Lacie', u'Tillie']
[<a class="sister" href="https://www.jb51.net" id="link1">Elsie</a>, <a class="sister" href="https://www.jb51.net" id="link2">Lacie</a>]

总之，通过这些函数可以查找到想要的东西。

python,BeautifulSoup

标签：

python,BeautifulSoup

免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

白云城资源网 Copyright www.dyhadc.com

评论“python BeautifulSoup使用方法详解”

python BeautifulSoup使用方法详解

暂无“python BeautifulSoup使用方法详解”评论...

www.dyhadc.com 白云城资源网

129,905影音资源

244,626技术资源

111,817软件资源

578,645站长资源

python BeautifulSoup使用方法详解

python,BeautifulSoup

python二叉树的实现实例

python冒泡排序算法的实现代码

评论“python BeautifulSoup使用方法详解”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

python BeautifulSoup使用方法详解

python,BeautifulSoup

python二叉树的实现实例

python冒泡排序算法的实现代码

评论“python BeautifulSoup使用方法详解”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存