beautifulsoup库怎么在python中使用-创新互联

今天就跟大家聊聊有关beautifulsoup库怎么在python中使用，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

创新互联建站专注为客户提供全方位的互联网综合服务，包含不限于成都网站制作、成都网站建设、贵阳网络推广、成都微信小程序、贵阳网络营销、贵阳企业策划、贵阳品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们大的嘉奖；创新互联建站为所有大学生创业者提供贵阳建站搭建服务，24小时服务热线：13518219792，官方网址：www.cdcxhl.com

1. BeautifulSoup库简介

BeautifulSoup库在python中被美其名为“靓汤”，它和和 lxml 一样也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，若在没用安装此库的情况下， Python 会使用 Python默认的解析器lxml，lxml 解析器更加强大，速度更快，而BeautifulSoup库中的lxml解析器则是集成了单独的lxml的特点，使得功能更加强大。

需要注意的是，Beautiful Soup已经自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。因此在使用它的时候不需要考虑编码方式，仅仅需要说明一下原始编码方式就可以了。

使用pip命令工具安装BeautifulSoup4库

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ BeautifulSoup # 使用清华大学镜像源安装

2. BeautifulSoup库的主要解析器

在代码中html.parser是一种针对于html网页页面的解析器，Beautiful Soup库还有其他的解析器，用于针对不同的网页

demo = 'https://www.baidu.com'
soup = BeautifulSoup(demo,'html.parser')

解析器	使用方法	条件
bs4的html解析器	BeautifulSoup(demo,‘html.parser')	安装bs4库
lxml的html解析器	BeautifulSoup(demo,‘lxml')	pip install lxml
lxml的xml解析器	BeautifulSoup(demo,‘xml')	pip install lxml
html5lib的解析器	BeautifulSoup(demo,‘html5lib')	pip install html5lib

3. BeautifulSoup的简单使用

假如有一个简单的网页，提取百度搜索页面的一部分源代码为例




 
 
 
 
 百度一下，你就知道 


 
 
 
  
  新闻

  hao123 
  地图 
  视频 
  贴吧

  更多产品

结合requests库和使用BeautifulSoup库的html解析器，对其进行解析有如下

4. BeautifuSoup的类的基本元素

BeautifulSoup4将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,BeautifulSoup库有针对于html的标签数的特定元素，重点有如下三种

4.1 Tag

在Tag标签中最重要的就是html页面中的name哈attrs属性，使用方式如下

4.2 NavigableString

4.3 Comment

Comment 对象是一个特殊类型的 NavigableString 对象，其输出的内容不包括注释符号，用于输出注释中的内容

5. 基于bs4库的HTML内容的遍历方法

在HTML中有如下特定的基本格式，也是构成HTML页面的基本组成成分

三种种遍历方式分别是从当前节点出发。对之上或者之下或者平行的格式以及关系进行遍历

5.1 下行遍历

5.2 上行遍历

5.3 平行遍历

5.4 其他遍历

6. 文件树搜索

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和标明开头和结尾，格式：soup.a或者soup.p（获取a标签中或者p标签中的内容）
Name	标签的名字， … 的名字是‘p' 格式为：.name
Attributes	标签的属性，字典形式组织，格式：.attrs
NavigableString	标签内非属性字符串，<>…中的字符串，格式：.string
Comment	标签内的字符串的注释部分，一种特殊的Comment类型

属性	说明
.contents	子节点的列表，将所有儿子节点存入列表
.children	子节点的迭代类型，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点，返回一个生成器

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照html文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照html文本顺序的前序所有平行节点标签

属性	说明
.strings	如果Tag包含多个字符串，即在子孙节点中有内容，可以用此获取，而后进行遍历
.stripped_strings	与strings用法一致，可以去除掉那些多余的空白内容
.has_attr	判断Tag是否包含属性

使用soup.find_all(name,attrs,recursive,string,**kwargs)方法，用于返回一个列表类型，存储查找的结果

6.1 name参数

如果是指定的字符串：会查找与字符串完全匹配的内容，如下

如果是使用正则表达式：将会使用BeautifulSoup4中的search()方法来匹配内容，如下

如果传入一个列表：BeautifulSoup4将会与列表中的任一元素匹配到的节点返回，如下

6.2 attrs参数

并不是所有的属性都可以使用上面这种方式进行搜索，比如HTML的data属性，用于指定属性搜索

6.3 string参数

通过通过string参数可以搜索文档中的字符串内容，与name参数的可选值一样，string参数接受字符串，正则表达式，列表

使用find_all()方法的时，常用到正则表达式的形式import re如下所示

6.4 常用的fiid()方法如下

看完上述内容，你们对beautifulsoup库怎么在python中使用有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注创新互联行业资讯频道，感谢大家的支持。