Python爬取时如何判断HTML标签

 时间:2026-02-12 10:00:30

1、首先我们打开编辑器,然后新建一个py后缀的文件,这是一个PYTHON的文件。

Python爬取时如何判断HTML标签

2、from bs4 import BeautifulSoup

import requests

首先要引入这两个库,这是要爬虫的非常常见的库,等会会展现他们的功能。

Python爬取时如何判断HTML标签

3、website = "网页"

result = requests.get(website)

result.encoding = "utf-8"

content = result.text

print(content)

这里我们就可以用requests这个库来先获取整个网页的HTML代码。并且打始没印一下查看是否有问题。

Python爬取时如何判断HTML标签

4、soup = BeautifulSoup(content, "html.parser")

print(soup)

接着就是用BeautifulSoup来解析一下内容,并且保存在变量里面。

Python爬取时如何判断HTML标签

5、现在可以来判断和获取HTML标签了,HTML标签是由<></>央棍盯这样的格式撤酱组成的。

title_tag = soup.title

print(title_tag)

print(title_tag.text)

比如我们看到了title标签想获取,就可以指定名字即可,如果要里面的内容可以用text。

Python爬取时如何判断HTML标签

6、但是往往标签都是有多个的,我们需要用find_all()来把所有给找出来。

div_tag = soup.find_all("div")

print(div_tag)

然后PYTHON会存储在列表里面。

Python爬取时如何判断HTML标签

  • 详解HTML超链接元素
  • C#窗体设计:[37]RichTextBox显示图片
  • 如何在vs属性界面输入中文
  • 如何使用SQL Developer增加数据库表
  • 报表开发工具FineReport:[2]筛选数据
  • 热门搜索
    安徽旅游局 小洲村旅游攻略 江西海外旅游总公司 上海城隍庙旅游攻略 珠海旅游网 qq旅游 旅游管理专业描述 海峡两岸旅游交流协会 旅游空间 南京有哪些旅游景点