Python中如何使用Selenium自动进行百度搜索

这篇文章主要介绍了Python中如何使用Selenium自动进行百度搜索的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Python中如何使用Selenium自动进行百度搜索文章都会有所收获，下面我们一起来看看吧。

10年积累的成都做网站、成都网站制作经验，可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你，你也不认识我。但先网站设计后付款的网站建设流程，更有东海免费网站建设让你可以放心的选择与我们合作。

安装 Selenium

可以使用 pip 安装 Python 的 Selenium 库：pip install selenium

（可选项：要执行项目并控制浏览器，需要安装特定于浏览器的 WebDriver 二进制文件。

下载 WebDriver 二进制文件并放入系统 PATH 环境变量中.）

由于本地浏览器版本升级，引起的版本不一致问题，和系统PATH环境变量的设置比较繁琐，所以我使用webdriver_manager，

安装 Install manager:

pip install webdriver-manager

写代码

引入模块：

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys

首先我们定义一个类Search_Baidu，它主要用于初始化；定义自动化步骤的方法；结束关闭浏览器。

class Search_Baidu:
def __init__(self):
def search(self, keyword):
def tear_down(self):

接下来我们分别介绍每个方法的实现过程。

   def __init__(self): #类构造函数，用于初始化selenium的webdriver
        url = "https://www.baidu.com/" #这里定义访问的网络地址
        self.url = url

        options = webdriver.ChromeOptions()
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2}) # 不加载图片,加快访问速度
        options.add_experimental_option("excludeSwitches", ["enable-automation"]) # 此步骤很重要，设置为开发者模式，防止被各大网站识别出来使用了Selenium
# 这里使用chrome浏览器，而且使用我们刚才安装的webdriver_manager的chrome driver，并赋值上面的浏览器设置options变量
        self.browser = webdriver.Chrome(ChromeDriverManager().install(), options=options)
        self.wait = WebDriverWait(self.browser, 10) #超时时长为10s，由于自动化需要等待网页控件的加载，所以这里设置一个默认的等待超时，时长为10秒

    def tear_down(self):
        self.browser.close() #最后，关闭浏览器

接下来是重头戏，写我们操作浏览器的步骤，打开浏览器，进入百度网页，输入搜索关键字：Selenium，等待搜索结果，把搜索结果的题目和网址保存到文件里。

def search(self, keyword):
    # 打开百度网页
    self.browser.get(self.url)
    # 等待搜索框出现，最多等待10秒，否则报超时错误
    search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, "//*[@id="kw"]")))
    # 在搜索框输入搜索的关键字
    search_input.send_keys(keyword)
    # 回车
    search_input.send_keys(Keys.ENTER)
    # 等待10秒钟
    self.browser.implicitly_wait(10)
    # 找到所有的搜索结果
    results = self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")
    # 遍历所有的搜索结果
    with open("search_result.txt","w") as file:            
        for result in results:
            if result.get_attribute("href"):
                print(result.get_attribute("text").strip())
                # 搜索结果的标题
                title = result.get_attribute("text").strip()
                # 搜索结果的网址
                link = result.get_attribute("href")
                # 写入文件
                file.write(f"Title: {title}, link is: {link} 
")

点位网页元素

这里头有个关键点，就是如何点位网页元素：

比如：

search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, "//*[@id="kw"]")))

还有：

self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")

打个比方，快递员通过地址找到你家，给你送快递，这里的XPATH和CSS Selector就是网页元素的地址，那么如何得到呢？
第一个就是Chrome自带的开发者工具，可以快捷键F12，也可以自己在下图中找到：

Python中如何使用Selenium自动进行百度搜索

然后在百度搜索框，右键：

Python中如何使用Selenium自动进行百度搜索

找到输入框的HTML元素，

Python中如何使用Selenium自动进行百度搜索

在HTML元素右键，拷贝XPath地址。

Python中如何使用Selenium自动进行百度搜索

这是比较简单的定位网页元素的方法。接下来我们定位搜索结果元素的时候，就遇到了麻烦，如下图：

Python中如何使用Selenium自动进行百度搜索

我们不能单独的定位每个元素，而是要找到规律，一次把所有的搜索结果找到，然后返回一个list，我们好遍历这个list，这个怎么实现呢？

接下来，我们请出一大神器：SelectorGadget

Python中如何使用Selenium自动进行百度搜索

SelectorGadget是一个CSS Selector生成器，大家可以在他的官方文档找到具体的使用说明，我这里简单介绍一下：
首先启动SelectorGadget，点击一下图标

Python中如何使用Selenium自动进行百度搜索

浏览器会出现下面的框框：

Python中如何使用Selenium自动进行百度搜索

然后我们在网页用鼠标左键，点击我们要定位的元素

Python中如何使用Selenium自动进行百度搜索

然后页面会变成下面的样子：

Python中如何使用Selenium自动进行百度搜索

所有黄色的部分说明都被选择了，如果我们不想要的元素，右键点击，使它变为红色，说明它被去掉了。如果没有被选择我们又需要的元素，我们左键选择它，使它变为绿色。最后我们希望选择的页面元素都变成了绿色或者黄色，如下图：

Python中如何使用Selenium自动进行百度搜索

我们就可以拷贝框框里的内容作为CSS Selector了。

Python中如何使用Selenium自动进行百度搜索

通过CSS Selector找到所有的搜索结果。

results = self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")

到此，我们就实现了这么个简单的小应用了，其实selenium就是帮助我们自动操作网页元素，所以我们定位网页元素就是重中之重，希望本文给你带来一点帮助。

下面我附上代码：

from datetime import time
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys

class Search_Baidu:
    def __init__(self):
        url = "https://www.baidu.com/"
        self.url = url

        options = webdriver.ChromeOptions()
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2}) # 不加载图片,加快访问速度
        options.add_experimental_option("excludeSwitches", ["enable-automation"]) # 此步骤很重要，设置为开发者模式，防止被各大网站识别出来使用了Selenium

        self.browser = webdriver.Chrome(ChromeDriverManager().install(), options=options)
        self.wait = WebDriverWait(self.browser, 10) #超时时长为10s

    def search(self, keyword):
        # 打开百度网页
        self.browser.get(self.url)
        # 等待搜索框出现，最多等待10秒，否则报超时错误
        search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, "//*[@id="kw"]")))
        # 在搜索框输入搜索的关键字
        search_input.send_keys(keyword)
        # 回车
        search_input.send_keys(Keys.ENTER)
        # 等待10秒钟
        self.browser.implicitly_wait(10)
        # 找到所有的搜索结果
        results = self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")
        # 遍历所有的搜索结果
        with open("search_result.txt","w") as file:            
            for result in results:
                if result.get_attribute("href"):
                    print(result.get_attribute("text").strip())
                    # 搜索结果的标题
                    title = result.get_attribute("text").strip()
                    # 搜索结果的网址
                    link = result.get_attribute("href")
                    # 写入文件
                    file.write(f"Title: {title}, link is: {link} 
")

    def tear_down(self):
        self.browser.close()

if __name__ == "__main__":
    search = Search_Baidu()
    search.search("selenium")
    search.tear_down()

关于“Python中如何使用Selenium自动进行百度搜索”这篇文章的内容就介绍到这里，感谢各位的阅读！相信大家对“Python中如何使用Selenium自动进行百度搜索”知识都有一定的了解，大家如果还想学习更多知识，欢迎关注创新互联行业资讯频道。

本文名称：Python中如何使用Selenium自动进行百度搜索
文章转载：http://scyanting.com/article/jpsjos.html

Python中如何使用Selenium自动进行百度搜索

安装 Selenium

写代码

点位网页元素

其他资讯