Python爬虫反爬手段有哪些

这篇文章给大家分享的是有关Python爬虫反爬手段有哪些的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

创新互联公司专注为客户提供全方位的互联网综合服务，包含不限于做网站、成都网站制作、浦口网络推广、小程序设计、浦口网络营销、浦口企业策划、浦口品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们最大的嘉奖；创新互联公司为所有大学生创业者提供浦口建站搭建服务，24小时服务热线：18982081108，官方网址：www.cdcxhl.com

反爬方式的种类

1、判断请求头来进行反爬

这是很早期的网站进行的反爬方式

User-Agent 用户代理
referer 请求来自哪里
cookie 也可以用来做访问凭证

解决办法：请求头里面添加对应的参数（复制浏览器里面的数据）

2、根据用户行为来进行反爬

请求频率过高，服务器设置规定时间之内的请求阈值
解决办法：降低请求频率或者使用代理（IP代理）
网页中设置一些陷阱（正常用户访问不到但是爬虫可以访问到）
解决办法：分析网页，避开这些特殊陷阱
请求间隔太短，返回相同的数据
解决办法：增加请求间隔

3、js加密

反爬方式中较为难处理的一类。
js加密的原理：服务器响应给浏览器的js文件，可以动态的生成一些加密参数，浏览器会根据js的计算得到这些参数，在请求中带入进来，如果请求中没有这些参数，那么服务器就任务请求无效。

Python爬虫反爬手段有哪些

4、字体加密

字体反爬，是一种常见的反爬技术，网站采用了自定义的字体文件，在浏览器上正常显示，但是爬虫抓取下来的数据要么就是乱码，要么就是变成其他字符。采用自定义字体文件是CSS3的新特性，熟悉前端的同学可能知道，就是font-face属性。

Python爬虫反爬手段有哪些

6、md5相关知识

MD5，消息摘要算法，一种被广泛使用的密码散列函数，可以产生出一个128位（16字节）的散列值（hash value），用于确保信息传输完整一致。MD5是最常见的摘要算法，速度很快，生成结果是固定的128 bit字节，通常用一个32位的16进制字符串表示。MD5的特点：
1.不可逆：不能从密文推导出明文。
2.不管明文长度为多少，密文的长度都固定。
3.密文之间不会重复。

import hashlib
print(hashlib.md5('python'.encode()).hexdigest())

字符串python加密后的结果：

23eeeb4347bdd26bfc6b7ee9a3b755dd

7、base64

Base64是网络上最常见的用于传输8Bit字节码的编码方式之一，Base64就是一种基于64个可打印字符来表示二进制数据的方法。Base64编码是从二进制到字符的过程，可用于在HTTP环境下传递较长的标识信息。采用Base64编码具有不可读性，需要解码后才能阅读。

import base64

#python中base64的加密
print(base64.b64encode('python'.encode()).decode())
#python中base64的解密
print(base64.b64decode('Y2hpbmE='.encode()).decode())

结果：

cHl0aG9u
china

二、验证码验证

自己动手看验证码(古诗词网)

import requests

url = "gushiwen.org"

session = requests.Session()

text = session.get(url).text

#  解析响应，找到验证码的图片地址，
#  下载验证码图片，保存
with open('code.jpg', 'wb')as f:
    f.write('验证码的url地址'.encode())

code = input('验证码是: ')

login_url = "login.com"

data = {
    "username": 'xx',
    "password": 'xx',
    "code": code
}
requests.post(url, data=data)

使用打码平台（图鉴）

新建一个captcha_api.py

import json
import requests
import base64
from io import BytesIO
from PIL import Image
from sys import version_info


def base64_api(uname, pwd, img):
    img = img.convert('RGB')
    buffered = BytesIO()
    img.save(buffered, format="JPEG")
    if version_info.major >= 3:
        b64 = str(base64.b64encode(buffered.getvalue()), encoding='utf-8')
    else:
        b64 = str(base64.b64encode(buffered.getvalue()))
    data = {"username": uname, "password": pwd, "image": b64}
    result = json.loads(requests.post("http://api.ttshitu.com/base64", json=data).text)
    if result['success']:
        return result["data"]["result"]
    else:
        return result["message"]
    return ""


def request_captcha(uname, pwd, img_path):
    img_path = img_path  # 待验证的验证码路径
    img = Image.open(img_path)
    result = base64_api(uname, pwd, img)
    #  传入账号 密码 和图片
    print(result)

新建use_code.py，调用接口

img_path = '图片路径'

from captcha_api import request_captcha

ret = request_captcha("账号", "密码", img_path)

感谢各位的阅读！关于“Python爬虫反爬手段有哪些”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

网站标题：Python爬虫反爬手段有哪些
标题URL：http://scyanting.com/article/gpcepp.html

Python爬虫反爬手段有哪些

反爬方式的种类

二、验证码验证

其他资讯