怎么用Python爬取B站动漫番剧更新信息

这篇文章主要介绍“怎么用Python爬取B站动漫番剧更新信息”，在日常操作中，相信很多人在怎么用Python爬取B站动漫番剧更新信息问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎么用Python爬取B站动漫番剧更新信息”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

成都创新互联 - 棕树数据中心，四川服务器租用，成都服务器租用，四川网通托管,绵阳服务器托管，德阳服务器托管，遂宁服务器托管，绵阳服务器托管，四川云主机，成都云主机，西南云主机，棕树数据中心，西南服务器托管，四川/成都大带宽，成都机柜租用，四川老牌ＩＤＣ服务商

目标：爬取b站番剧最近更新

输出格式:名字+播放量+简介
那么开始撸吧~

用到的类库：

requests:网络请求
pyquery:解析xml文档，像使用jquery一样简单哦~

1.分析页面布局，找到需要爬取的内容

目标url：

https://bangumi.bilibili.com/22/

怎么用Python爬取B站动漫番剧更新信息

设计video类:

import requests
from pyquery import PyQuery as pq

class Video(object):
    def __init__(self,name,see,intro):
        self.name=name
        self.see=see
        self.intro=intro

    def __str__(self):
        return "{}--{}--{}".format(self.name,self.see,self.intro)

分析完页面，设取爬去类:

class bilibili(object):
    host="https://bangumi.bilibili.com"

    def __init__(self):
        self.dom=pq(requests.get('https://bangumi.bilibili.com/22/').text)

    def get_recent(self):
        '''最近更新'''
        items=self.dom('#list_bangumi_new .c-list .new .c-item')
        videos=[]
        for i in items:
            name=i.find('.r-i .t').attr('title')
            link=self.host+i.find('.r-i .t').attr('href')
            d=pq(requests.get(url=link).text)
            see=d(".info-count .info-count-item").eq(1).find('em').text()
            intro=d('.info-row').eq(3).find('.info-desc').text()
            videos.append(Video(name=name,see=see,intro=intro))
        return videos

哎呀，怎么回事，居然返回为空
这种情况下不要慌,如果代码没有错误，那么一般是由两种情况造成
没有选择到目标，页面是js动态加载的

我们先试下第一种情况，打开浏览器，f12，将选择字符串复制到console中运行下，我们这就是

$('#list_bangumi_new .c-list .new .c-item')

怎么用Python爬取B站动漫番剧更新信息

这是一个item的信息，里面有我们想要的名字信息，那接下来就是去详情页寻找播放量和简介了，但是详情页链接在哪那，刚刚那个接口里并没有，我们f12，审查一下元素。

这里的链接是/anime/6439,刚刚的接口里并没有这个信息啊，那这个信息应该就是拼接出来的了,关键就是6439这个数字了,去刚刚那个接口信息里寻找一下，果然找到了一个season_id字段符合，那么详情页链接就构造如下:

detail_url = "https://bangumi.bilibili.com/anime/{season_id}"

那么接下来就是去分析详情页,爬去我们想要播放量和简介信息了,构造爬去代码如下:

see = d(".info-count .info-count-item").eq(1).find('em').text()
intro = d('.info-desc-wrp').find('.info-desc').text()

那么最终爬取类关键代码如下:

   class bilibili(object):
    recent_url = "https://bangumi.bilibili.com/api/timeline_v2_global"  # 最近更新
    detail_url = "https://bangumi.bilibili.com/anime/{season_id}"

    def __init__(self):
        self.dom=pq(requests.get('https://bangumi.bilibili.com/22/').text)

    def get_recent(self):
        '''最近更新'''
        items=json.loads(requests.get(self.recent_url).text)['result']
        videos=[]
        for i in items:
            name=i['title']
            link=self.detail_url.format(season_id=i['season_id'])
            d=pq(requests.get(url=link).text)
            see = d(".info-count .info-count-item").eq(1).find('em').text()
            intro = d('.info-desc-wrp').find('.info-desc').text()
            videos.append(Video(name=name,see=see,intro=intro))
        return videos

运行一下:

怎么用Python爬取B站动漫番剧更新信息

很ok，那接下来把它做成命令行~

2.制作命令行版

用到的类库：
argparse:解析命令行参数

主要代码如下：

if __name__ == '__main__':
    parser=argparse.ArgumentParser()
    parser.add_argument('--recent',help="get the recent info",action="store_true")
    parser.add_argument('--num',help="The number of results returned,default show all",type=int,default=0)
    parser.add_argument('-v','--version',help="show version",action="store_true")
    args=parser.parse_args()

    if args.version:
        print("bilibili 1.0")
    elif args.recent:
       b = bilibili()
       b.get_recent(args.num)

看下效果：

怎么用Python爬取B站动漫番剧更新信息

ok,大功告成，接下来大家就自由发挥添加更多的功能吧~：）

到此，关于“怎么用Python爬取B站动漫番剧更新信息”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注创新互联网站，小编会继续努力为大家带来更多实用的文章！

本文名称：怎么用Python爬取B站动漫番剧更新信息
文章URL：http://scyanting.com/article/picgce.html

怎么用Python爬取B站动漫番剧更新信息

1.分析页面布局，找到需要爬取的内容

2.制作命令行版

其他资讯