多线程爬取都挺好链接并保存到mongodb-创新互联
- 一个比较简单,python3多线程使用requests库爬取都挺好,并使用正则提取下载链接,保存到mongodb
#!/usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author:Aiker Zhao
@file:doutinghao.py
@time:下午8:18
"""
import requests
import re
import pymongo
from multiprocessing import Pool
MONGO_URL = 'localhost:27017'
MONGO_DB = 'doutinghao'
MONGO_TABLE = 'doutinghao'
client = pymongo.MongoClient(MONGO_URL, connect=False)
db = client[MONGO_DB]
def get_result(url):
response = requests.get(url).text
# print(reponse.text)
pattern = re.compile('', re.S)
result = re.findall(pattern, response)
if result:
for i in result:
url, name = i
yield {
"name": name,
'url': url
}
def save_to_mongo(result):
if db[MONGO_TABLE].insert(result):
print('存储到MongoDB成功', result)
return True
return False
def main(result):
# result = get_result(url)
save_to_mongo(result)
if __name__ == '__main__':
pool = Pool()
url = "https://www.xl720.com/thunder/34283.html"
item = [item for item in get_result(url)]
# print(item)
pool.map(main, item)
pool.close()
pool.join()
十年的马龙网站建设经验,针对设计、前端、开发、售后、文案、推广等六对一服务,响应快,48小时及时工作处理。成都全网营销推广的优势是能够根据用户设备显示端的尺寸不同,自动调整马龙建站的显示方式,使网站能够适用不同显示终端,在浏览器中调整网站的宽度,无论在任何一种浏览器上浏览网站,都能展现优雅布局与设计,从而大程度地提升浏览体验。创新互联建站从事“马龙网站设计”,“马龙网站推广”以来,每个客户项目都认真落实执行。另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
网站栏目:多线程爬取都挺好链接并保存到mongodb-创新互联
文章源于:http://scyanting.com/article/dsgdhe.html