博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
requests bs4 爬取 资讯 图片
阅读量:7249 次
发布时间:2019-06-29

本文共 1082 字,大约阅读时间需要 3 分钟。

#!/usr/bin/env python# Version = 3.5.2# __auth__ = '无名小妖'import requestsfrom bs4 import BeautifulSoupimport uuidresponse = requests.get(    url='http://www.autohome.com.cn/news/')response.encoding = response.apparent_encoding  # 使用原页面的编码进行解析# response.status_code 状态码# 将页面字符串转化成bs对象,features 是转化方式,此处用的html.parser,而生产中用的是lxml,性能较好soup = BeautifulSoup(response.text, features='html.parser')# 获取id为'auto-channel-lazyload-article' 的标签target = soup.find(id='auto-channel-lazyload-article')# 在此标签下找到所有的li标签li = target.find_all('li')# 获取每个li标签下的a标签for i in li:    a = i.find('a')    if a:        # print(a.attrs.get('href'))        txt = a.find('h3').text        # 获取图片的地址        img_url = a.find('img').attrs.get('src')        if not img_url.startswith("http:"):            img_url = "http:" + img_url        # 下载图片        img_response = requests.get(url=img_url)        h = img_url.split('.')        jpg_name = '{}.{}'.format(uuid.uuid4(), h[-1])        with open(jpg_name, 'wb') as f:            f.write(img_response.content)

  

 

转载于:https://www.cnblogs.com/wumingxiaoyao/p/8528906.html

你可能感兴趣的文章
03、微信小程序之 永不过时的HelloWorld
查看>>
NFS配置不当那些事
查看>>
[译] 如何写出更好的 React 代码?
查看>>
一起撸个朋友圈吧(step3) - ListAdapter篇
查看>>
LeetCode 642 号问题:设计搜索自动补全系统
查看>>
探究Android View 绘制流程,Canvas 的由来
查看>>
JS原生交互
查看>>
[译] JavaScript 工作原理:Web Worker 的内部构造以及 5 种你应当使用它的场景
查看>>
Android使用Path仿支付宝支付成功失败动画
查看>>
聊聊rocketmq的DailyRollingFileAppender
查看>>
HTTP/2
查看>>
[单刷APUE系列]第十七章——高级进程间通信
查看>>
分布式之消息队列的特点、选型、及应用场景详解
查看>>
多迪学员问到最多的问题:为什么要学习Python编程语言?
查看>>
从vue中学习defineProperty
查看>>
漂亮的颜色
查看>>
Android Volley 源码解析(二),探究缓存机制
查看>>
Go源码剖析:内置类型
查看>>
102. Binary Tree Level Order Traversal
查看>>
SAP云平台对Kubernetes的支持
查看>>