统计
  • 建站日期:2012-11-11
  • 文章总数:5609 篇
  • 评论总数:423 条
  • 分类总数:32 个
  • 最后更新:3月27日
文章 网络评测

四虎电影库房网站duos通过requests BeautifulSoup下载

首页 >网络评测 > 正文

四虎电影库房网站duos通过requests BeautifulSoup下载 四虎网站是一个成人网站,里面有很多的资源可以进行下载。



一、获取图片网页的信息


  首先是获取图片网页的链接 ,我们在图片的主页面上有各个图片的链接和标题,我们可以爬取下载再进行分析!


四虎电影库房网站duos通过requests BeautifulSoup下载.jpg

  我们首先通过requests.get()的方法把网页给爬取下来,这时利用requests.get()的content属性可以把网页的源代码给显示出来,也可以用text来显示,但content的一个优势就是返回的是二进制数据,而text返回的是unicode型数据。简单来说,就是content不容易乱码,而且也可以获取图片和文件。

 我们发现网页的最后一页的下一页没有,返回的是一个空值,所以我们直接将最后一个网页作为页面的异常值抛出.接下来我们直接利用BeautifulSoup类型的find_all找出所有的链接。其中有些链接不是图片页面的链接,我们又发现图片链接的地址长度都是一样的,我们可以通过将链接地址大小进行判断,取得图片地址链接。

二、获取各个图片的链接



  我们现在可以通过上面取得网页的地址来获取各个图片的链接,我们发现图片的地址都是在img的src属性里,我们可以通过上面的方法来获得图片的链接

三、下载图片



  图片可以通过urllib.urlretrieve(imgurl, path)来保存图片,但通过这种的方式保存的图片无法打开,所以还是要通过


f.write(h.content)的方式来保存图片。


还有将同一个标题下的图片存在一起,我们通过判断标题是否一样,如果一样就保存在这个文件夹下,

如果不一样就创建文件夹

四、主函数



  我们利用下一页返回是否为空来判断是否爬取完成。如果返回的不是空,则会永远执行,我们还有一个计时功能,来计算执行时间。

-- 展开阅读全文 --
这篇文章最后更新于2020-3-2,已超过 1 年没有更新,如果文章内容或图片资源失效,请留言反馈,我们会及时处理,谢谢!
免责申明
四虎电影库房网站duos通过requests BeautifulSoup下载:本文来自投稿,不代表本站立场,如若转载,请注明出处:https://www.wjdiy.cn/ping/4416.html 如有侵权请邮件与我们联系处理。敬请谅解!
海王大厦彩色复印机租赁 长虹科技大厦出租理光复印机租用
« 上一篇 03月01日
中科大厦理光打印机租赁;国兴大厦彩色打印机出租公司
下一篇 » 03月02日
为了防止灌水评论,登录后即可评论!
注册登录

还没有评论,快来抢沙发吧!