博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python文本爬虫实战
阅读量:7056 次
发布时间:2019-06-28

本文共 368 字,大约阅读时间需要 1 分钟。

转载请注明原文地址: 

 

一:流程

目标:爬取目标网页的图片

1:获取网页源码

2:用Python读取源码

3:使用正则表达式从网页源码提取图片地址

4:根据图片地址下载图片

 

二:实现

1:源码获取

文本爬虫,是在已有的文本内容中爬取需要的信息,这区别于网络爬虫。

由于被检索的内容是现成的,因此,文本爬虫又叫“半自动爬虫”。

在本例中,我们以昵图网首页为目标网址,因此,我们先到昵图网首页,右键—>查看源代码—>保存源码到txt文件。

2:编写代码

#coding:utf8import reimport requests#1:读取文本文件,存到一个变量中f=open("src.txt","r+")htmls=f.read()f.close()#2:使用正则表达式,从独取出来的文本内容中进行提取img_url=re.findall('

 

你可能感兴趣的文章
Timer Swing
查看>>
Cassandra命令行CLI的基本使用
查看>>
Java String常见问题
查看>>
x264代码剖析(十五):核心算法之宏块编码中的变换编码
查看>>
Android仿微信进度弹出框的实现方法
查看>>
Spring事务管理
查看>>
[转]所有人都在渲染程序员的中年危机,我们却在劝你重新学会学习
查看>>
oom killer
查看>>
10.Django ModelForm
查看>>
MXNET:卷积神经网络基础
查看>>
UIPageViewController 翻页、新手引导--UIScrollView:pagingEnabled
查看>>
[五]基础数据类型之Short详解
查看>>
ILOG Gantt 3.0 注册机
查看>>
自己实现几个基本函数
查看>>
谨防沦为DLL后门木马及其变种的肉鸡
查看>>
C#构造函数的重载
查看>>
Silverlight4.0教程之轻松操作剪切板
查看>>
GIF, JPEG和PNG
查看>>
线控的原理
查看>>
Android : Must Override a Superclass Method
查看>>