Python文本爬虫实战-白红宇

Python文本爬虫实战

阅读量：7056 次

发布时间：2019-06-28

本文共 368 字，大约阅读时间需要 1 分钟。

转载请注明原文地址：

一：流程

目标：爬取目标网页的图片

1：获取网页源码

2：用Python读取源码

3：使用正则表达式从网页源码提取图片地址

4：根据图片地址下载图片

二：实现

1：源码获取

文本爬虫，是在已有的文本内容中爬取需要的信息，这区别于网络爬虫。

由于被检索的内容是现成的，因此，文本爬虫又叫“半自动爬虫”。

在本例中，我们以昵图网首页为目标网址，因此，我们先到昵图网首页，右键—>查看源代码—>保存源码到txt文件。

2：编写代码

#coding:utf8import reimport requests#1：读取文本文件，存到一个变量中f=open("src.txt","r+")htmls=f.read()f.close()#2:使用正则表达式，从独取出来的文本内容中进行提取img_url=re.findall('

你可能感兴趣的文章

x264代码剖析（十五）：核心算法之宏块编码中的变换编码

[转]所有人都在渲染程序员的中年危机，我们却在劝你重新学会学习

UIPageViewController 翻页、新手引导--UIScrollView:pagingEnabled

Silverlight4.0教程之轻松操作剪切板

Android : Must Override a Superclass Method

查看>>