『scrapy爬虫』03. 爬取多个页面（详细注释步骤）

当前位置：电视猫 > Python>

电视猫时间： 2024-08-25 15:57:49

Scrapy爬取多个页面（详细注释步骤）

理解多页面爬取

在实际的爬虫任务中，我们经常需要爬取同一个网站的多个页面。例如，电商网站的商品列表页、新闻网站的文章列表页等。Scrapy提供了强大的机制来处理这种多页面爬取。

实现步骤

1. 分析页面结构

找到下一页链接: 仔细观察目标网站的页面结构，找到下一页的链接通常包含在特定的标签中，如<a>标签。
提取页码信息: 有些网站的下一页链接中包含页码信息，可以根据页码信息构造后续页面的URL。

2. 编写Spider

Python

import scrapy

class BooksSpider(scrapy.Spider):
    name = 'books'
    start_urls = ['http://books.toscrape.com/']

    def parse(self, response):
        for book in response.css   ('article.product_pod'):
            yield {
                'title': book.css('h3 a::attr(title)').get(),
                'price': book.css   ('.price_color::text').get(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.pa   rse)

代码解释

start_urls: 定义爬取的起始URL。
parse: 解析响应的函数。
response.css: 使用CSS选择器提取数据。
yield: 生成一个Item，代表提取到的数据。
response.follow: 递归调用parse函数，跟随下一页链接继续爬取。

关键点

递归调用: 通过递归调用parse函数，实现了对多个页面的爬取。
CSS选择器: 使用CSS选择器精确地定位目标元素。
下一页链接: 找到下一页链接的规律，构造新的URL。

完整示例

Python

import scrapy

class BooksSpider(scrapy.Spider):
    name = 'books'
    start_urls = ['http://books.toscrape.com/']

    def parse(self, response):
        for book in response.css   ('article.product_pod'):
            yield {
                'title': book.css('h3 a::attr(title)').get(),
                'price': book.css   ('.price_color::text').get(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            next_page_url = response.urljoin(next_page)  # 构造完整的URL
            yield scrapy.Request(next_page_url, callback=self.parse)