Python网络爬虫详解：实战豆瓣电影信息采集

当前位置：电视猫 > Python>

电视猫时间： 2024-08-25 15:58:13

引言

本文将详细介绍如何使用Python的Scrapy框架，爬取豆瓣电影Top250榜单上的电影信息。通过这个实战案例，你将了解到Scrapy的基本用法，以及如何处理动态加载、反爬虫等常见问题。

准备工作

安装Python和Scrapy:Bash
```
pip install scrapy
```
选择一个豆瓣电影Top250的页面: 比如：https://movie.douban.com/top250

创建Scrapy项目

Bash

scrapy startproject douban
cd douban

创建Spider

Python

# douban/douban/spiders/douban_top250.py
import scrapy

class DoubanTop250Spider(scrapy.Spider):
    name = 'douban_top250'
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        for movie in response.css('ol.grid_view li'):
            item = {
                'title': movie.css('span.title::text').get(),
                'rating': movie.css('span.rating_num::text').get(),
                'link': movie.css('a::attr(href)').get()
            }
            yield item

        # 提取下一页链接
        next_page = response.css('span.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

代码解析

name: Spider的名称，用于在命令行中调用。
start_urls: 爬取的起始URL。
parse函数:
- response.css: 使用CSS选择器提取电影标题、评分和链接。
- yield item: 生成一个Item，代表提取到的电影信息。
- response.follow: 递归调用parse函数，爬取下一页。

运行Spider

Bash

scrapy crawl douban_top250

注意事项

反爬虫: 豆瓣有反爬虫机制，需要设置请求头等信息。
动态加载: 豆瓣部分内容是动态加载的，可以使用Selenium或Splash处理。
数据存储: 可以将爬取到的数据存储到CSV、JSON或数据库中。

进阶

异步请求: 使用异步框架提高爬取效率。
分布式爬取: 使用Scrapyd等工具实现分布式爬取。
数据清洗: 对爬取的数据进行清洗和处理。
深度学习: 利用深度学习技术对电影数据进行分析。

代码优化

Python

import scrapy

class DoubanTop250Spider(scrapy.Spider):
    # ...

    def parse(self, response):
        # ...

        # 使用XPath选择器，提高效率
        for movie in response.xpath('//ol[@class="grid_view"]/li'):
            item = {
                'title': movie.xpath('div/div/a/span[@class="title"]/text()').get(),
                # ...
            }
            yield item