Python 爬虫项目实战（一）：爬取某云热歌榜歌曲

当前位置：电视猫 > Python>

电视猫时间： 2024-08-23 14:57:03

项目概述

本项目旨在通过 Python 编写爬虫，从某云音乐平台的热歌榜中抓取歌曲信息，包括歌曲名称、歌手、链接等。通过这个实战项目，可以深入了解 Python 爬虫的基本原理和常用库的使用。

项目准备

1. 安装所需库

Bash

pip install requests beautifulsoup4

requests: 用于发送 HTTP 请求，获取网页内容。
beautifulsoup4: 用于解析 HTML 文档，提取所需数据。

2. 分析目标网页

找到目标 URL: 确定某云音乐热歌榜的具体 URL。
查看网页结构: 使用浏览器开发者工具（一般按 F12 键），查看网页的 HTML 结构，找到包含歌曲信息的部分。
确定数据提取方式: 根据 HTML 结构，选择合适的数据提取方法，如使用 CSS 选择器或正则表达式。

代码实现

Python

import requests
from bs4 import BeautifulSoup

def get_hot_songs(url):
    """
    爬取某云热歌榜歌曲信息

    Args:
        url: 热歌榜的 URL

    Returns:
        list: 包含歌曲信息的列表，每个元素是一个字典
    """

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537   .36'
    }

    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.par   ser')

    # 根据网页结构，修改以下代码提取歌曲信息
    song_list = soup.select('.song-list-item')
    songs = []
    for song in song_list:
        song_name = song.select_one('.song-name').text.strip()
        artists = song.select('.singer-name a')
        artist_names = [artist.text.strip() for artist in artists]
        song_url = song.select_one('.song-name a')['href']

        songs.append({
            'name': song_name,
            'artists': artist_names,
            'url': song_url
        })

    return songs

if __name__ == '__main__':
    url = 'https://music.163.com/discover/toplist?id=3778678'  # 替换为实际的热歌榜 URL
    songs = get_hot_songs(url)
    for song in songs:
        print(song)

代码解释

发送请求: 使用 requests.get 发送 HTTP GET 请求，获取网页内容。
解析 HTML: 使用 BeautifulSoup 解析 HTML 文档，生成一个 BeautifulSoup 对象。
提取数据: 使用 CSS 选择器从 BeautifulSoup 对象中提取歌曲名称、歌手和链接等信息。
存储数据: 将提取到的数据存储在一个列表中，每个元素是一个字典，表示一首歌曲。

注意事项

反爬措施: 某些网站会采取反爬措施，如限制访问频率、检测 User-Agent 等。可以尝试更换 User-Agent、使用代理 IP、增加随机延时等方式应对。
网页结构变化: 网页的 HTML 结构可能会随时变化，需要根据实际情况调整代码。
数据清洗: 提取的数据可能包含一些无用的信息或格式不统一，需要进行清洗处理。
道德伦理: 爬虫的使用应遵守法律法规和网站的规定，避免对网站造成过大的负担。