拉勾网 Ajax 动态加载数据的 Python 爬虫解析

在招聘数据采集、职场趋势分析等场景中，拉勾网是重要的数据来源，但拉勾网采用 Ajax 动态加载技术渲染页面，传统的静态网页爬虫无法直接获取数据。本文将从 Ajax 动态加载原理入手，详解基于 Python 的拉勾网数据爬虫实现过程，包括请求分析、参数构造、反爬应对及数据解析存储，帮助开发者掌握动态网页爬虫的核心逻辑。一、Ajax 动态加载原理与拉勾网数据请求分析 1.1 Ajax 动态加载核心逻辑 Ajax（Asynchronous JavaScript and XML）是一种无需刷新页面即可与服务器交换数据并更新部分网页的技术。拉勾网的职位列表、职位详情等数据均通过 Ajax 异步请求获取：前端页面加载完成后，JavaScript 会触发 HTTP 请求，服务器返回 JSON 格式的原始数据，前端再将数据渲染为可视化的网页内容。 1.2 拉勾网数据请求抓包分析要爬取 Ajax 数据，首先需通过浏览器开发者工具分析请求参数和响应格式，步骤如下：打开 Chrome 浏览器，访问拉勾网（https://www.lagou.com），按 F12 打开开发者工具，切换到「Network」标签；筛选「XHR」类型（Ajax 请求专属类型），在搜索框输入目标职位（如「Python 开发」）并点击搜索；观察 Network 面板中的请求，核心请求为positionAjax.json，该请求返回职位列表的 JSON 数据。关键请求信息梳理：请求方式：POST 请求 URL：https://www.lagou.com/jobs/positionAjax.json 请求头：需包含User-Agent、Referer、Cookie等（反爬关键）请求参数：first（是否首次请求）、pn（页码）、kd（关键词）、city（城市）等二、Python 爬虫实现核心步骤 2.1 环境准备本次爬虫使用 Python 3.8+，核心依赖库： requests：发送 HTTP 请求 json：解析 JSON 响应数据 pandas：数据存储为 Excel/CSV time：设置请求间隔，规避反爬 2.2 爬虫核心代码实现步骤 1：构造请求头与参数请求头需模拟真实浏览器，Cookie 可从浏览器开发者工具中复制（注意时效性），参数需动态设置页码和关键词： python

import json
import pandas as pd
import time
from requests.exceptions import RequestException

# 全局配置
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36",
    "Referer": "https://www.lagou.com/jobs/list_Python%E5%BC%80%E5%8F%91?city=%E5%8C%97%E4%BA%AC&cl=false&fromSearch=true&labelWords=&suginput=",
    "Cookie": "你的Cookie（从浏览器复制）",  # 替换为实际Cookie
    "Host": "www.lagou.com",
    "Origin": "https://www.lagou.com",
    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
    "X-Anit-Forge-Token": "None",
    "X-Anit-Forge-Code": "0"
}

# 请求参数模板
def get_params(page_num, keyword, city):
    params = {
        "first": "true" if page_num == 1 else "false",
        "pn": page_num,
        "kd": keyword,
        "city": city
    }
    return params

步骤 2：发送 POST 请求获取数据需处理请求异常，并设置随机延迟避免触发反爬机制： python 运行

import json
import time
from requests.exceptions import RequestException

# 亿牛云代理（新增）
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 构造代理URL（包含账号密码认证）
proxy_url = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
proxies = {
    "http": proxy_url,
    "https": proxy_url
}

# 全局请求头（需保留原配置，此处仅为示例完整性展示）
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36",
    "Referer": "https://www.lagou.com/jobs/list_Python%E5%BC%80%E5%8F%91?city=%E5%8C%97%E4%BA%AC&cl=false&fromSearch=true&labelWords=&suginput=",
    "Cookie": "你的Cookie（替换为实际有效Cookie）",
    "Host": "www.lagou.com",
    "Origin": "https://www.lagou.com",
    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
    "X-Anit-Forge-Token": "None",
    "X-Anit-Forge-Code": "0"
}

# 保留原参数构造函数（完整性展示）
def get_params(page_num, keyword, city):
    params = {
        "first": "true" if page_num == 1 else "false",
        "pn": page_num,
        "kd": keyword,
        "city": city
    }
    return params

def get_lagou_data(page_num, keyword, city):
    """
    获取单页拉勾网职位数据（整合代理信息）
    :param page_num: 页码
    :param keyword: 职位关键词
    :param city: 城市
    :return: 解析后的字典列表
    """
    url = "https://www.lagou.com/jobs/positionAjax.json"
    params = get_params(page_num, keyword, city)
    # 转换参数为表单格式
    data = f"first={params['first']}&pn={params['pn']}&kd={params['kd']}&city={params['city']}"

    try:
        # 设置超时时间，避免请求挂起（新增proxies参数）
        response = requests.post(
            url=url,
            headers=headers,
            data=data,
            proxies=proxies,  # 接入代理配置
            timeout=10,
            verify=False  # 可选：忽略SSL证书验证（部分代理需开启）
        )
        # 校验响应状态
        if response.status_code == 200:
            result = json.loads(response.text)
            # 提取职位列表数据
            if result["success"] and "content" in result and "positionResult" in result["content"]:
                positions = result["content"]["positionResult"]["result"]
                return positions
            else:
                print(f"第{page_num}页请求成功但无数据：{result.get('msg', '未知错误')}")
                return []
        else:
            print(f"第{page_num}页请求失败，状态码：{response.status_code}")
            return []
    except RequestException as e:
        print(f"第{page_num}页请求异常：{str(e)}")
        return []
    finally:
        # 随机延迟1-3秒，规避反爬
        time.sleep(time.random() * 2 + 1)

步骤 3：多页数据爬取与字段提取提取核心字段（职位名称、薪资、公司、工作经验、学历要求等），并循环爬取多页数据： python 运行

    """
    批量爬取拉勾网多页数据
    :param keyword: 职位关键词
    :param city: 城市
    :param max_page: 最大爬取页码
    :return: 结构化数据DataFrame
    """
    all_positions = []
    # 核心字段列表，可根据需求扩展
    core_fields = [
        "positionName", "salary", "companyShortName", "city",
        "workYear", "education", "jobNature", "positionAdvantage",
        "companySize", "industryField", "createTime"
    ]

    for page in range(1, max_page + 1):
        print(f"正在爬取第{page}页数据...")
        positions = get_lagou_data(page, keyword, city)
        if not positions:
            print(f"第{page}页无数据，停止爬取")
            break

        # 提取核心字段，避免字段缺失报错
        for pos in positions:
            clean_pos = {field: pos.get(field, "未知") for field in core_fields}
            all_positions.append(clean_pos)

    # 转换为DataFrame，方便存储和分析
    df = pd.DataFrame(all_positions)
    return df

步骤 4：数据存储与结果展示将爬取的数据存储为 Excel 文件，并打印数据概览：

    # 配置爬取参数
    target_keyword = "Python开发"
    target_city = "北京"
    max_crawl_page = 5

    # 执行爬取
    print(f"开始爬取拉勾网【{target_city}】-{target_keyword} 职位数据...")
    position_df = crawl_lagou(target_keyword, target_city, max_crawl_page)

    # 数据存储
    if not position_df.empty:
        save_path = f"lagou_{target_city}_{target_keyword.replace('/', '_')}.xlsx"
        position_df.to_excel(save_path, index=False)
        print(f"数据爬取完成，共{len(position_df)}条职位信息，已保存至：{save_path}")

        # 打印数据概览
        print("\n数据概览：")
        print(position_df[["positionName", "salary", "companyShortName", "workYear"]].head(10))
    else:
        print("未爬取到任何数据")

三、反爬机制应对策略拉勾网有严格的反爬措施，直接运行上述代码可能触发限制，需重点注意以下几点： 3.1 Cookie 与请求头优化 Cookie 需定期更新：拉勾网的 Cookie 有效期较短，建议每次爬取前从浏览器重新复制；动态生成 User-Agent：可使用fake-useragent库随机生成 User-Agent，避免固定标识被识别；补充其他请求头：如Accept、Accept-Encoding等，完全模拟浏览器请求。 3.2 频率控制避免短时间高频请求：设置 1-3 秒的随机延迟，每页爬取间隔不低于 1 秒；分批次爬取：如需爬取大量数据，可分时段执行，避免单次请求超过 20 页。 3.3 账号登录（可选）部分数据需登录后才能获取，可通过requests.Session()保持登录状态，模拟登录流程（需处理验证码、加密参数等）。四、注意事项与合规说明爬取数据仅用于学习和研究，不得用于商业用途，遵守拉勾网的《用户协议》；控制爬取频率，避免给拉勾网服务器造成压力；若爬取过程中出现 403、500 等状态码，需立即停止爬取，排查是否触发反爬；拉勾网的接口参数可能随版本更新变化，需定期重新抓包验证请求格式。五、总结本文通过解析拉勾网 Ajax 动态加载的核心逻辑，实现了基于 Python 的职位数据爬虫，核心在于准确分析 Ajax 请求的参数和响应格式，同时做好反爬应对。该思路可迁移至其他采用 Ajax 动态加载的网站（如智联招聘、BOSS 直聘等），开发者可根据实际需求扩展字段提取、数据清洗、可视化分析等功能。

Android进阶之旅-(NDK实战篇之数据结构算法进阶)

Android进阶之旅-(Framework源码分析)

热门文章