这是一个专业的AI大模型价格数据获取项目,致力于实时采集全球主流大模型供应商的定价信息。项目覆盖OpenAI(GPT系列)、Google(Gemini)、Anthropic(Claude)、DeepSeek、百度(文心一言)、阿里(通义千问)、字节跳动(豆包)等国内外知名厂商的API价格数据。系统通过自动化手段获取取各平台的模型名称、输入/输出单价、计费单位、货币类型、模型层级等关键字段,并支持按文本、图像、音频、视频等多模态类型分类采集。采集数据经过清洗、标准化处理后,存储至结构化数据库,为下游的价格比对分析、成本优化推荐、动态定价策略等应用场景提供实时、准确的数据支撑。
本项目基于 Python + Selenium + FastAPI 技术栈构建,采用模块化爬虫架构实现主流大模型价格数据的自动化采集。核心框架包含以下关键组件:
1. 浏览器自动化层
使用 Selenium WebDriver 模拟真实用户操作,支持无头模式(Headless)运行
集成 WebDriver Manager 自动管理 ChromeDriver 版本兼容性
实现智能下载监听机制,通过文件完整性校验确保数据下载成功
2. 数据处理管道
基于 Pandas 构建多阶段 ETL 流程,支持堆叠式 CSV 的智能解析
实现跨平台编码检测(UTF-8/GBK),确保中文数据正确读取
统一价格单位转换逻辑(千 tokens → 百万 tokens),标准化输出格式
3. 日志与异常处理
采用集中式日志配置,支持按模块分类记录与日志轮转
虚拟显示适配 Linux/Windows 双平台部署场景
4. 可扩展架构设计
各云厂商爬虫模块独立封装(如 doubao、qwen、claude 等),遵循统一接口规范
输出数据标准化为 CSV 格式,便于后续 API 服务集成与前端展示