这是一个自动化数据采集工具,旨在帮助电商运营人员实时监控竞争对手的价格变动和促销活动。系统能够定时抓取指定电商平台(如淘宝、京东)特定类目的商品标题、价格、销量及评论数。核心功能包括反爬虫策略绕过、数据清洗去重、异常价格预警以及自动生成每日价格波动趋势报表,为运营定价策略提供数据支撑。
使用Scrapy框架构建分布式爬虫集群,对于动态渲染的页面结合Selenium进行模拟操作。数据存入MongoDB,利用Pandas进行数据清洗和分析。我独立完成了整个爬虫脚本的编写与部署。难点在于目标网站的IP封禁和字体加密,通过接入代理IP池并建立字体映射库进行解密,保证了爬虫的稳定运行,日均采集数据量达到10万条以上。