1、立项背景和目标:制造工厂数字化转型,需要自动化采集产线设备运行指标、行业资讯数据,项目旨在搭建分布式爬虫+时序存储一体化平台,解决多源工业数据零散、人工采集效率低下的痛点。
2、软件核心模块:分为分布式爬虫采集模块、Redis任务缓存模块、Druid时序存储模块、异常重试管控模块四大模块。
3、业务流程:依托KVM云集群部署程序→定向抓取工业站点/API数据→数据清洗过滤→缓存临时落库→海量时序数据存入Druid,配套断点续爬、故障重跑能力。
1、架构设计:基于云虚拟化分布式架构,C++做爬虫主体,KVM虚拟化弹性扩容节点,Redis管控任务队列,Druid承载时序大数据。
2、个人负责:全程主导方案设计、代码开发、集群部署,落地后单节点采集峰值1000次/秒,满足工厂大批量数据接入需求。
3、难点与解决:遭遇网站反爬拦截、大数据查询缓慢问题,通过动态UA伪装、Druid分区索引优化,彻底解决卡顿与采集封禁问题。
直接复制两段提交即可。