数据采集

2025-07-23 16:28:24
行业:电商、内容平台
载体:爬虫/脚本
技术:JavaScript、Python

业务和功能介绍

根据用户需求采集各大平台数据,设计网络数据分析、js逆向、加密解密算法、验证码识别、模拟网络请求等多种技术。
主要功能有:
1、js加解密算法分析
2、数据请求
3、验证码智能识别系统
4、数据ETL处理管线
5、数据入库
6、多级代理IP轮换机制
7、自适应反爬对抗策略(随机User-Agent轮换;TLS指纹伪装;请求头参数加密;随机操作延迟(0.5-3s);鼠标移动轨迹模拟;页面停留时间控制)
8、分布式任务调度支持

项目实现

全部由本人完成,主要使用python语言实现,使用的技术栈有:网页结构分析、数据流分析、数据加解密分析、验证码识别技术、数据清洗和入库、数据可视化等。

示例图片视频


jieketom
30天前活跃
方向: 桌面端-桌面端其他、爬虫/脚本-爬虫/脚本、
交付率:100.00%
相似推荐
截图工具-长截图
Windows 长截图工具基于 QT 开发,支持全屏 / 自定义区域长截图,可自动滚动捕获网页、文档等长内容,支持一键保存为 PNG/JPG 格式,集成标注、裁剪等编辑功能,支持快捷键自定义与截图历史回溯,适配多分辨率屏幕,满足办公场景长内容留存需求。
华为交换机巡检工具-eDeskPro, ipToolkit
项目背景:华为交换机在部署后或者版本升级前可能存在错误配置,可以通过此软件扫描并检测客户配置时潜在的硬件,软件,设备及传输安全等问题,并给出修复方案代替原本的人工修复。 软件功能:软件分为网页版以及本地版,两端都可以选择各场景对应的风险集,根据风险集检查设备的各项配置,并提示客户可能存在的风险,给出调整建议。另外可以在版本升级前检测设备状态是否支持升级。 业务流程:通过维护部门所收集高频故障,在信息网站录入风险信息,根据风险信息编写检测脚本,脚本运行时在后台输入指令,根据返回的信息判断设备是否存在错误配置,并寻找相关业务部门录入解决方案。
某大型电气制造公司
管理工具: jira+git+confluence 项目介绍: xx电气世界500 强企业项目进行数字化转型,替代原有salesforce,提供现场云服务,主要模块包括400 客服中心,服务申请,派工单,备件,第三方管理;使用腾讯鹊桥中间件平台集成SAP(ERP 系统),MyCP(分销协作平台),B Baxter(Global 备件系统);涉及使用对象:94,用户数:1495。
游戏辅助工具平台-万象玲珑匣
万象玲珑匣是一款多功能游戏辅助工具箱,集成密码管理、记账、按键辅助等功能。 核心功能: 1. 密码存储库 - 采用AES-256加密,Account Recovery架构,安全存储所有密码 2. 游戏记账簿 - 支持虚拟滚动,可处理百万级数据,专为游戏玩家设计 3. 按键辅助 - 基于DD驱动的硬件级按键模拟,支持自定义脚本 4. 游戏专属工具 - 剑网三交易行查询、诛仙世界银两购买、Minecraft物品编辑 5. 时钟提醒 - 多种定时规则,桌面Toast通知 6. 悬浮窗工具 - 桌面便签、计算器、快捷操作 技术特色: - 采用Feature-based架构,代码健康度A+级(97.6/100) - 100% Repository模式覆盖,数据访问层完全隔离 - GPU硬件加速渲染(OpenGL 3.3+),启动时间<3秒 - EventBus事件驱动,延迟<1ms,吞吐量10000+事件/秒 - Account Recovery加密架构,支持账户恢复机制 项目规模: - 520个Python核心文件 - 1052个Markdown文档 - 132个测试文件 - 13个功能模块
省金投融资平台
福建金服云征信始终践行金融工作的政治性、人民性,按照福建省委、省政府的要求,紧扣 “金服云” 平台作为福建省重要金融基础设施、 省级融资信用服务平台及省级地方征信平台的定位,持续推动平台完善提升、优化升级、推广运用,通过汇聚金融资源、政策资源和数据资源,着力打造 “全国一流地方融资征信平台” “‘一站式’省级惠企政策申享平台”,并服务股权融资对接和 “四链” 融合,助力企业 “一站获取” 金融服务及惠企政策,助力金融机构 “敢贷、愿贷、能贷、会贷”,助力政府部门精准高效实施惠企政策。
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服