七夕不起早

• UID:15704

综合评分 33

方向：爬虫/脚本-爬虫/脚本

邵阳市

200元/8h

1年经验

求职意愿：接单·考虑求职(30天前更新)

个人简介

熟悉web，app爬虫熟悉数据分析

技能

核心技能： Python

其他技能：

交流语言：普通话（母语水平）

行业经验：在线教育、医疗健康、大数据、电商

项目案例

全网招聘信息分布式智能爬取系统

智能源码抓取引擎：基础抓取层使用定制化Requests组件发送请求，植入动态请求头（包含自动轮换的User-Agent池和Cookies策略）渲染层自动切换到Playwright无头浏览器执行智能渲染，遇到瑞数反爬等则通过单独编写spider进行数据爬取智能分级清洗系统：首先进行标题的规则匹配，建立多维度匹配规则库（正则表达式+关键词权重算法），通过时间维度，关键词，排除此，联合词等规则进行权重匹配，如含有排除词考编等则直接排除，含有关键词两个如教师，招聘则通过一轮筛选；接着是公告内容解析清洗，使用XPath/CSS定位主体容器，避开干扰区块（广告/侧边栏/评论区），接着仍然使用正则和关键词权重进行确认是否为招聘信息数据存储：在进行源码抓取以及清洗的时候进行实时数据标注,(如 JS渲染标注，反爬识别)，同时也保存url的访问状态码等信息，最后将url以及相关信息存入Redis中间件中进行hash去重，确保数据不重复，接着存入Mysql中完成最后的数据保存。

在线教育大数据