1.为满足公司翻译模型的,各语种大量的数据训练需求,开发翻译爬虫系统。采集处理各类翻译语料
2.系统支持单语语料的采集、双语语料(外-外)采集及评分
3.整体流程:1)自动上传;2)自动解析;3)自动推送;4)自动采集;5)自动拉取;5)自动处理。
4,支持多节点采集,每个节点日采集180万语料
整体项目分运营端、采集节点、数据处理。
运营端:开发各类语料上传功能、自行上传、自动上传,后台处理;采集节点配置及监测,实现各个节点的管理;对上传的数据进行推送,推送到kafka中,为采集节点提供基础数据
采集节点:通过消费kafka,都待采集到数据进行采集,评分;采集完成对语料数据推送到kafka中
数据处理:获取各个节点采集到数据进行处理,形成最终的语料数据,完成数据的入库
针对大量的语料数据,采用分表存储,基于采集任务,及数据量进行分表存储