机器翻译-翻译爬虫

2025-10-28 10:53:46

行业：企业内部管理、人工智能

载体：网站

技术：Java、Python、Kafka

业务和功能介绍

1.为满足公司翻译模型的，各语种大量的数据训练需求，开发翻译爬虫系统。采集处理各类翻译语料
2.系统支持单语语料的采集、双语语料（外-外）采集及评分
3.整体流程：1）自动上传；2）自动解析；3）自动推送；4）自动采集；5）自动拉取；5）自动处理。
4，支持多节点采集，每个节点日采集180万语料

项目实现

整体项目分运营端、采集节点、数据处理。
运营端：开发各类语料上传功能、自行上传、自动上传，后台处理；采集节点配置及监测，实现各个节点的管理；对上传的数据进行推送，推送到kafka中，为采集节点提供基础数据

采集节点：通过消费kafka,都待采集到数据进行采集，评分；采集完成对语料数据推送到kafka中

数据处理：获取各个节点采集到数据进行处理，形成最终的语料数据，完成数据的入库

针对大量的语料数据，采用分表存储，基于采集任务，及数据量进行分表存储

示例图片视频

锋锐

30天前活跃

方向：后端-Java、爬虫/脚本-爬虫/脚本、

交付率：100.00%

查看主页

相似推荐

企业数字化管理系统-企航 EasyOps

这个系统主要是给中小企业用来管理日常业务的。很多小公司平时用 Excel 记录客户、订单和库存，时间久了数据容易乱，也不好查。这个项目就是把客户、订单、库存、审批和报表这些内容集中到一个系统里管理.系统里有工作台、客户管理、订单管理、库存管理、审批中心和经营报表。用户可以在系统里录入客户信息，查看客户跟进情况；也可以创建订单、查看订单状态和订单金额；库存数量可以统一管理，库存低了系统会提醒；一些订单折扣、合同、退款申请可以走审批；最后还能通过报表查看销售额、客户数量、库存预警等经营数据。

刷题微信小程序

1.题库学习多科目题库（考研数学、四级词汇、六级词汇等）按题库/子分类浏览题目随机答题模式免费题 + VIP题区分 2. 答题系统选择题作答自动判断正误答对获得积分（每日上限30分）答错自动收录错题集 3. 错题集按科目分类管理错题错题详情查看（含正确答案和解析）错题删除/标记已复习 4. 积分系统答题赚积分每日签到（连续签到奖励递增）积分兑换VIP 5. VIP体系 VIP月卡/季卡/年卡 VIP用户解锁全部题目普通用户仅可做免费题 6. 排行榜用户积分排名查看学习进度 7. 管理员后台题库管理（添加/删除题目）用户管理（设置VIP/管理员）按题库/子分类筛选

AI 智能体开发平台

本平台面向企业内部业务人员与算法开发人员打造一站式 AI 智能体低代码开发平台，解决传统大模型应用开发门槛高、流程定制繁琐、多模型调度混乱等痛点。平台核心包含智能体可视化编排、多厂商大模型接入管理、知识库向量存储、对话流程可视化拖拽、权限管控、调用数据统计六大核心模块。业务人员无需代码即可搭建行业专属智能体，支持上传企业私有文档构建专属知识库，配置问答、工具调用、多轮对话逻辑；算法人员可统一管理文心、通义、GLM 等多模型接口，配置模型限流、上下文长度、温度参数；平台完整记录智能体调用日志、Token 消耗、问答准确率，支持按部门、用户分配智能体访问权限，覆盖企业内部客服、办公辅助、数据查询等多类 AI 业务场景。

企业内部ERP系统

面向鞋类全栈 ERP 系统，覆盖从客户接单、模具管理、BOM 拆解、生产排程、出入库管理到标签打印、报表分析的全链路业务流程。系统采用前后端分离架构，后端基于 Spring Boot 3 提供 RESTful API，前端为 Vue 3 + Vite SPA，支持本地开发与 Docker 生产部署两套环境。

企业后端管理系统

后台管理系统：各类Admin后台、数据统计看板、CMS内容管理。 API接口开发：支持高并发的App/小程序接口，稳定、响应快（附接口文档）。微信生态：公众号开发、微信支付/支付宝支付完整接入、小程序云开发。数据与安全：数据可视化图表、防SQL注入/XSS攻击、接口签名加密。第三方对接：短信验证码、OSS对象存储（七牛/阿里云）、邮件推送。