大数据 软件定制 案例

网络视频网站数据爬虫
一、核心功能:基础数据采集与处理 核心功能是爬虫的 “基石”,主要目标是精准、稳定地获取视频平台的核心公开数据,并完成初步清洗,为后续分析或应用提供原料。 1. 目标数据采集(核心能力) 爬虫可针对主流视频平台(如 B 站、抖音、YouTube、腾讯视频等),定向采集以下几类关键数据,具体采集范围需根据平台接口限制或页面结构调整: 数据类别 具体采集内容 应用场景举例 视频基础信息 视频 ID、标题、发布时间、时长、封面图 URL、播放量、点赞量、收藏量、评论数、分享数 视频热度分析、内容分类统计 创作者信息 创作者 ID、昵称、头像 URL、粉丝数、关注数、发布视频总数、账号认证类型(如 “UP 主”) 创作者画像分析、达人筛选 视频内容数据 视频播放地址(需区分 “可下载”“仅在线播放” 权限)、字幕文本(公开字幕)、标签 / 分类 视频内容检索、字幕关键词分析 互动数据 评论内容(用户名、评论时间、评论点赞数、回复链)、弹幕内容(发送时间、弹幕文本) 用户情感分析、热门话题提取 2. 数据清洗与标准化 采集到的原始数据常存在格式混乱(如时间戳格式不统一)、冗余(如重复评论)、无效值(如播放量为 “--”)等问题,爬虫需内置处理逻辑: 格式统一:将不同平台的时间戳(如 “2024-05-20”“1684567890”)统一转为标准时间格式,播放量(如 “1.2 万”“12000”)统一转为数值型; 冗余 / 无效数据过滤:删除重复的评论、弹幕,过滤掉 “无意义文本”(如纯表情评论)或无效字段(如封面图 URL 失效); 关键词提取:基于 NLP(自然语言处理)工具(如 jieba、NLTK),从视频标题、评论、字幕中提取核心关键词(如 “AI 生成”“美食教程”),为后续分类打标签。 3. 数据存储与导出 采集并清洗后的数据需持久化存储,支持多种存储方式以适配不同需求: 本地存储:适合小规模数据,如 Excel(.xlsx)、CSV(逗号分隔文件,便于 Excel/Python 读取)、JSON(轻量格式,适合程序调用); 数据库存储:适合大规模、高并发采集场景,如关系型数据库(MySQL、PostgreSQL,用于结构化数据如视频基础信息)、非关系型数据库(MongoDB,用于非结构化数据如评论、弹幕); 数据导出:支持按需导出为可视化工具兼容格式(如 PowerBI、Tableau 可读取的 CSV/Excel),或 API 接口格式(供其他系统调用)。 二、扩展功能:提升采集效率与场景适配性 扩展功能是在核心能力基础上,针对 “高并发、反爬对抗、多场景需求” 设计的进阶能力,决定爬虫的稳定性与实用性。 1. 反爬对抗与稳定性优化 主流视频平台均设有反爬机制(如 IP 封锁、Cookie 验证、验证码、接口签名),爬虫需通过技术手段适配,确保采集过程
大数据
AntiCaptcha、Apache C...
供应链驾驶舱-远洋数字领航可视化项目
远洋领航数字化驾驶舱项目是位于金融供应链集团开发的一款项目,该项目打通了工厂、商户、客户等三个体系进行开发的数字化驾驶舱,通过前端驾驶舱展示项目的所有的数据展示,用户量两、用户交易量、交易率、已购率、复购率、付费情况等一系列指标,数据展示全国各地的数据,上海、浙江、北京、广东等多个北上广地区的数据
电商、大数据
Java、Node.js
报刊采集系统-数据采集
主导报刊采集项目,成功采集了162种报刊的内容及PDF。负责数据处理,采用Scrapy和BS4技术栈,设计并实施了三通道架构以优化分布式数据采集。有效应对反爬机制,通过登录验证和cookie验证确保数据的准确性和完整性。利用pandas进行数据分析,结合正则表达式、机器学习(数据标注)和AI大模型进行深入解析,提升了数据处理的效率和准确性。
金融、大数据
Scrapy、Selenium、Sele...
房产小程序-购房通
此小程序是一个房产信息平台,致力于为广大购房者提供高效实时的成都房产市场相关动态信息,并提供相关的各种便利的工具:航拍VR看房、查日照、算噪音、产业测评;落户、公积金、首付房贷等。目前平台拥有上百万用户访问,日均浏览量上百万次。
内容平台、大数据
JavaScript、UniApp、Vu...
公司内部管理系统
系统旨在为管理、销售、财务、律师、行政、业务支持等人员提供数据查询、报表导出、项目成本管理、诉讼管理、资产管理、用户运营管理等支撑功能 系统主要有以下核心功能: 数据分析:为管理人员、销售人员提供各类业务数据的查询、报表导出 项目成本:为财务、销售人员提供项目经费、活动成本等管理和操作 诉讼管理:为律师提供诉讼相关的流程管理
内容平台、大数据
Vue、Vue Router、Webpa...
贝壳二手房数据获取
本项目通过技术手段获取贝壳平台二手房源数据,实现对房源信息的全面采集与分析。具备数据爬取、清洗、存储及可视化展示等功能,可实时监控房价走势、区域热度等关键指标,为房产市场研究、投资决策提供数据支持,助力用户高效获取市场动态,提升信息利用价值。
大数据
Python、Scrapy、Seleni...
AI智能文档体系管理 - DEMO-BeeWiki
BeeWiki是一个AI智能文档体系管理工具。它集成了强大的AI对话、MCP服务、文件空间、AI知识库和智能相册,旨在帮助个人或团队像蜜蜂一样,高效地采集、整理、提炼知识,构建专属的知识体系。让信息不再碎片化,让每一个想法都能沉淀为有价值的资产。
内容平台、大数据
Node.js、Electron、Vue
toG贵阳市残联大数据服务平台
给残疾人提供手机端pc端更好的业务办理以及可以帮助工作人员在pc端小程序端完成业务审核以及知道自己可以管理多少的残疾人,可以通过大屏来查阅残疾人每个区县办理业务情况以及人员数量
医疗健康、大数据
Vue、jQuery、Linux、Spr...
快递管家-顺丰
随着企业发展,商务快递发件量不断增加,企业的快递成本也随之上升,从快递记录到成本监控,快递管理已成为了一项复杂的工作,快递管理优化迫在眉睫,多组织发件,渠道不统一;快递收发管理乱,易出错;统计周期不一致,对账难;员工件/企业件难区分,快递成本增加;本项目致力于为企业提供高效便捷、轻量灵活的精细化快递管家服务。可协助监管企业快递收发,使企业快递成本可控、对账更轻松,打造企业一站式快递服务平台,为企业客户提供多元化、专业化的寄递服务体验。 系统来源:公众号、小程序、数字商店、web端。系统主要模块包括:企业管理、加密机对接、订单管理、基础信息管理、综合统计、新建订单(下单、导入、导出)、通知中心、短信模板列表、数字商店、通用接口沙箱、通用接口外部对接、通用接口管理、组织管理、UNP管理、内陆及国际件管理、数据看板、物料管理、需求管理、快件管理、行政区管理、任务中心、系统管理等
物流仓储、大数据
MyBatis、Spring、Sprin...
产业招商大数据平台
用于在线自定义动态构建产业链,内置战略新兴产业、国民经济行业等标准产业链模板,内置关键词助手、翻译助手等,支持复用标准产业链体系及节点数据,也可以自定义配置数据,可快速、高效、灵活、便捷的构建产业链及配置数据。
内容平台、大数据
D3.js、Vue、Vue Router...
Python模拟登录-模拟今日头条登录
个人Python训练,通过Python编码进行今日头条的模拟登录,其中用到了多个模块,如selenium模块,同时涉及了利用xpath进行元素定位的相关操作,注意要确定定位的准确性和简洁性,值得一提的是该程序还存在一定的不足和缺陷,比如无法破解验证码的问题。
大数据
Python、Selenium
selenium相关使用-领导留言板网页内容抓取
个人Python编程练习,熟悉selenium的使用过程,了解selenium的优势,加深对Python爬虫的理解,selenium适用于加入了对Python爬虫进行了反爬操作的网页,如案例网页若直接利用爬虫抓取网页内容会被创宇盾拦截,利用selenium能够处理大多数反爬操作,增强了python爬虫的可操作范围。
大数据
Python、Selenium
Python爬虫数据抓取-豆瓣电影top250内容抓取
Python编程个人练习,熟练进行Python爬虫程序的编码流程和相关注意点,提升自我Python编程的能力,通过利用Python爬虫进行数据爬取了解爬虫的强大功能,同时利用定义类之后在创建对象的方式增强代码的可读性。
大数据
Python
基于高德地图API的场景营销系统-全景智图平台
立项背景与目标 本项目立足“精准触达+可视化运营”诉求,解决传统营销对人群理解粗放、投放范围难以核验、标签资产复用效率低的问题。通过将地理位置与标签人群画像能力融合,运营人员可以在地图上直接“看见”潜在人群的地理分布、业务热点与覆盖差异,并以业务语义(网点、区域、商圈、出行特征等)组织营销策略。项目目标:①支持按地理圈选+多维标签组合定义高价值人群;②快速配置与沉淀可复用“营销场景”;③闭环承接短信触达与效果统计;④沉淀标签与费用使用、活动执行的全过程透明化数据资产;⑤为后续拓展更多触达渠道(短信、推送、线下屏、联盟广告等)奠定统一人群底座。 软件功能与核心模块 平台整体能力分层丰富: (1) 网点分析:围绕任意地点(自建或选择)进行半径/多边形圈选,查看区域人群规模、结构与差异,辅助线下拓展、投放参照。 (2) 线索管理:采集并聚合标记人群(或场景内人群)在既定周期内的关键行为(访问、消费、到店频次等),输出可导出的数据清单与汇总表。 (3) 费用中心:对营销短信、标签采购、人群计算等资源消耗建立费用科目与结余视图,支撑预算控制与内部核算。 (4) 营销中心:核心业务域。包括“营销场景创建”与“短信模板管理”。场景创建支持:地图绘制(多边形/圆形)、多形状组合、标签条件分组(且/或逻辑)、动态估算覆盖量、场景持久化;短信模块支持模板撰写、签名/短链插入、字数与分段提示、状态流转。 (5) 数据报表:沉淀活动发送、转化、消耗、触达覆盖趋势,为复盘与ROI 优化提供量化依据。 (6) 标签营销:展示可采购或已授权标签目录(分类→标签→可选值),模拟标签选购、组合分析与应用到场景过滤的链路。 (7) 统一首页:汇总营销人数、短信发送量/余量、活动执行阶段指标,并提供高频操作入口(新建场景 / 活动 / 短信)。 核心功能聚焦两类: A. 营销场景创建:通过 Map 交互圈选(多区域叠加),再叠加标签条件(分组逻辑、最大数量控制、层级下拉联动),形成“可保存+可复用”的人群定义。系统以内部估算模型(地理基数 × 标签衰减)近实时反馈预估覆盖,帮助运营快速迭代。 B. 短信模板:用于后续对上述场景人群批量触达,支持插入签名、短链与变量占位,提供内容长度、计费条数提示与状态管理。
大数据、广告营销
Vue、Vue Router、Webpa...
boss直聘爬取
这个项目可以实现数据自动化爬取,并且自动生成xlsx文件保存,还附带几个可视化图表,有柱状图,条形图以及饼状图,可以清晰的看出数据分布,功能实现有爬取功能,以及反爬技术,还包括了自动化运行,效率高效,数据准确
大数据
Python、Django、Webpac...
标签大数据营销管理平台
一、立项背景与目标 当前短信广告投放存在“同内容群发、转化低、运营人工干预多”的痛点。企业已经积累了大量用户行为、属性、偏好等基础数据,并经整理沉淀为可复用的“标签”资产。本项目旨在: 将标签结构化、可视化,降低运营理解与选取成本。 通过标签组合构建细粒度“用户群”,支撑差异化短信营销。 以项目为载体管理投放生命周期(创建、进度、成员协作、结果归档)。 提供营销效果分析(触达量、意向量、意向率等),形成数据闭环。 面向运营人员,提升投放精准度、响应效率与过程可追溯性,减少盲目触达与资源浪费。 二、软件功能与核心模块 首页仪表盘 我的项目:展示项目总览、进度百分比、状态、成员头像(首位为负责人) 系统通知:运营平台公告、功能变更提醒 我的待办:工单列表,支持分页与状态色标 快捷操作:直达“标签广场 / 项目管理 / 用户群管理 / 审批 / 营销管理 / 统计分析” 标签模块 平台数据统计:标签分类数、标签定义数、标签总量、覆盖人群数(自动格式化万/亿单位) 标签上新 / 热门标签:快速浏览最新或高使用频次标签 标签地图:按“消费行为 / 出行偏好 / 生活阶段 / 兴趣偏好 / 内容行为 / 设备属性 / 地域特征 / 会员特征 / 渠道来源 / 场景人群”等维度分层展示,支持点击跳转详情 用户群管理 用户群列表:名称、编码、人数、最后更新时间、计算状态、推送状态、更新方式、创建方式 操作能力:详情、下载申请 / 取消申请 / 下载、扩展(人群再加工)、画像生成 / 查看 / 重新生成 项目管理 统计卡:项目总数 + 各状态数量分布 列表:基本信息(图标、名称)、状态标签、进度条、最后更新时间拆分显示、成员头像、操作 支持按状态 Tab 与名称关键词筛选 营销分析 过滤条件:项目、推送配置、日期范围 效果概览:堆叠柱图展示“有意向 vs 其他”数量,动态高度自适配 数据明细:计划名称、关联项目、通道类型、推送人群、推送时间、推送人数、意向人数、意向率、城市 支撑投放效果复盘与优先级策略优化 工单与审批:支撑运营流程化、责任明晰化 三、业务流程 / 功能路径 登录进入首页:获取个人信息、项目概览、通知与待办 → 识别需处理事项 进入“标签”模块:理解可用数据资产与结构 → 发现可组合的特征因子 在“用户群管理”中:基于标签规则或导入构建目标人群 → 运行与维护(更新策略、暂停、画像生成、下载) 在“项目管理”中:创建营销项目 → 选择匹配用户群 → 分配成员 → 跟踪进度与协作 进入“营销分析”:查看阶段或汇总效果 → 分析意向率差异 → 反向指导标签与人群策略迭代 必要时通过工单 / 审批通道保障合规与流程闭环。 整体形成“标签沉淀 → 人群构建 → 项目投放 → 效果分析 → 策略回流”闭环,持续提升精准触达与营销 ROI。
大数据、广告营销
Vue、Vue Router、Webpa...
基于深度学习的电价预测
电价预测模型 — 独立项目 时间:2024年暑期 基于时间序列与深度学习模型(LSTM、Transformer)构建电价预测系统,探索短期与中长期预测的差异化效果; 实现数据预处理与特征工程(缺失值处理、归一化、滞后特征构造、节假日与天气特征融合),提升模型鲁棒性; 在实验中对比了ARIMA、XGBoost与改进的Transformer结构,并以MAPE、RMSE为指标进行量化评估; 使用PyTorch + sklearn 完成模型搭建与训练,并基于可视化分析解释预测结果,撰写完整技术报告; 项目代码与报告开源至GitHub,积累实践经验并初步形成科研表达能力 Summer 2024 Developed a time-series forecasting system for electricity prices using LSTM and Transformer-based models, comparing short-term and long-term forecasting performance. Designed and implemented data preprocessing & feature engineering, including missing value imputation, normalization, lag features, and integration of holiday/weather factors. Conducted benchmarking with ARIMA, XGBoost, and enhanced Transformer variants, evaluated via MAPE and RMSE metrics. Built and trained models using PyTorch and scikit-learn, with visualization for interpretability and a full technical report. Open-sourced project on GitHub, gaining hands-on experience in applied machine learning and technical reportin
人工智能、大数据
PyTorch
【垂直领域学校项目】体育中考平台、体测平台、学校后台、智慧大屏、神采飞扬小程序
1.体育中考平台 - 面向学校; - 提供体育中考全面的数字化能力; 2.体测平台 - 面向业务端、服务端; - 提供对其他端的管理功能,同时具备完整的代运营功能; - 提供H5入口、数据大屏入口、报告导出/打印入口以及多维度图表汇总功能; 3.学校后台 - 面向多级教育局、学校; - 管理相关体测计划;提供直观的数据; - 维护学校、年级、班级、学生、教师的从属关系; 4.智慧大屏 - 面向多级教育局、学校; - 为全国范围的代理商,提供五级数据驾驶舱视图; - 提供全方位、立体化的学生健康数据视图、专业的健康优化建议; - 提供完善的数据安全、成熟的权限控制能力; 5.神采飞扬小程序 - 面向学生,结合跳绳硬件设备; - 通过小程序BLE,结合硬件配套的SDK实现跳绳设备的交互; - 提供设备控制、数据展示、实时计数、低社交功能;
在线教育、大数据
TypeScript、Chart.js、...
数据驾驶舱
该驾驶舱按照部门设计了四个驾驶舱: (1)CEO驾驶舱 (2)销售驾驶舱(会员分单数据分析、城市数据分析、大区数据分析、业绩分析等) (3)财务驾驶舱(收入统计、利润统计) (4)市场驾驶舱(渠道账户订单分析、市场人员产出)
大数据
Java、Axure RP
招投标数据平台-标标达
搜索:根据业务词搜索信息 预测:根据用户特征推荐预测后续可行项目 权限:根据不同会员等级设计权限模块 crm:根据业务需求研发设计销售管理系统 付费:各平台支付接入 促活:推送通知用于促活
企业服务(saas)、大数据
Java、Kafka、MongoDB、S...
  • 1
  • 2
  • 3
  • 4
  • 6
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服