网站爬取数据
数据采集:从指定网站获取数据,支持多页爬取,能够处理静态页面和动态页面(通过Selenium)。
数据解析:解析HTML页面,提取表格数据,包括表头和表格内容,并进行了数据清洗。
数据整合:将多页数据合并到一个DataFrame中,并进行数据预处理(如类型转换、去重等)。
数据导出:将合并后的数据导出到Excel文件,并生成多个统计工作表(数值统计、分类统计、缺失值统计)。
数据质量检查:生成数据质量报告,包括重复记录、空值记录等。
进度可视化:在爬取过程中显示进度条,方便用户了解爬取进度。
配置化和扩展性:通过类封装,使得代码可配置和可扩展,例如可以轻松修改选择器、请求头等。
工业互联网