数据采集:从指定网站获取数据,支持多页爬取,能够处理静态页面和动态页面(通过Selenium)。
数据解析:解析HTML页面,提取表格数据,包括表头和表格内容,并进行了数据清洗。
数据整合:将多页数据合并到一个DataFrame中,并进行数据预处理(如类型转换、去重等)。
数据导出:将合并后的数据导出到Excel文件,并生成多个统计工作表(数值统计、分类统计、缺失值统计)。
数据质量检查:生成数据质量报告,包括重复记录、空值记录等。
进度可视化:在爬取过程中显示进度条,方便用户了解爬取进度。
配置化和扩展性:通过类封装,使得代码可配置和可扩展,例如可以轻松修改选择器、请求头等。
步骤详解:
发送HTTP请求获取网页内容。
解析网页内容,提取表格数据。
定位分页链接,循环获取所有页面的数据。
将每一页的数据合并到一个DataFrame中。
按照网页上的列顺序调整DataFrame的列顺序。
导出DataFrame到Excel。
对数据进行统计,生成统计表格(例如,数值列的描述性统计,分类列的频数统计等)。