根据给定的几个关键词,从网络上抓取不少于1000张图片,且图片大小符合特定尺寸,抓取后对所有图片进行去重,计算清晰度并排序,接着将每张图片的大小都缩放到特定尺寸,并按照特定规则命名,打包即可
icrawler: 核心爬取引擎
opencv-python & pillow: 图片处理 (尺寸、格式等)
imgdd: 高性能图片去重
cleanvision: 自动检测模糊、曝光异常等质量问题
pandas: 用于管理去重和检测后的文件清单
完整性检测:尝试用 OpenCV 读取图片,任何读取失败的都被视为损坏文件,立即删除。
格式与尺寸统一:
对于能够打开的图片,使用 Pillow 将其转换为 RGB 三通道的 JPG 格式。
缩放处理:保持原图比例,将长边统一缩放至特定尺寸。
对所有图片进行哈希比对,识别并删除内容完全相同或高度相似的图片。
图片模糊检测 (使用 cleanvision):利用 cleanvision 的 find_issues() 功能扫描所有图片,它会返回一个包含 "blurry", "dark", "low_information" 等标签的报告。