Word文档批量文本替换工具,主要功能:
遍历指定目录,查找所有.docx文件
批量替换文本内容(支持配置多组替换规则)
保留原格式(字体、颜色、大小等样式)
处理复杂元素:
正文段落
表格
页眉页脚
文本框(VML旧格式 + DrawingML新格式)
技术实现
python-docx:处理Word文档主体结构
lxml/etree:直接操作XML处理文本框
win32com:关闭Word进程避免文件锁定
命名空间映射:处理Word XML复杂命名空间
核心难点
文本框替换:Word XML结构复杂,需区分VML和DrawingML两种格式
格式保留:逐Run处理,保存每个字符片段的样式属性
替换验证:保存后重新读取验证是否成功
隐藏文件过滤:跳过系统文件避免权限错误