Docx
处理 Word 文档的完整流程:创建、编辑、修订、批注与文本抽取。
来源:基于 anthropics/skills(MIT)内容改写。
概览
.docx 是一个 ZIP 包,内部是 OOXML。不同任务应选择不同路径:
- 阅读/分析:先做文本抽取或直接解析 XML
- 新建文档:使用 docx-js
- 编辑现有文档:使用 Document 库(Python)
- 审阅/修订:使用红线(tracked changes)流程
阅读与分析
文本抽取
pandoc --track-changes=all file.docx -o output.md直接读取 XML
python ooxml/scripts/unpack.py <office_file> <output_dir>关键文件:
word/document.xmlword/comments.xmlword/media/- 修订标签:
<w:ins>/<w:del>
新建文档(docx-js)
- 必须完整阅读
docx-js.md - 用
Document / Paragraph / TextRun构建内容 - 通过
Packer.toBuffer()导出.docx
编辑现有文档(Document 库)
- 必须完整阅读
ooxml.md - 解包 → 脚本编辑 → 打包
python ooxml/scripts/unpack.py <file.docx> <dir>
python ooxml/scripts/pack.py <dir> <file.docx>红线修订(Tracked Changes)
适用于法律/商务/学术文档:
- 先用 pandoc 导出 markdown(保留修订)
- 把改动分批(每批 3-10 条)
- 只标注发生变化的词,保留未变化部分
- 使用解包脚本建议的 RSID
常见脚本
ooxml/scripts/unpack.pyooxml/scripts/pack.pyooxml/scripts/validate.py
claudeskills文档