OCR 后看起来还是原扫描图，对吗？

对，是叠加了透明文字层。视觉上和原 PDF 相同，但已经能搜索和复制文字。

识别精度大致是多少？

印刷清晰、版面规整的扫描件通常识别更稳定；模糊、倾斜、手写体精度会明显下降。

如果想编辑文字怎么办？

建议先 OCR 让 PDF 可搜索，再用 PDF 转 Word 链路转出可编辑文档。

会调用第三方 OCR 服务吗？

不会。OCR 完全在我们的处理节点完成，不外送。

识别结果中有错别字怎么办？

可在 Word 转换后再统一查找替换，也可以在 PDF 编辑器中手动修正。

一次能处理多少页？

理论上没有页数硬限制，主要受 500MB 体积限制；超大文件请先拆分。

文件多久会被删？

处理完成 1 小时内自动清理。

PDF OCR 识别 | pdfClaw

已用于大量 PDF 处理任务

转换格式：OCR 可搜索 PDF (.pdf)

拖拽 PDF 文件到这里

或点击选择文件

选择文件当前格式最大支持 80MB PDF 文件

✓ 当前格式最大支持 80MB

免费在线 OCR 识别扫描版 PDF，将图片文字转为可搜索、可复制的文字层，支持中英文混排与手写体识别。适合扫描件归档、合同文档数字化、学术论文检索等场景。处理后保留原始排版，完全免费、无需注册、无页数限制，上传文件 1 小时后自动清除。

文件如何处理（隐私承诺）

OCR 处理过程完全在我们的处理节点本地完成，不会调用任何第三方 OCR 接口；上传与下载链路 HTTPS 加密，处理完成 1 小时后源文件与可搜索 PDF 都会被彻底删除。

适合的典型场景

扫描合同二次检索
扫描件归档后想查找某个条款，OCR 后即可在 Acrobat、Preview 等工具内全文搜索。
老论文 / 旧资料数字化
图书馆扫描的旧文献加文字层之后，可被引文管理工具检索与摘录。
图片中的信息摘录
把发票、卡片照片转成可搜索 PDF，再用文本工具摘出金额、单号等关键字段。

功能介绍及特性

中英混排识别
支持中文与拉丁字母混排，识别后文字可被搜索、复制和高亮。
保留原始版式
在原始页面上叠加透明文字层，肉眼看到的版式不变，搜索时却能命中文字。
手写体可识别
对清晰的手写笔记有较好识别率，方便事后整理重点。
可做后续二次处理
OCR 后的 PDF 可继续转 Word / Excel / 拆分 / 合并，是其他链路的前置。
逐页进度可见
处理时显示当前页 / 总页数，便于估算剩余时间。
不依赖第三方接口
全部 OCR 在我们的处理节点完成，不调用第三方云 OCR 服务。

操作步骤说明

1
上传扫描或图片型 PDF
选择需要识别的 PDF（≤ 500MB），文字版 PDF 也可以做（用于补全文字层）。
2
识别页面文字
对每一页做版面分析与文字识别，逐字定位坐标。
3
叠加透明文字层
在原页面图像上叠加可搜索文字层，视觉效果保持原样。
4
下载可搜索 PDF
下载后即可在 Reader 中按 Ctrl/Cmd+F 搜索；如需可编辑文档可再走 Word 转换。

使用限制与注意事项

模糊与低分辨率扫描— DPI 低于 200 或拍照模糊的页面识别精度会下降。
特殊字体与花体— 艺术字、手写花体、繁复装饰字识别率有限。
摩尔纹与倾斜页面— 建议提前去除摩尔纹、矫正倾斜后再 OCR。
非中英语种暂未优化— 目前对中英文表现最佳，其他小语种识别率低于预期，可在反馈中提需求。

常见问题

QOCR 后看起来还是原扫描图，对吗？: 对，是叠加了透明文字层。视觉上和原 PDF 相同，但已经能搜索和复制文字。
Q识别精度大致是多少？: 印刷清晰、版面规整的扫描件通常识别更稳定；模糊、倾斜、手写体精度会明显下降。
Q如果想编辑文字怎么办？: 建议先 OCR 让 PDF 可搜索，再用 PDF 转 Word 链路转出可编辑文档。
Q会调用第三方 OCR 服务吗？: 不会。OCR 完全在我们的处理节点完成，不外送。
Q识别结果中有错别字怎么办？: 可在 Word 转换后再统一查找替换，也可以在 PDF 编辑器中手动修正。
Q一次能处理多少页？: 理论上没有页数硬限制，主要受 500MB 体积限制；超大文件请先拆分。
Q加密 PDF 能 OCR 吗？: 需要先解除密码。
Q文件多久会被删？: 处理完成 1 小时内自动清理。

查看更多常见问题 →

OCR 完成后再做二次转换

扫描件先 OCR 之后，再去做 PDF 转 Word、PDF 转 Excel 等二次转换，效果会显著优于直接转换。

已用于大量 PDF 处理任务

转换格式：OCR 可搜索 PDF (.pdf)

拖拽 PDF 文件到这里

或点击选择文件

选择文件当前格式最大支持 80MB PDF 文件

✓ 当前格式最大支持 80MB

文件如何处理（隐私承诺）

适合的典型场景

扫描合同二次检索
扫描件归档后想查找某个条款，OCR 后即可在 Acrobat、Preview 等工具内全文搜索。
老论文 / 旧资料数字化
图书馆扫描的旧文献加文字层之后，可被引文管理工具检索与摘录。
图片中的信息摘录
把发票、卡片照片转成可搜索 PDF，再用文本工具摘出金额、单号等关键字段。

功能介绍及特性

中英混排识别
支持中文与拉丁字母混排，识别后文字可被搜索、复制和高亮。
保留原始版式
在原始页面上叠加透明文字层，肉眼看到的版式不变，搜索时却能命中文字。
手写体可识别
对清晰的手写笔记有较好识别率，方便事后整理重点。
可做后续二次处理
OCR 后的 PDF 可继续转 Word / Excel / 拆分 / 合并，是其他链路的前置。
逐页进度可见
处理时显示当前页 / 总页数，便于估算剩余时间。
不依赖第三方接口
全部 OCR 在我们的处理节点完成，不调用第三方云 OCR 服务。

操作步骤说明

1
上传扫描或图片型 PDF
选择需要识别的 PDF（≤ 500MB），文字版 PDF 也可以做（用于补全文字层）。
2
识别页面文字
对每一页做版面分析与文字识别，逐字定位坐标。
3
叠加透明文字层
在原页面图像上叠加可搜索文字层，视觉效果保持原样。
4
下载可搜索 PDF
下载后即可在 Reader 中按 Ctrl/Cmd+F 搜索；如需可编辑文档可再走 Word 转换。

使用限制与注意事项

模糊与低分辨率扫描— DPI 低于 200 或拍照模糊的页面识别精度会下降。
特殊字体与花体— 艺术字、手写花体、繁复装饰字识别率有限。
摩尔纹与倾斜页面— 建议提前去除摩尔纹、矫正倾斜后再 OCR。
非中英语种暂未优化— 目前对中英文表现最佳，其他小语种识别率低于预期，可在反馈中提需求。

常见问题

QOCR 后看起来还是原扫描图，对吗？: 对，是叠加了透明文字层。视觉上和原 PDF 相同，但已经能搜索和复制文字。
Q识别精度大致是多少？: 印刷清晰、版面规整的扫描件通常识别更稳定；模糊、倾斜、手写体精度会明显下降。
Q如果想编辑文字怎么办？: 建议先 OCR 让 PDF 可搜索，再用 PDF 转 Word 链路转出可编辑文档。
Q会调用第三方 OCR 服务吗？: 不会。OCR 完全在我们的处理节点完成，不外送。
Q识别结果中有错别字怎么办？: 可在 Word 转换后再统一查找替换，也可以在 PDF 编辑器中手动修正。
Q一次能处理多少页？: 理论上没有页数硬限制，主要受 500MB 体积限制；超大文件请先拆分。
Q加密 PDF 能 OCR 吗？: 需要先解除密码。
Q文件多久会被删？: 处理完成 1 小时内自动清理。

查看更多常见问题 →

OCR 完成后再做二次转换

扫描件先 OCR 之后，再去做 PDF 转 Word、PDF 转 Excel 等二次转换，效果会显著优于直接转换。

PDF OCR 识别

什么是 PDF OCR，为什么它不是“可有可无”的附加功能

这页适合谁，不适合谁

先判断文件类型，再决定要不要 OCR

OCR 在实际工作里，到底帮你省掉了哪些麻烦

PDF OCR 的标准工作流，不建议跳步

哪些场景最需要先 OCR，再做别的

谁适合在线 OCR，谁更适合本地或私有化 OCR

影响 OCR 结果的核心因素，不是越多参数越好，而是先管住输入

OCR 的目标不是完美还原，而是让后续动作更可靠

如果你处理的是合同、制度、财务件，应该怎么验收 OCR 结果

移动端拍照件，是最容易被低估的一类 OCR 场景

多语言与混排文档，最容易出问题的不是正文，而是术语和表头

扫描件进知识库前，为什么建议先做 OCR 再转 Markdown

什么时候不建议继续在线 OCR，而应该直接换方案

如果只是想提升结果，先从这几件小事开始

一条实际可复用的工作流：扫描合同到可编辑工作稿

另一条高频工作流：扫描报表、票据与台账进 Excel

pdfClaw 的 OCR 更适合放在什么位置

真实失败场景里，OCR 往往不是“识别错了”这么简单

隐私、合规与留痕：哪些文件不要只想着“能不能识别”

如果团队要把 OCR 变成日常动作，建议直接写成 SOP

OCR、Word、Excel、Markdown 之间，应该怎么选下一步

给产品、运营和内容团队的一个更现实建议

使用前后的自检清单

常见问题

OCR 后为什么看起来还是原来的扫描图？

OCR 后能直接编辑吗？

扫描表格可以直接变成 Excel 吗？

扫描件做知识库，为什么推荐 Markdown？

文件很大时怎么办？

什么时候必须人工复核？

最后的判断标准：这份扫描件现在有没有“变得可用”

文件如何处理（隐私承诺）

适合的典型场景

功能介绍及特性

操作步骤说明

使用限制与注意事项

常见问题

OCR 完成后再做二次转换

PDF OCR 识别

什么是 PDF OCR，为什么它不是“可有可无”的附加功能

这页适合谁，不适合谁

先判断文件类型，再决定要不要 OCR

OCR 在实际工作里，到底帮你省掉了哪些麻烦

PDF OCR 的标准工作流，不建议跳步

哪些场景最需要先 OCR，再做别的

谁适合在线 OCR，谁更适合本地或私有化 OCR

影响 OCR 结果的核心因素，不是越多参数越好，而是先管住输入

OCR 的目标不是完美还原，而是让后续动作更可靠

如果你处理的是合同、制度、财务件，应该怎么验收 OCR 结果

移动端拍照件，是最容易被低估的一类 OCR 场景

多语言与混排文档，最容易出问题的不是正文，而是术语和表头

扫描件进知识库前，为什么建议先做 OCR 再转 Markdown

什么时候不建议继续在线 OCR，而应该直接换方案

如果只是想提升结果，先从这几件小事开始

一条实际可复用的工作流：扫描合同到可编辑工作稿

另一条高频工作流：扫描报表、票据与台账进 Excel

pdfClaw 的 OCR 更适合放在什么位置

真实失败场景里，OCR 往往不是“识别错了”这么简单

隐私、合规与留痕：哪些文件不要只想着“能不能识别”

如果团队要把 OCR 变成日常动作，建议直接写成 SOP

OCR、Word、Excel、Markdown 之间，应该怎么选下一步

给产品、运营和内容团队的一个更现实建议

使用前后的自检清单

常见问题

OCR 后为什么看起来还是原来的扫描图？

OCR 后能直接编辑吗？

扫描表格可以直接变成 Excel 吗？

扫描件做知识库，为什么推荐 Markdown？

文件很大时怎么办？

什么时候必须人工复核？

最后的判断标准：这份扫描件现在有没有“变得可用”

文件如何处理（隐私承诺）

适合的典型场景

功能介绍及特性

操作步骤说明

使用限制与注意事项

常见问题

OCR 完成后再做二次转换