OCR - Image Reader
截图:
简介:
强大的光学字符识别 (OCR) 扩展,可捕获图像并将其转换为文本
此扩展程序向您的浏览器添加了一个工具栏按钮以执行 OCR。当按下此操作按钮时,它允许用户在当前活动窗口中选择一个区域。该扩展捕获该区域并尝试使用内部强大的 OCR 引擎(Tesseract 引擎)识别该区域内的文本。此扩展使用支持 100 多种语言、自动文本方向和脚本检测的“tesseract.js”库。
此扩展会在页面上加载 JS 库,并在完成后将其删除。这样,就不会长期占用资源。
笔记:
1. 第一次运行时,扩展程序可能需要几分钟的时间才能从互联网获取训练数据。由于该资源已被缓存,因此所有后续调用都会很快。
2. 光学字符识别(OCR)速度较慢,因此此扩展为每个检测模块显示一个进度条。
3. 此扩展可以离线进行 OCR 处理。没有服务器端交互。它只获取语言训练数据库一次。
4. 该工具可用于从图像、PDF 文档、Powerpoint 幻灯片中提取文本内容,或在禁止用户部分时提取网页内容。
5. 如果文本提取置信度较低,扩展程序会反转图像并重试(在深色主题上特别有用)
6.如果文字提取不准确,您可以修改图片并将其拖放到界面中重试。
变更日志:
版本0.2.4:
支持浏览器级页面缩放和操作系统级屏幕缩放
添加图像语言检测(仍为测试版)(运行缓慢)