OCR LLM

来自百合仙子's Wiki
跳转到导航 跳转到搜索

支持OCR的LLM的记录。

模型 优势 缺点 备注
PaddleOCR 没有幻觉 不直接支持版面识别
noctrex/LightOnOCR-1B-1025-GGUF:Q8_0 带格式的输出;快速 准确度有限、容易有幻觉
mradermacher/LightOnOCR-2-1B-i1-GGUF:Q6_K 准确度有所提高,但对中文还是不行
PaddleOCR-VL-1.5 Q8_0 支持公式和印章等 准确度偏低

不知道为什么,bf16版本比Q8_0更笨

使用llama.cpp运行时不支持对话
mradermacher/GLM-OCR-GGUF:Q8_0 比PaddleOCR-VL-1.5准确度略高

支持公式

不支持表格

需要提示词

hyojk2001/chandra-ocr-2-Q4_K_M-GGUF:Q4_K_M HTML输出

标记内容类型和位置

支持公式和图表

只能输出为HTML
unsloth/Qwen3.5-4B-GGUF:UD-Q4_K_XL 支持对话

能识别表格

比PaddleOCR-VL-1.5准确度略低

不够忠实于原文

公式识别错误

unsloth/gemma-4-E4B-it-GGUF:UD-Q4_K_XL 支持对话 提示词写「OCR」它会不理解,需要详细一些

公式识别错误

日文几乎完全不认

仅OCR的性能对比
模型 性能(token/s) 提示词 备注
Qwen/Qwen3-VL-8B-Instruct-GGUF:Q4_K_M 48.78 「OCR,不要废话」 准确度最高,识别出的文本最全
Qwen/Qwen3-VL-4B-Instruct-GGUF:Q8_0 53.45 罕见字识别错误
Qwen/Qwen3-VL-4B-Instruct-GGUF:Q4_K_M 77.84 罕见字识别错误
Qwen/Qwen3-VL-2B-Instruct-GGUF:Q8_0 105.87 识别出了并不存在的标点和文本,偏语义识别;错字比较多
noctrex/LightOnOCR-1B-1025-GGUF:Q8_0 + BF16 mmproj 224.73 不能加提示词 Markdown排版;常见字都有识别错误,但最快