Obsidian从小白到高手一站式指南
原推文:https://x.com/i/status/2013444693766611316
作者:@超级个体|柿子 yaohui12138
时间:2026-1-21 01:33:38
💡 核心观点
1 月 29 号,百度开源了个叫 PaddleOCR-VL-1.5 的模型,登顶全球第一! 很多人第一反应是,都大模型时代了,怎么还在聊 OCR 这种“上古技术” 这恰恰是没看懂的地方 这事背后,藏着中国 AI 下半场竞争的真正逻辑 你肯定遇到过 手机对着发票、合同、报销单,咔嚓一拍,想让 AI 把里面的信息提取出来 结果呢,如果拍歪了,或者纸上有折痕,识别出来的就是一坨 金额和抬头对不上,表格行列全乱套 最后还是得自己手动一个个敲 这就是过去 OCR 的窘境:它能认出字,但它看不懂“一张纸” 它只能处理像扫描仪扫出来那样,横平竖直的完美文档 但真实世界是杂乱的,是歪斜的,是有折痕和反光的 传统 OCR 在实验室里跑分再高,一到真实场景就歇菜 这就是产品经理最痛恨的“最后一公里”问题 技术看似解决了 99%,但那没解决的 1% 让整个产品等于零 二、百度干了件产品经理的事 这次的 PaddleOCR-VL-1.5,最狠的一点,就是解决了这个问题 它搞了个全球首创的“异形框定位” 这词很技术,我用人话翻译一下 就是 AI 终于能看懂一张“歪”的纸了 就算你拍的合同是梯形的,它也能准确地把里面的表格框出来,还原成规整的结构 就算报销单被折过,它也能跨过折痕,把断开的公司名和金额重新连起来 这已经不是“识别”,这是“理解” 它不再是把像素点翻译成字符,而是先理解这张纸的物理结构(扭曲、折叠),再解析它的逻辑结构(表格、段落) 在表格结构理解(92.8 分)和阅读顺序预测(95.8 分)两项核心指标上均位列第一,文档阅读顺序预测的版面逻辑解析错误率仅为同类模型的一半左右。这意味着在合同、财报等高复杂度业务场景中,它具备更高的可用性和稳定性 从产品经理的视角看,这才是真正有价值的创新 不是在象牙塔里把算法精度从 99.5% 刷到 99.6% 而是把一个在真实世界里可用性只有 60 分的东西,做到了 90 分 这背后是百度深厚的技术积累。截至 2026 年 1 月,百度在 OCR 领域申请了 1700 余件中国发明专利,其中 900 余件已获授权,专利数量在国内企业位于第一梯队。此外,百度还在美国、欧洲、日本、韩国均布局了 100 余件 OCR 领域的专利 但更重要的是一种产品思维的胜利:从用户真实、高频、会骂娘的痛点出发,而不是从技术自己的 KPI 出发 当然,跑分也很硬 这个模型只有 0.9B 参数,但在全球权威榜单 OmniDocBench V1.5 上,精度干到了 94.5% 超过了 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B 等模型 在 OmniDocBench V1.5 榜单上,PaddleOCR-VL-1.5 精度达到 94.5%,而 DeepSeek-OCR2 为 91.09%,领先超过 3 个百分点。在自建的 Real5-OmniDocBench 多场景测试集中,总指标达 92.05%,在扫描、弯折、屏幕拍照、光线变化、倾斜五大真实场景中全面领先,超过第二名 Gemini 3 Pro 近 3 个百分点 用极小的代价,办了件大事 对我们超级个体和开发者来说,0.9B 参数意味着什么? 意味着你的 MacBook 就能跑得动 意味着你可以把它部署在本地,做成工具,而不是只能眼巴巴地调用死贵的 API 这意味着,一个普通人想用 AI 做点文档处理的自动化工具,门槛几乎降到了零 三、OCR 赛道,为什么突然又“火”了 有意思的是,不只百度在搞 OCR 最近半年,这个赛道突然又挤满了人 去年 10 月,DeepSeek 发布了初代 OCR 模型,主打一个“上下文光学压缩”,想用 OCR 的思路去解决大模型长文本的算力问题。 同期,百度也发布了 PaddleOCR-VL,两家前后脚发布引起行业热议 今年 1 月 27 日,DeepSeek 又火速迭代了 DeepSeek-OCR2,引入“因果流查询”机制,并将语言模型融入视觉编码,在 OmniDocBench V1.5 上拿了 91.09% 的高分 腾讯的混元 OCR 也在持续发力 为什么? 因为所有人都想明白了:如果说大模型是 AI 的大脑,那 OCR 就是 AI 的眼睛和手 没有 OCR,大模型就是个活在数字真空里的“缸中之脑” 它再聪明,也读不懂你扔给它的那份 PDF 财报、那张医疗影像、那本扫描的古籍 所有需要和现实世界文档打交道的场景,第一步都是 OCR 1. RAG 的基石是 OCR 现在人人都在谈 RAG(检索增强生成),觉得它是让大模型不说胡话的解药 但你的知识库是什么?是无数的 PDF、Word、图片 如果 OCR 这一步就错了,识别不准、结构混乱,那你喂给大模型的全是垃圾 垃圾进,垃圾出 高质量的 OCR,是高质量 RAG 的绝对前提 2. Agent 落地的触手是 OCR 2026 年被吹成 Agent 元年,大家都在期待能“办事”的 AI 一个 Agent 怎么帮你完成报销流程? 它得能看懂你上传的发票图片 一个 Agent 怎么帮你分析合同风险? 它得能准确解析合同扫描件里的每一条条款 OCR 就是 Agent 伸向物理世界文档的触手 没有这根触手,Agent 就是个残废 3. 企业智能化转型的入口是 OCR 所有企业都坐拥堆积如山的纸质文档、票据、档案 这些是沉睡的数据资产 想把这些资产盘活,第一件事就是数字化 靠人力一张张录入?成本高到无法想象 唯一的解法,就是高精度的、能处理复杂场景的 OCR 所以,现在大家抢的不是 OCR 这个单一技术,而是大模型与现实世界连接的“数据入口” DeepSeek 想从这里切入,解决算力问题 百度想从这里切入,打通“芯云模体”的系统能力 大家路径不同,但目标一致:谁掌握了最高效、最可靠的数据入口,谁就在 AI 下半场的竞争中,拿到了先手 四、中国 AI 的新牌局:从“单挑”到“三国杀” 把视野再拉高一点,你会发现一盘更大的棋 看看 2026 年 1 月底发生了什么: 1 月 22 日:百度发布文心 5.0 正式版,一个 2.4 万亿参数的原生全模态大模型,同时宣布文心助手月活破 2 亿 1 月 26 日:阿里发布千问 Qwen3-Max-Thinking,一个万亿参数的旗舰推理模型,主打深度逻辑,千问月活也破了 1 亿 1 月 27 日/29 日:DeepSeek 发布 DeepSeek-OCR2,百度发布 PaddleOCR-VL-1.5,两家接连更新自己的王牌 OCR 模型 这不是巧合 这是中国 AI 竞争范式的一次集体转向 标志着“单模型能力比拼”的时代结束了,“系统级综合能力竞争”的时代开始了 过去,大家比的是谁的基座模型参数大、跑分高,像是在比谁的“内力”更深厚 现在,大家比的是谁能打出一套组合拳,形成一个“作战系统” 一个能打的 AI 系统,至少需要三个部分: 一个强大的基座模型:这是大脑,决定了能力的上限(文心 5.0、千问 3-Max) 一系列精悍的专精模型:这是眼睛、耳朵、手脚,负责感知和执行(PaddleOCR、视频模型、语音模型) 一个高效的工程化平台:这是躯干和神经,负责把所有能力串联起来,稳定、低成本地对外提供服务(百度千帆、阿里云百炼) 当下,AI 行业已经形成「三国杀」格局: 文心、千问、DeepSeek 构成国产 AI 三大家,并且三大家的打法开始出现差异化: 百度(文心):打的是“体系战”。 他们有最庞大的文心 5.0 作为大脑 又有像 PaddleOCR 这样在垂直领域做到全球第一的“特种兵” 还有在数字人领域取得突破的高说服力数字人——依托文心大模型的多模态能力 数字人能实现表达流畅、语境精准且极具感染力的对话,外形、动作乃至细微的微表情都能与对话完美同步,在电商直播等场景中的表现力甚至超越真人。 再用千帆平台把这些能力打包成解决方案。这是最典型的“大厂正规军”打法,稳扎稳打,强调技术栈的完整性和系统性。 阿里(千问):打的是“场景战”。千问的优势在于和电商、支付等具体业务场景的深度捆绑,它的技术迭代更侧重于推理、Agent 等能直接提升商业效率的能力。 DeepSeek:打的是“游击战”或者说“精兵战”。它没有选择在参数规模上硬碰硬,而是聚焦在架构创新和开发者生态上,用轻量、开源、高性价比的模型去撬动市场。它的思路更像一个技术极客,总想用更聪明的方法解决问题。 这三种打法没有绝对的优劣,但反映出中国 AI 市场正在告别蒙眼狂奔,走向成熟和务实 大家都不再迷信“一个模型包打天下”的神话,而是开始像产品经理一样思考:我的技术组合,到底能为哪个场景,解决什么具体问题? 五、给超级个体的行动建议 聊了这么多宏大叙事,最后说点实在的,这对我们普通人有什么用? 1. 重新认识“小模型”的价值 别再只盯着 GPT-5、文心 5.0 了 像 PaddleOCR-VL-1.5 这种 0.9B 的“小模型”,对我们来说才是金矿 它足够小,可以在你自己的电脑上运行 它足够强,在特定任务上吊打几百倍于它的大模型 它足够开放,开源、免费,你可以随意修改和集成 这意味着,你完全可以基于它,开发出属于你自己的、能解决特定问题的 AI 工具,形成你的产品护城河 2. 找到文档处理相关的变现机会 OCR 的突破,直接利好所有和文档打交道的生意 服务企业:大量的中小企业有成堆的发票、合同、报表需要数字化,但用不起昂贵的定制方案。你可以用这些开源模型,为他们提供轻量级的自动化数据录入服务。 服务个人:个人知识管理(PKM)是个巨大的市场。你可以开发一个工具,能完美解析用户随手拍的读书笔记、会议记录,并自动整理到 Obsidian 或 Notion 里。 垂直领域:法律、医疗、金融、教育……每个行业都有海量的文档处理需求。比如,做一个能自动提取病历关键信息的工具,或者一个能比对不同版本合同差异的工具。 3. 转变思维:从“用 AI”到“造 AI 工具” AI 的竞争正在从“模型层”下沉到“应用层” 对我们超级个体而言,最大的机会,不再是比谁的提示词写得好,而是比谁能更快地用好这些开源模型,把它们封装成解决具体问题的产品或服务 PaddleOCR-VL-1.5 这样的工具,就是你手里的乐高积木 别再满足于当一个乐高玩家了 去当一个乐高搭建师,去创造属于你自己的东西 github 项目地址:https://t.co/HI2lgB6dCJ huggingface 链接:https://t.co/clBKaSC4eg
🧵 深度展开
[!NOTE] 补充 2
作者:超级个体|柿子 yaohui12138 | 标签:OCR AI PaddleOCR 超级个体 开源模型

元数据
• 类型:推文
• 标签:#教程
• 收藏夹:教程 → X Posts/教程