看完电影《Her》,很多人都幻想拥有一个真正懂自己的 AI 伴侣,但市面上的智能音箱往往不够聪明,想自己动手做又被硬件门槛劝退。

原推文https://x.com/i/status/2016509708174348465
作者:@GitHub_Daily
时间:2026-1-29 00:26:14

💡 核心观点

就在刚刚,百度重磅开源了新一代文档解析模型:PaddleOCR-VL-1.5。 仅 0.9B 参数,登顶 OmniDocBench V1.5 全球榜单,综合性能超越 Gemini-3-Pro、DeepSeek-OCR-2、GPT-5.2 模型。 GitHub:https://t.co/wfBarR8nkI 日常工作生活里,我们用手机随手拍摄的合同或发票照片,往往会出现倾斜、弯曲,甚至变形的情况。 若使用传统的 OCR 工具进行识别,经常会出现内容缺失,甚至完全无法识别的问题。 现在有了 PaddleOCR-VL-1.5 之后,这些难题便迎刃而解。 作为全球首个支持「异形框定位」的 OCR 模型,它能精准识别梯形、折叠、弯曲等非规则文档形态。 即使文档被揉皱,或因拍摄角度导致严重变形,它也能像扫描仪一样,把表格和文本结构 “一格一格” 地精准还原出来。 此外,模型还新增了「印章识别」与「跨页表格」自动合并能力,并针对生僻字、古籍及 109 种语言进行了专项优化,大幅提升了复杂业务场景下的落地稳定性 。 近半年来,全球 OCR 赛道竞争真的空前激烈。各大厂纷纷布局,相继推出了新一代模型,试图抢占文档解析这一高地。 而百度这次发布的 PaddleOCR-VL-1.5,算是切中了开发者最头疼的痛点:解决了那些棘手的「异形文档」识别。 让 OCR 不再局限于处理完美的扫描件,真正具备了在复杂业务场景下稳定干活的能力 。 目前模型权重已全部开源,开发者可以在 Hugging Face 上直接下载或在线体验。 在线体验:https://t.co/rg5cwGjO2H 模型下载:https://t.co/7kpA9radEN

🧵 深度展开


元数据

作者:GitHub_Daily | 标签:OCR Document Parsing AI Open Source Baidu

GitHub 上的 Buddie 这个开源项目,恰好提供了一整套从硬件设计到软件应用的“全栈”解决方案。

公开了完整的电路原理图、PCB

封面


元数据
• 类型:推文
• 标签:#工具
• 收藏夹:工具 → X Posts/工具