#工具 #x-post #已整理 #OCR #AI #开源工具 #机器学习 #生产力

又一个可以预测股价走势的 AI 项目，在 GitHub 上开源了。

原推文：https://x.com/i/status/2011015425493176734
作者：@GitHub_Daily
时间：2026-1-14 07:34:43

💡 核心观点

就在刚刚，百度重磅开源了新一代文档解析模型：PaddleOCR-VL-1.5。仅 0.9B 参数，登顶 OmniDocBench V1.5 全球榜单，综合性能超越 Gemini-3-Pro、DeepSeek-OCR-2、GPT-5.2 模型。 GitHub：https://t.co/wfBarR8nkI 日常工作生活里，我们用手机随手拍摄的合同或发票照片，往往会出现倾斜、弯曲，甚至变形的情况。使用传统的 OCR 工具进行识别，经常会出现内容缺失，甚至完全无法识别的问题。现在有了 PaddleOCR-VL-1.5 之后，这些难题便迎刃而解。作为全球首个支持「异形框定位」的 OCR 模型，它能精准识别梯形、折叠、弯曲等非规则文档形态。即使文档被揉皱，或因拍摄角度导致严重变形，它也能像扫描仪一样，把表格和文本结构 “一格一格” 地精准还原出来。此外，模型还新增了「印章识别」与「跨页表格」自动合并能力，并针对生僻字、古籍及 109 种语言进行了专项优化，大幅提升了复杂业务场景下的落地稳定性。近半年来，全球 OCR 赛道竞争真的空前激烈。各大厂纷纷布局，相继推出了新一代模型，试图抢占文档解析这一高地。而百度这次发布的 PaddleOCR-VL-1.5，算是切中了开发者最头疼的痛点：解决了那些棘手的「异形文档」识别。让 OCR 不再局限于处理完美的扫描件，真正具备了在复杂业务场景下稳定干活的能力。目前模型权重已全部开源，开发者可以在 Hugging Face 上直接下载或在线体验。在线体验：https://t.co/rg5cwGjO2H 模型下载：https://t.co/7kpA9radEN

🧵 深度展开

补充 1

录屏需求很常见，但大部分录屏工具都要下载安装，切换设备使用又得重新装一遍，比较麻烦。偶然在 GitHub 上发现 Web ScreenRec 这个开源工具，直接在浏览器里就能录屏，无需安装任何软件。基于 Web 技术实现，打开网页就能用，支持同时录制屏幕画面、麦克风和系统音频。 GitHub：https://t.co/BUcK8l85lU 录制完成后，还能一键通过 FFmpeg 将录制内容转换为 MP4 格式，方便后续编辑和分享。项目支持 Docker 部署，也可以直接克隆代码在本地浏览器打开使用，跨平台通用，换台电脑也不用重新配置。
[!NOTE] 补充 2
手机里存了上千张照片，想找某张截图或文档，翻半天也找不到，只能凭印象一页页往下划，费时费力。于是找到 Tulsi Gallery 这个开源相册应用，内置离线 AI 识别功能，能直接搜索照片里的文字内容。支持 80 多种语言，包括英文、中文、印地语等常见语言，所有处理都在本地完成，不会上传任何数据。 GitHub：https://t.co/G1UMItRPP0 除了文字搜索，还能直接在照片上选中文字复制出来，像在文档里选字一样自然。集成了 Google Lens 一键识图功能，点一下就能翻译、查询信息。另外界面设计也挺用心，动态隐藏状态栏让浏览更沉浸，浮动导航栏带流畅动画效果，还有加密相册功能保护隐私照片。应用完全开源，支持 Android 11 以上系统，可以从 F-Droid、Google Play 或 GitHub 下载安装包。
[!NOTE] 补充 3
有时候，Windows 系统会在我们工作或玩游戏时，突然自动更新重启，打断手头的事情，让人措手不及。偶然 GitHub 上发现 Windows Personalization Utility 这个开源工具，能将系统更新暂停到 2051 年，把设备控制权交还给用户。提供两种使用方式：批处理工具和注册表脚本，前者功能更全面，后者无需管理员权限，一键运行即可生效。 GitHub：https://t.co/tg8cl49hAg 批处理工具除了暂停更新，还能清理更新缓存文件释放磁盘空间、备份系统注册表、移除 Windows 遥测追踪，以及管理 Copilot、Recall、Cortana 等隐私相关功能。另外内置几十项注册表优化选项，包括绕过 TPM 和 CPU 限制、显示文件扩展名、移除开始菜单推荐内容等，还能批量管理 40 多个系统预装应用和 15 个后台服务。如果你想暂时摆脱 Windows 强制更新的困扰，或者希望对系统做更深度的个性化调整，这个工具值得一试。
[!NOTE] 补充 4
想要找个好用的 AI 网页自动化工具或浏览器智能体，网上资源太分散，GitHub 上一个个项目翻过去，既费时间又容易错过好东西最近在 GitHub 上发现 Awesome Web Agents 这份精选合集，系统性地整理了各类 AI 网页智能体相关的工具、框架和资源。按照自主浏览智能体、自动化工具、爬虫工具、搜索工具等分类整理，涵盖 OpenAI Operator、Browser-Use、Skyvern 等主流项目，还包括基准测试和学习教程。 GitHub：https://t.co/Dh1dlMP2ga 收录的项目都标注了 GitHub 星标数，方便快速判断热度和活跃度，而会持续更新最新的工具和研究成果。如果你正在寻找 AI 浏览器自动化方案，或者想了解这个领域有哪些可用工具，这份合集值得收藏备用。
[!NOTE] 补充 5
想训练一个机器学习模型，需要懂算法、写代码、调参数，这些门槛直接劝退大部分人。 GitHub 上 Plexe 这个开源项目，大幅降低了门槛，然我们用自然语言描述需求，就能自动构建机器学习模型。只需要用人话说明 “想预测什么”、“输入是什么”、“输出是什么”，系统就会通过多智能体协作，自动完成数据分析、方案规划、代码生成、测试评估全流程。 GitHub: https://t.co/VnTutIt2en 支持 OpenAI、Anthropic、Ollama 等多种大语言模型提供商，还能自动推断数据结构或生成合成数据集。另外内置 Ray 分布式训练，可以并行处理多个模型方案，大幅提速。如果你想快速验证机器学习想法，或者需要给非技术团队提供建模能力，这个工具值得一试。
[!NOTE] 补充 6
看完电影《Her》，很多人都幻想拥有一个真正懂自己的 AI 伴侣，但市面上的智能音箱往往不够聪明，想自己动手做又被硬件门槛劝退。 GitHub 上的 Buddie 这个开源项目，恰好提供了一整套从硬件设计到软件应用的“全栈”解决方案。公开了完整的电路原理图、PCB 设计以及物料清单，让我们能从零打造硬件载体。 GitHub：https://t.co/dWPwcys8xz 配套了基于 Flutter 的移动端应用和嵌入式固件源码，打通了从语音采集到 AI 反馈的全流程。适合具备一定动手能力的极客朋友，参考它制作一个专属的、能时刻陪伴的 AI 语音助手。
[!NOTE] 补充 7
想要在本地运行高质量的文本转语音模型，通常离不开昂贵的显卡支持，否则就得忍受龟速的推理体验。留意到 Pocket TTS 这个开源项目，另辟蹊径地专注于 CPU 推理优化，彻底打破了硬件门槛。仅 1B 参数的轻量化模型，实现约 200ms 的首字延迟，在普通笔记本上也能跑出 6 倍实时的生成速度。 GitHub：https://t.co/asqg91INkW 支持实时流式出和声音克隆，只需提供一段音频样本，即可快速复刻目标音色。安装非常简单，通过 pip 即可部署，同时也提供了命令行工具和本地 Web 界面，开箱即用。目前虽然暂时只支持英语，但对于想在低算力设备或边缘端集成语音功能的开发者，非常值得关注。
[!NOTE] 补充 8
做数据科学项目时，我们往往把大部分时间花在清洗数据、编写重复的绘图代码上，真正用于模型调优的精力少之又少。偶然在 GitHub 发现 ai-data-science-team 这个项目，直接帮我们组建了一支全能的 “虚拟数据科学团队”。提供可视化工作流工具，通过可视化界面和 AI 配合，完成从数据加载、洗、EDA 分析到建模的全流程。内置了多个专用 Agent 分工协作，分别负责脏活累活，比如自动处理缺失值、生成特征工程代码，甚至直接调用 H2O 和 MLflow 进行机器学习建模与评估。 GitHub：https://t.co/kGLwDBJoxW 支持接入 OpenAI 或本地 Ollama 模型，无需担心数据隐私泄露，基于 Streamlit 构建，Python 环境下安装即用。目前项目还在快速迭代更新，适合想把繁琐的数据预处理工作交给 AI，从而专注于核心业务逻辑的朋友试试。
[!NOTE] 补充 9
直播或录制视频时想加上实时字幕，方便大家理解，但市面上的工具样式单一且无法修改。最近在 GitHub 上发现 Curses 这个开源工具，专为 OBS、VRChat、Twitch 和 Discord 提供语音转文字字幕，而且自定义程度非常高。支持多种语音识别引擎，包括微软 Azure、Speechly、Deepgram 和浏览器自带的 WebSpeechAPI，还能反向将文字转语音输出。 GitHub：https://t.co/Ya6tV2SKNC 字幕样式可以深度定制，颜色、字体、阴影、背景纹理、打字动画、音效、粒子特效甚至 CSS 都能调，还能直接使用 Google Fonts 的上千种免费字体。另外支持 Twitch 聊天消息作为字幕来源，可以显示 7TV、FFZ、BTTV 表情包，也能把语音识别结果发送到 Twitch 聊天或 Discord 频道。提供场景系统，可以保存多套设计方案，并在 OBS 切换场景时自动切换字幕样式，通过 obs-websocket 插件能一键完成 OBS 配置。
[!NOTE] 补充 10
处理 PDF 文件时，想转成 Markdown 方便编辑，或者导出成 Word 文档，但手头的工具要么功能单一，要么操作复杂。偶然发现 PDF3MD 这个开源工具，专门用来把 PDF 转成 Markdown 和 Word 格式，界面简洁，操作直观。基于 React 前端和 Flask 后端构建，通过拖拽上传 PDF 文件，实时显示转换进度，处理完成后可以直接复制 Markdown 内容或下载 Word 文档。 GitHub：https://t.co/TJuyqB5Ghh 支持批量上传多个 PDF 文件同时转换，会显示每个文件的原始名称、大小、页数和转换时间戳。提供 Docker 快速部署方案，执行一条命令就能在本地运行，也可以配合反向代理部署到服务器上使用。
[!NOTE] 补充 11
管理学术论文，Zotero 和 Mendeley 用起来确实顺手，但对论文的元数据抓取能力挺弱的。尤其是 NIPS、ICLR 这类没有 DOI 的论文，每次引用都得去 Google Scholar 或 DBLP 手动查找。偶然看到 Paperlib 这个开源论文管理工具，专门针对会议论文优化了元数据抓取能力。内置多个元数据抓取器，支持自定义抓取规则，针对不同学科做专门优化，还能自动定位和下载 PDF 文件。支持全文检索和高级搜索，支持评分、标记、标签、文件夹和笔记管理，还能订阅 RSS 追踪最新论文。配合插件使用，能显示引用次数、用大语言模型总结论文、自动打标签，甚至用自然语言搜索论文库，比如 “Geoffrey 在 2024 年写的论文”。提供界面简洁现代，跨平台支持云同步，写论文时还能快速复制粘贴引用格式，支持 MS Word。如果你正在做学术研究，尤其是计算机方向经常看会议论文，Paperlib 值得一试。
[!NOTE] 补充 12
团队之间协作，关键的运维命令和操作步骤散落在各自的 Slack、Notion 里，真正需要用的时候要么找不到，要么文档早就过期了。刚好看到 Atuin Desktop 这个开源工具，把文档和终端融合在一起，创建可以直接执行的运维手册。有点类似于 .ipynb 文件，每个令块都能直接运行，支持终端命令、据库查询、HTTP 请求等多种操作类型。还内置了 Jinja 风格的模板系统，可以用变量和条件逻辑创建动态工作流，同一套流程能在不同环境复用。并且基于 CRDT 技术实现本地优先架构，离线也能用，联网后自动同步到团队。如果你的团队正在 “谁记得那条命令” 困扰，或者想把散落各处的运维文档变成真正能用的自动化流程，这个工具值得一试。
[!NOTE] 补充 13
在日常的安全运维工作中，不同工具之间的联动配置繁琐，告警响应流程需要手动操作多个平台，效率低容易出错。 GitHub 上 Shuffle 这个开源的安全自动化编排平台，专为安全团队和托管服务商设计，让复杂的安全运维变得简单高效。通过可视化工作流编辑器，拖拽即可串联各类安全工具，无需编写代码就能实现告警自动分析、威胁情报查询、事件响应等自动化流程。内置丰富的安全工具应用库，支持 VirusTotal、TheHive、MISP 等主流工具集成，还能通过 OpenAPI 规范快速创建自定义应用。此外，还提供组织和子组织管理功能，适合多租户场景，并支持本地部署和云端服务两种方式。如果你正在寻找一个开源的安全编排自动化响应平台，或者想把团队从重复的手工操作中解放出来，Shuffle 值得一试。
[!NOTE] 补充 14
如今 AI 写代码、画图、陪聊样样精通，但发现有个问题，想要使用它们，始终需要到一个网页或一个客户端里。每当我们想让它帮忙解决工作上问题，或者与它讨论需求方案，总得打开对应的 AI 窗口，在不同界面之间来回切换，颇为麻烦。恰巧，在 GitHub 上发现一个爆火的开源项目 Clawdbot，正好解决了这个痛点，短短几天里，暴涨了 20000+ Star。 GitHub：https://t.co/1ZmpOK4aPn 那些简单的 AI 聊天助手有所不同，Clawdbot 是一个能完全本地运行、拥有“四肢”的私人 AI 助手。它内置了浏览器控制、Canvas 画布、定时任务等工具，可以像真人一样，自动化浏览网页、填写表单、读写文件、甚至执行 Shell 命令。我们可以给它配上 Gemini、Claude 这些主流的大模型，并且能将它接入到各种社交聊天工具里。这样，我们就可以在这些聊天应用里，直接给它下达命令，让它去帮我自动化执行任务，无需再频繁切换应用。项目提供向导式安装流程，通过一行命令即可快速部署，可以跑在本地 Mac 上，也能部署到 Linux 服务器远程访问。
[!NOTE] 补充 15
有时候看到图片、视频或某些应用界面里的文字，想要复制出来却无法选中，只能手动敲，果是长段文字更让人头疼。最近在 GitHub 上发现 Text Grab 这个开源 OCR 工具，能把屏幕上任何可见文字直接提取出来复制使用。基于 Windows 自带的 OCR 引擎，本地识别无需联网，也不用常驻后台进程，随用随开，识别速度很快。提供四种使用模式：全屏截取模式，框选区域或单击词语即可识别；悬浮框模式，可固定在任意位置持续识别；文本编辑窗口，集成多种文本处理工具；快速查询模式，存储常用文本快速调用。此外，还支持命令行调用，可以直接 OCR 图片文件或批量处理文件夹内的所有图片。有需要的朋友，可以在微软商店或 GitHub 下载安装，也支持通过 scoop 和 choco 包管理器安装。

元数据

作者：GitHub_Daily | 标签：OCR AI 开源工具机器学习生产力

MiroFish，只需上传任意内容作为“种子”，AI 便会自动构建出多个拥有独立人设与记忆的智能体。

GitHub：https://t.co/r1YvcCykjV

在模拟世界里疯狂博弈、演化，涌现出无数种可能的时间线，最终生成详尽的推演报告。

元数据
• 类型：推文
• 标签：#工具
• 收藏夹：其他 → X Posts/其他