又一个可以预测股价走势的 AI 项目,在 GitHub 上开源了。

原推文https://x.com/i/status/2011015425493176734
作者:@GitHub_Daily
时间:2026-1-14 07:34:43

💡 核心观点

就在刚刚,百度重磅开源了新一代文档解析模型:PaddleOCR-VL-1.5。 仅 0.9B 参数,登顶 OmniDocBench V1.5 全球榜单,综合性能超越 Gemini-3-Pro、DeepSeek-OCR-2、GPT-5.2 模型。 GitHub:https://t.co/wfBarR8nkI 日常工作生活里,我们用手机随手拍摄的合同或发票照片,往往会出现倾斜、弯曲,甚至变形的情况。 使用传统的 OCR 工具进行识别,经常会出现内容缺失,甚至完全无法识别的问题。 现在有了 PaddleOCR-VL-1.5 之后,这些难题便迎刃而解。 作为全球首个支持「异形框定位」的 OCR 模型,它能精准识别梯形、折叠、弯曲等非规则文档形态。 即使文档被揉皱,或因拍摄角度导致严重变形,它也能像扫描仪一样,把表格和文本结构 “一格一格” 地精准还原出来。 此外,模型还新增了「印章识别」与「跨页表格」自动合并能力,并针对生僻字、古籍及 109 种语言进行了专项优化,大幅提升了复杂业务场景下的落地稳定性 。 近半年来,全球 OCR 赛道竞争真的空前激烈。各大厂纷纷布局,相继推出了新一代模型,试图抢占文档解析这一高地。 而百度这次发布的 PaddleOCR-VL-1.5,算是切中了开发者最头疼的痛点:解决了那些棘手的「异形文档」识别。 让 OCR 不再局限于处理完美的扫描件,真正具备了在复杂业务场景下稳定干活的能力 。 目前模型权重已全部开源,开发者可以在 Hugging Face 上直接下载或在线体验。 在线体验:https://t.co/rg5cwGjO2H 模型下载:https://t.co/7kpA9radEN

🧵 深度展开

补充 1

录屏需求很常见,但大部分录屏工具都要下载安装,切换设备使用又得重新装一遍,比较麻烦。 偶然在 GitHub 上发现 Web ScreenRec 这个开源工具,直接在浏览器里就能录屏,无需安装任何软件。 基于 Web 技术实现,打开网页就能用,支持同时录制屏幕画面、麦克风和系统音频。 GitHub:https://t.co/BUcK8l85lU 录制完成后,还能一键通过 FFmpeg 将录制内容转换为 MP4 格式,方便后续编辑和分享。 项目支持 Docker 部署,也可以直接克隆代码在本地浏览器打开使用,跨平台通用,换台电脑也不用重新配置。
[!NOTE] 补充 2
手机里存了上千张照片,想找某张截图或文档,翻半天也找不到,只能凭印象一页页往下划,费时费力。 于是找到 Tulsi Gallery 这个开源相册应用,内置离线 AI 识别功能,能直接搜索照片里的文字内容。 支持 80 多种语言,包括英文、中文、印地语等常见语言,所有处理都在本地完成,不会上传任何数据。 GitHub:https://t.co/G1UMItRPP0 除了文字搜索,还能直接在照片上选中文字复制出来,像在文档里选字一样自然。集成了 Google Lens 一键识图功能,点一下就能翻译、查询信息。 另外界面设计也挺用心,动态隐藏状态栏让浏览更沉浸,浮动导航栏带流畅动画效果,还有加密相册功能保护隐私照片。 应用完全开源,支持 Android 11 以上系统,可以从 F-Droid、Google Play 或 GitHub 下载安装包。
[!NOTE] 补充 3
有时候,Windows 系统会在我们工作或玩游戏时,突然自动更新重启,打断手头的事情,让人措手不及。 偶然 GitHub 上发现 Windows Personalization Utility 这个开源工具,能将系统更新暂停到 2051 年,把设备控制权交还给用户。 提供两种使用方式:批处理工具和注册表脚本,前者功能更全面,后者无需管理员权限,一键运行即可生效。 GitHub:https://t.co/tg8cl49hAg 批处理工具除了暂停更新,还能清理更新缓存文件释放磁盘空间、备份系统注册表、移除 Windows 遥测追踪,以及管理 Copilot、Recall、Cortana 等隐私相关功能。 另外内置几十项注册表优化选项,包括绕过 TPM 和 CPU 限制、显示文件扩展名、移除开始菜单推荐内容等,还能批量管理 40 多个系统预装应用和 15 个后台服务。 如果你想暂时摆脱 Windows 强制更新的困扰,或者希望对系统做更深度的个性化调整,这个工具值得一试。
[!NOTE] 补充 4
想要找个好用的 AI 网页自动化工具或浏览器智能体,网上资源太分散,GitHub 上一个个项目翻过去,既费时间又容易错过好东西 最近在 GitHub 上发现 Awesome Web Agents 这份精选合集,系统性地整理了各类 AI 网页智能体相关的工具、框架和资源。 按照自主浏览智能体、自动化工具、爬虫工具、搜索工具等分类整理,涵盖 OpenAI Operator、Browser-Use、Skyvern 等主流项目,还包括基准测试和学习教程。 GitHub:https://t.co/Dh1dlMP2ga 收录的项目都标注了 GitHub 星标数,方便快速判断热度和活跃度,而会持续更新最新的工具和研究成果。 如果你正在寻找 AI 浏览器自动化方案,或者想了解这个领域有哪些可用工具,这份合集值得收藏备用。
[!NOTE] 补充 5
想训练一个机器学习模型,需要懂算法、写代码、调参数,这些门槛直接劝退大部分人。 GitHub 上 Plexe 这个开源项目,大幅降低了门槛,然我们用自然语言描述需求,就能自动构建机器学习模型。 只需要用人话说明 “想预测什么”、“输入是什么”、“输出是什么”,系统就会通过多智能体协作,自动完成数据分析、方案规划、代码生成、测试评估全流程。 GitHub: https://t.co/VnTutIt2en 支持 OpenAI、Anthropic、Ollama 等多种大语言模型提供商,还能自动推断数据结构或生成合成数据集。 另外内置 Ray 分布式训练,可以并行处理多个模型方案,大幅提速。 如果你想快速验证机器学习想法,或者需要给非技术团队提供建模能力,这个工具值得一试。
[!NOTE] 补充 6
看完电影《Her》,很多人都幻想拥有一个真正懂自己的 AI 伴侣,但市面上的智能音箱往往不够聪明,想自己动手做又被硬件门槛劝退。 GitHub 上的 Buddie 这个开源项目,恰好提供了一整套从硬件设计到软件应用的“全栈”解决方案。 公开了完整的电路原理图、PCB 设计以及物料清单,让我们能从零打造硬件载体。 GitHub:https://t.co/dWPwcys8xz 配套了基于 Flutter 的移动端应用和嵌入式固件源码,打通了从语音采集到 AI 反馈的全流程。 适合具备一定动手能力的极客朋友,参考它制作一个专属的、能时刻陪伴的 AI 语音助手。
[!NOTE] 补充 7
想要在本地运行高质量的文本转语音模型,通常离不开昂贵的显卡支持,否则就得忍受龟速的推理体验。 留意到 Pocket TTS 这个开源项目,另辟蹊径地专注于 CPU 推理优化,彻底打破了硬件门槛。 仅 1B 参数的轻量化模型,实现约 200ms 的首字延迟,在普通笔记本上也能跑出 6 倍实时的生成速度。 GitHub:https://t.co/asqg91INkW 支持实时流式出和声音克隆,只需提供一段音频样本,即可快速复刻目标音色。 安装非常简单,通过 pip 即可部署,同时也提供了命令行工具和本地 Web 界面,开箱即用。 目前虽然暂时只支持英语,但对于想在低算力设备或边缘端集成语音功能的开发者,非常值得关注。
[!NOTE] 补充 8
做数据科学项目时,我们往往把大部分时间花在清洗数据、编写重复的绘图代码上,真正用于模型调优的精力少之又少。 偶然在 GitHub 发现 ai-data-science-team 这个项目,直接帮我们组建了一支全能的 “虚拟数据科学团队”。 提供可视化工作流工具,通过可视化界面和 AI 配合,完成从数据加载、洗、EDA 分析到建模的全流程。 内置了多个专用 Agent 分工协作,分别负责脏活累活,比如自动处理缺失值、生成特征工程代码,甚至直接调用 H2O 和 MLflow 进行机器学习建模与评估。 GitHub:https://t.co/kGLwDBJoxW 支持接入 OpenAI 或本地 Ollama 模型,无需担心数据隐私泄露,基于 Streamlit 构建,Python 环境下安装即用。 目前项目还在快速迭代更新,适合想把繁琐的数据预处理工作交给 AI,从而专注于核心业务逻辑的朋友试试。
[!NOTE] 补充 9
直播或录制视频时想加上实时字幕,方便大家理解,但市面上的工具样式单一且无法修改。 最近在 GitHub 上发现 Curses 这个开源工具,专为 OBS、VRChat、Twitch 和 Discord 提供语音转文字字幕,而且自定义程度非常高。 支持多种语音识别引擎,包括微软 Azure、Speechly、Deepgram 和浏览器自带的 WebSpeechAPI,还能反向将文字转语音输出。 GitHub:https://t.co/Ya6tV2SKNC 字幕样式可以深度定制,颜色、字体、阴影、背景纹理、打字动画、音效、粒子特效甚至 CSS 都能调,还能直接使用 Google Fonts 的上千种免费字体。 另外支持 Twitch 聊天消息作为字幕来源,可以显示 7TV、FFZ、BTTV 表情包,也能把语音识别结果发送到 Twitch 聊天或 Discord 频道。 提供场景系统,可以保存多套设计方案,并在 OBS 切换场景时自动切换字幕样式,通过 obs-websocket 插件能一键完成 OBS 配置。
[!NOTE] 补充 10
处理 PDF 文件时,想转成 Markdown 方便编辑,或者导出成 Word 文档,但手头的工具要么功能单一,要么操作复杂。 偶然发现 PDF3MD 这个开源工具,专门用来把 PDF 转成 Markdown 和 Word 格式,界面简洁,操作直观。 基于 React 前端和 Flask 后端构建,通过拖拽上传 PDF 文件,实时显示转换进度,处理完成后可以直接复制 Markdown 内容或下载 Word 文档。 GitHub:https://t.co/TJuyqB5Ghh 支持批量上传多个 PDF 文件同时转换,会显示每个文件的原始名称、大小、页数和转换时间戳。 提供 Docker 快速部署方案,执行一条命令就能在本地运行,也可以配合反向代理部署到服务器上使用。
[!NOTE] 补充 11
管理学术论文,Zotero 和 Mendeley 用起来确实顺手,但对论文的元数据抓取能力挺弱的。 尤其是 NIPS、ICLR 这类没有 DOI 的论文,每次引用都得去 Google Scholar 或 DBLP 手动查找。 偶然看到 Paperlib 这个开源论文管理工具,专门针对会议论文优化了元数据抓取能力。 内置多个元数据抓取器,支持自定义抓取规则,针对不同学科做专门优化,还能自动定位和下载 PDF 文件。 支持全文检索和高级搜索,支持评分、标记、标签、文件夹和笔记管理,还能订阅 RSS 追踪最新论文。 配合插件使用,能显示引用次数、用大语言模型总结论文、自动打标签,甚至用自然语言搜索论文库,比如 “Geoffrey 在 2024 年写的论文”。 提供界面简洁现代,跨平台支持云同步,写论文时还能快速复制粘贴引用格式,支持 MS Word。 如果你正在做学术研究,尤其是计算机方向经常看会议论文,Paperlib 值得一试。
[!NOTE] 补充 12
团队之间协作,关键的运维命令和操作步骤散落在 各自的 Slack、Notion 里,真正需要用的时候要么找不到,要么文档早就过期了。 刚好看到 Atuin Desktop 这个开源工具,把文档和终端融合在一起,创建可以直接执行的运维手册。 有点类似于 .ipynb 文件,每个令块都能直接运行,支持终端命令、据库查询、HTTP 请求等多种操作类型。 还内置了 Jinja 风格的模板系统,可以用变量和条件逻辑创建动态工作流,同一套流程能在不同环境复用。 并且基于 CRDT 技术实现本地优先架构,离线也能用,联网后自动同步到团队。 如果你的团队正在 “谁记得那条命令” 困扰,或者想把散落各处的运维文档变成真正能用的自动化流程,这个工具值得一试。
[!NOTE] 补充 13
在日常的安全运维工作中,不同工具之间的联动配置繁琐,告警响应流程需要手动操作多个平台,效率低容易出错。 GitHub 上 Shuffle 这个开源的安全自动化编排平台,专为安全团队和托管服务商设计,让复杂的安全运维变得简单高效。 通过可视化工作流编辑器,拖拽即可串联各类安全工具,无需编写代码就能实现告警自动分析、威胁情报查询、事件响应等自动化流程。 内置丰富的安全工具应用库,支持 VirusTotal、TheHive、MISP 等主流工具集成,还能通过 OpenAPI 规范快速创建自定义应用。 此外,还提供组织和子组织管理功能,适合多租户场景,并支持本地部署和云端服务两种方式。 如果你正在寻找一个开源的安全编排自动化响应平台,或者想把团队从重复的手工操作中解放出来,Shuffle 值得一试。
[!NOTE] 补充 14
如今 AI 写代码、画图、陪聊样样精通,但发现有个问题,想要使用它们,始终需要到一个网页或一个客户端里。 每当我们想让它帮忙解决工作上问题,或者与它讨论需求方案,总得打开对应的 AI 窗口,在不同界面之间来回切换,颇为麻烦。 恰巧,在 GitHub 上发现一个爆火的开源项目 Clawdbot,正好解决了这个痛点,短短几天里,暴涨了 20000+ Star。 GitHub:https://t.co/1ZmpOK4aPn 那些简单的 AI 聊天助手有所不同,Clawdbot 是一个能完全本地运行、拥有“四肢”的私人 AI 助手。 它内置了浏览器控制、Canvas 画布、定时任务等工具,可以像真人一样,自动化浏览网页、填写表单、读写文件、甚至执行 Shell 命令。 我们可以给它配上 Gemini、Claude 这些主流的大模型,并且能将它接入到各种社交聊天工具里。 这样,我们就可以在这些聊天应用里,直接给它下达命令,让它去帮我自动化执行任务,无需再频繁切换应用。 项目提供向导式安装流程,通过一行命令即可快速部署,可以跑在本地 Mac 上,也能部署到 Linux 服务器远程访问。
[!NOTE] 补充 15
有时候看到图片、视频或某些应用界面里的文字,想要复制出来却无法选中,只能手动敲,果是长段文字更让人头疼。 最近在 GitHub 上发现 Text Grab 这个开源 OCR 工具,能把屏幕上任何可见文字直接提取出来复制使用。 基于 Windows 自带的 OCR 引擎,本地识别无需联网,也不用常驻后台进程,随用随开,识别速度很快。 提供四种使用模式:全屏截取模式,框选区域或单击词语即可识别;悬浮框模式,可固定在任意位置持续识别;文本编辑窗口,集成多种文本处理工具;快速查询模式,存储常用文本快速调用。 此外,还支持命令行调用,可以直接 OCR 图片文件或批量处理文件夹内的所有图片。 有需要的朋友,可以在微软商店或 GitHub 下载安装,也支持通过 scoop 和 choco 包管理器安装。


元数据

作者:GitHub_Daily | 标签:OCR AI 开源工具 机器学习 生产力

MiroFish,只需上传任意内容作为“种子”,AI 便会自动构建出多个拥有独立人设与记忆的智能体。

GitHub:https://t.co/r1YvcCykjV

在模拟世界里疯狂博弈、演化,涌现出无数种可能的时间线,最终生成详尽的推演报告。

封面


元数据
• 类型:推文
• 标签:#工具
• 收藏夹:其他 → X Posts/其他