泡泡资讯网

这问题怎么解决?

这两天刷开发者社区,发现一个挺有意思的现象。

很多人开始折腾OpenClaw、搭Agent workflow、接各种Skill。
看起来挺热闹,但真正做起来,很快就会卡在一个地方:

Agent其实很多时候是“看不见东西”的。

原因很简单。

真实世界的大量信息并不是结构化数据,而是藏在各种文档里:

发票,PDF,合同,扫描件,截图,表格

这些东西,人看一眼就明白,但如果Agent没有文档解析能力,它其实根本处理不了。

所以很多开发者最近都在补一块能力:
让Agent看懂文档。

最近看到一个动作还挺典型。

基于文心大模型体系训练的文心衍生模型PaddleOCR文档解析能力,已经作为Skill上架到了OpenClaw的ClawHub。

简单理解就是:
Agent workflow里现在可以直接调用这套文档解析能力。

比如:
拍张发票
→ 自动识别金额、时间、抬头
→ 输出结构化信息

或者:
丢一份PDF
→ 自动提取关键信息
→ 进入后续自动化流程。

这种能力以前很多人都是自己接OCR接口、再自己做解析,现在直接一个Skill就能用。

其实这背后反映的是一个更大的变化:
文心能力正在以组件形式进入Agent工具生态。

大模型负责理解和推理,
工具负责执行能力。

而像PaddleOCR这种文档解析,本质上就是在给Agent补“视觉能力”。

这套东西在开发者社区里本来就挺有存在感:

GitHub 70k+ star
支持110+语言识别
能解析表格、公式、复杂文档结构。

新一代模型甚至可以处理:
歪着拍的文档
弯折扫描件
复杂版面。

很多现实业务里那些乱七八糟的材料,它基本都能读出来。

当这些能力被做成Skill接进Agent生态,其实意味着一件事:
Agent开始真正能处理现实世界的数据,而不只是聊天。