
这篇文章的诞生过程本身就挺离谱——我对接的 GLM-5.2 是个看不了图的国产模型但我让它自己开浏览器、自己截图、自己看页面、自己抓数据最后自己写出了这份知乎变现分析报告。全程我没敲一行代码。怎么做到的先卖个关子。文末会告诉你这套方案藏在哪。一、一个让人崩溃的痛点最近在折腾 AI Agent对接的是国产模型 GLM-5.2。便宜、快、上下文长但有一个致命问题它是个瞎子。你试过就知道了让它看一张 UI 截图 → “我无法识别图片内容”让它去网页上点个按钮 → 它只会curl拿不到 JS 渲染后的东西让它分析一个网页长什么样 → 它只能靠 DOM 文本猜看不见真实视觉让它读 K 线图、看表格截图、识别验证码 → 全部歇菜Claude Code 本身是好东西但当你为了成本/合规接入国产非多模态模型时看不了图这个坑能把人逼疯。我之前写过几个 Agent都在看图这一步卡死。直到有一天我灵光一闪——既然主模型看不了图那我给它配一双外接眼睛不就行了二、我让它干了一件离谱的事为了验证方案跑通了我没写测试用例直接给它出了道题“打开知乎网站探索一下能发掘什么赚钱路子吗”接下来发生的事我全程没动键盘。它自己打开 Chrome 浏览器导航到知乎首页自己截了张图存到本地调用视觉模型看了这张图识别出首页有盐言作者平台“付费咨询”知乎知学堂三个变现入口自己点进盐言作者平台截图 → 看图 → 发现累计发放稿费破亿跳到付费咨询页截图 → 看图 → 拿到平台抽成 30%跳到知乎热榜自己写 JavaScript 注入页面抓出了 Top 15 话题的真实热度数据综合分析所有信息给我输出了一份完整的变现路径分析它给我的报告里有这样的数据排名话题热度1世界杯32强对阵出炉1076万2网红诋毁袁隆平成果1059万3韩国队无缘世界杯淘汰赛1007万这些数据是 JS 动态渲染的curl根本拿不到。它自己想办法抓出来了。最后它给我的结论是知乎日活还在千万级AI 方向能进热榜最值得做的是盐言故事投稿。整个过程我只说了两句话。第一句打开知乎第二句探索赚钱路子。三、这不是调个 API那么简单很多人会想不就是接个视觉模型 API 吗没那么简单。从截图存哪到怎么强制主模型走视觉链路从视觉模型选哪个到浏览器怎么控再到多模型怎么协作——中间隔着至少 5 个大坑每一个都能让你折腾半天。这套方案我断断续续折腾了很久才跑通。跑通的那一刻我才意识到——这玩意儿的价值不在于看图而在于让任意非多模态模型瞬间拥有完整的视觉 浏览器操控能力。具体踩了哪些坑、怎么解决的后面我会单独写文章拆开讲。四、这套方案能干什么跑通之后我发现它能做的事远不止探索网站场景怎么用AI 自动化测试截图 → 看页面 → 点按钮 → 验证结果网页 UI 调试截图 → 描述视觉 bug → 定位元素 → 改代码数据爬取看表格结构 → 抓 DOM → 转结构化数据流程自动化像本文 demo 一样全自动探索任意网站截图分析工作流落盘 → 看图 → 决策 → 执行凡是看图 操控浏览器的场景这套方案都能套。五、为什么我不直接用多模态模型三个理由成本— 接入 GLM-5.2、DeepSeek 等国产非多模态模型本身就很便宜视觉能力按需调用便宜的视觉模型不用为每一次对话都付多模态溢价可定制— 主模型和视觉模型都可以随意换改一行配置即可合规— 很多场景要求数据不出境国产模型 国产视觉模型是刚需六、写在最后这篇文章只是个 demo 预告。如果你也被国产模型看不了图坑过你大概会想知道这套方案到底怎么落地——具体怎么实现的MCP 怎么写、规则怎么配、多模型怎么串、踩了哪些坑我会在后续文章里慢慢拆开讲。如果你也在折腾 Claude Code / AI Agent / 国产模型关注我后续更新第一时间通知。附录这次 demo 的成果展示这次对话我让它输出了完整的分析报告包括知乎 3 个官方变现入口的调研结果知乎热榜 Top 15 真实热度数据流量结构分析哪些赛道还有流量变现路径优先级建议全程 0 行手敲代码纯对话驱动。这就是 AI Agent 该有的样子。