桌面Agent爆发,阿里QoderWork能干杂活,但只有实习生水平

雷科技·2026年06月10日 21:29
写文章、做 PPT、搞网页,样样拿捏。

「AI 实习生,正式上岗了。」

不久前,阿里正式推出 QoderWork ,根据原本的 Qoder 代码 Agent 能力,整体扩展到日常办公场景之后的产物。它的核心诉求只有一个,那就是桌面 AI 不应该停留在「回答问题」,而应该开始「完成工作」。

(图源: QoderWork)

这听起来很耳熟,腾讯的 Mavis、月之暗面的 KimiWork,第三方大神做的 DeepSeek GUI 等等,其实做的都是同一件事——「干翻 Codex」。 QoderWork 主打的东西也是很熟悉了,文件整理、数据分析、文档生成、研究整合、浏览器自动化,全包。

当然,相比起 Codex,这类 Agent 最大的优势自然是接地气, QoderWork 底层模型跑的是千问,目前 Qwen 3.7 Max 限时 15 天免费使用,还是非常良心的。

其实呢,这两个月时间「桌面 AI Agent」这个词已经被说烂了,都说要把自己这能干活,但到底是不是呢?以下是雷科技体验完 QoderWork 后的结论。

QoderWork 长得就不像聊天机器人,这很重要

QoderWork 和大多数 AI 工具的使用方式差别比较大,比如千问的网页端,一般都是你问一句,它答一句,记录在聊天记录里。QoderWork 的逻辑是任务,你发起一个目标,它把这个目标拆成若干执行步骤,跑完之后把产物落成文件,任务全程保留在任务列表里,可以回溯、可以继续、可以监控——跟悟空更像一些。

听起来这好像也没什么区别,但实际上差别还挺大的。以我们这次实测的某个任务为例,任务模式下,「苹果 WWDC2026 文章」「雷科技商务介绍 PPT」「IFA 2026 专题网页」都作为项目挂在左侧列表,点进去可以查看执行步骤、查看产物文件,也可以在原来的对话里继续调整。如果只是 AI 聊天,那聊完就算了,你得到了一些回答,仅此而已。

(图源:雷科技制图)

QoderWork 的右边设计了「任务监控」区域,它会显示待办步骤、最终文件、工作文件,以及调用过的技能和 MCP 能力。在第一轮文章任务里,任务监控列出了「研究雷科技写作风格-搜集 WWDC 2026 信息-提出选题角度并选定方向-撰写完整文章-生成 Word 文档」这整条执行链路。至少能让用户大概知道 AI 在每个阶段干了什么。

(图源:雷科技制图)

功能层面,QoderWork 有「专家套件」「技能市场」「定时任务」「应用快照」。其中,专家套件的逻辑是面向岗位打包能力,法律、产品、合同、投研、财税,安装完整套装就能直接用,不用自己拼工具。技能市场更接近插件机制,深入研究、数据分析、PPT 生成、Notion 信息图都在里面。第二轮 PPT 测试里,QoderWork 主动调用了 PPT 技能,又在发现系统缺少 Node.js 环境时主动询问用户是否安装依赖。这个行为说明,它有主动补齐工具链的意识,会把任务推进到最终文件。

(图源:雷科技制图)

定时任务就很好理解了,它提供的案例,比如「午间充电站」「每周竞品动态追踪」「每日下载文件夹清理」「每日数据报表更新」,这些任务可以设置成定期自动执行。如果稳定可用,它比普通聊天助手更容易产生长期价值。值得注意的是,目前这些定时任务需要电脑保持唤醒才能执行,断网或者关闭屏幕,就会失效。

(图源:雷科技制图)

另外,应用快照这种新潮功能也同步上线在 QoderWork 上。简单来说,它可以把最前方的应用界面捕获为截图和可读文本上下文,让 QoderWork「看见」用户当前正在用的界面。这是桌面 Agent 真正区别于网页 AI 工具的地方,也是权限门槛最高的地方。开启后需要授予 QoderWork Computer Use、屏幕录制和辅助功能权限,macOS 上首次授权流程可能需要一段时间。

(图源:雷科技制图)

整体来看,作为版本号还在「0.5」的一个桌面级 Agent, QoderWork 该有的功能基本上都有了,技能、任务也给了很丰富的选择,任务链、思考流程也很完善。更值得赞的还是限时免费的 Qwen 3.7 Max,这可能是目前最强的代码模型之一了。

写文章、做 PPT、搞网页,这个Agent真能干活

我们给它设计了三类测试,尽量贴近科技媒体编辑部的实际工作需求。第一轮,让它学习雷科技的写作风格,完全自动化地写一篇苹果 WWDC 2026 的文章,并生成 Word 文档;第二轮,让它从 0 开始制作一份雷科技的商务介绍 PPT;第三轮,让它做一个 IFA 2026 展会报道专题网页,代码、交互、响应式一个都不能漏。

第一轮:写文章报道 WWDC,结果事实有点纰漏。

第一轮任务是让 QoderWork 研究雷科技官网最近文章的写作风格,整理苹果 WWDC 2026 的重点信息,完成一篇符合雷科技风格的稿件,并生成 Word 文档。资料搜索、风格识别、选题判断、长文写作和文档交付,基本上是一个编辑助理的完整工作链路。

QoderWork 完整跑通了,它分析雷科技写作风格,搜集 WWDC 2026 信息,给出三个选题角度,等用户确认方向之后继续撰写,最后生成 Word 文档。这个「等用户确认」的动作值得特别说,它在关键决策节点上停下来,没有擅自推进,说明它在一定程度上具备「可控执行」的意识。

(图源:雷科技制图)

最终产出的文章,标题是《Siri 换脑重生!苹果 WWDC 2026 最大的悬念:补课两年,AI 这仗还能打赢吗?》,正文约 3500 字,包含导语、小标题、观点判断和结尾互动。它努力写成了一篇有立场的科技媒体稿,有短句开头、口语化判断,也有围绕核心问题的结构。

但问题很明显。文章里出现了一些需要强来源支撑的信息,包括「每年 10 亿美元」「1.2 万亿参数 Gemini」「macOS Golden Gate」「放弃 Intel Mac 支持」「第三方 AI 模型作为默认对话引擎」。这些内容没有可靠的公开来源就写进正文,是非常典型的 AI 写稿问题,成稿看起来像样,不代表事实可靠。对科技媒体来说,这一点非常要命。

(图源:雷科技制图)

风格模仿上,「小雷哔哔」「苹果终于急了」「慢如蜗牛」「掰开揉碎了聊」这类表达密度明显偏高,更像是在刻意 cosplay 风格,而不是真正内化了那种有判断力、有信息密度的写法。真正可发的稿子,应该把口语感压一点,把判断和信息量抬高一点。

(图源:雷科技制图)

第一轮其实可以给到 7.5 分,毕竟它能完成编辑助理级别的完整工作流,但还不能当责任编辑,因为事实核验和风险判断仍然需要人工把关。

第二轮:PPT确实做出来了,但审美差强人意。

第二轮任务是让 QoderWork 从 0 开始做一份介绍雷科技的商务 PPT,假设受众是潜在合作伙伴,要求它搜索公开资料,整理媒体定位、内容方向、受众和合作价值,并生成可打开的 PPT 文件。

(图源:雷科技制图)

过程中发生了一件很能说明 QoderWork 能力边界的事:它发现系统缺少 Node.js 和 npm 环境,于是向用户请求安装 Node.js v20 LTS,获得允许后自己下载安装依赖,又继续安装 PPT 技能所需 npm 包,最后生成文件。普通 AI 聊天工具遇到环境缺失时通常停在「建议层」,告诉你该安装什么,但不会自己推进。QoderWork 会主动尝试补齐工具链,把任务真正推进到文件生成,这是一个质的差别。

(图源:雷科技制图)

最终产物是《雷科技商务介绍.pptx》,共 13 页,结构包含封面、目录、雷科技是谁、我们关注什么、内容优势与影响力、为什么值得合作、合作方式和致谢页。PPT 知道这是给合作伙伴看的商务材料,结构逻辑是对的,封面和版式也有一定设计感,卡片、章节页、数据高亮页基本完整。作为 15 分钟左右生成的初稿,效率没话说。

(图源:雷科技制图)

但它最遗憾的问题,是商务 PPT 第一页最重要的东西缺失了:雷科技真实的 logo。它用了生成插画或泛科技视觉代替。说实话,没有公司 logo 对于一份商业合作介绍 PPT 来说,还挺不专业的。

另外就是,目录页还出现了模板残留的「05 I am the chapter name」,最后一页用了英文「Thank you!」,这些是非常低级但非常明显的瑕疵,说明它虽然声称验证了 PPT,但实际上没有做到逐页检查。PPT 内使用的「全平台粉丝 600 万+」「AWE 单次报道阅读 900 万+」等数据,声称来自公开资料,但没有任何脚注或来源说明,用在商务材料里需要重新核实。

(图源:雷科技制图)

第二轮也是 7.5 分。它确实从 0 到 1 做出了可打开、结构完整、有视觉设计的文件,但距离「可以直接发给客户」,其实还是有点距离,不过考虑到目前几乎所有 Agent 做 PPT 都没办法抽一次卡就达到 100% 满意,这个效果尚可接受。

第三轮:做一个展会专题网页,这回完成度很高。

不愧是 Qwen 3.7 Max,这第三轮做一个专题页的效果,确实很牛。

第三轮任务是让 QoderWork 为雷科技做一个 IFA 2026 展会报道专题网页。要求它参考雷科技官网展会专题页,但不照搬设计,页面需要包含首屏大标题、展会导语、重点报道、现场快讯、图集、深度评论、展品分类,用 HTML、CSS 和 JavaScript 生成可本地打开的静态网页。

(图源:雷科技制图)

先检查我们的需求它有没有做到,页面包含 7 个 section:首屏、导语、重点报道、展品速览、现场快讯、图集、深度评论。导航栏可以跳转,卡片有 hover 效果,展品分类支持「全部、AI 硬件、智能汽车、智能家居、手机数码、机器人」的切换。桌面端和 390px 手机宽度下没有横向溢出,也没有控制台报错,移动端切换了汉堡菜单,页面主体能正常显示。0 出错,太完美了。

(图源:雷科技制图)

深色科技风、蓝色高亮、固定导航、几何装饰元素和卡片布局基本完整。更重要的是,它写了真实可运行的代码,功能能跑、交互能触发,而不是生成了一张截图。这一轮最接近「桌面 Agent 帮用户完成一个前端任务」的预期,也是 QoderWork 在三轮测试里表现最扎实的一次。

硬要挑刺的话,还是没有用真实 logo,用了蓝色方块加「L」代替,demo 可以接受,真实上线的版本当然不可以被接受。而且图集和产品视觉大量使用 emoji 代替,机器人、汽车、手机、耳机一排排摆着,因为目前没有上线真实的内容,所以它找了一些乱七八糟的文章来填充,做法是可以被认可的,但就是不太美观。

(图源:雷科技制图)

第三轮的话,我觉得可以给到 8 分,它证明了 QoderWork 在静态网页生成上已经比写稿和 PPT 更接近可交付状态。

这三轮体验下来,可以明显感觉到 QoderWork 的确已经实现了从「只会回答」到「能干活」的阶段性跨越,但目前成品的质量可能需要多抽几次卡,多调整一下才能投入到工作流。

国产桌面 Agent,依然只是“实习生”水平

桌面 AI Agent 这件事,最近一年被说了很多次,但真正能让人觉得「它在替我完成工作,而不是在协助我工作」的产品,其实还很少。QoderWork 做到了吗?三轮测试给出的答案是,已经很接近,但完全解放双手还不可能。

这件事的本质其实是一个权力与责任的问题。普通 AI 聊天工具的逻辑是「我给你建议,你来决定」,用户拿到的是一段文字,然后自己决定要不要做。QoderWork 试图改变的是「我直接交付成品,你来使用或者调整」。这一步的跨度,比表面上看起来要大得多。因为「交付成品」意味着 AI 要对内容质量负责,事实准不准确、格式合不合规,而且一旦发生错误,很可能要推倒重来。

(图源:雷科技制图)

QoderWork 目前解决了「从 0 到有初稿」的问题,但还没有解决「从初稿到直接能用」的问题。当然,退一万步来讲,正如上文提说到,现在还没有哪个 Agent 能够说自己 100% 命中,一次抽卡就给出能用的成品。

所以,我们更愿意称 QoderWork 是桌面的「AI 实习生」,它能干活,但未必干得好,它能省去很多刚开始的时间成本,比如写一篇文章,你至少不用一点点收集资料。至于它什么时候能从「能做初稿」进化到「可以放心交付」?这或许就要交给时间去见证了。

本文来自“雷科技”,36氪经授权发布。

+1
21

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业