ArchSight AIOS 开源:面向建筑 AI 研发的 AI Coding 与多 Agent 项目治理底座

最近,ArchSight Labs 开源了一个新项目:ArchSight AIOS

项目地址:https://github.com/ArchSightLabs/archsight-aios npm 包地址:https://www.npmjs.com/package/@archsight/aios

它不是聊天机器人,也不是一个简单的 Prompt 集合,而是一套面向 AI 编程、建筑 AI 研发和多 Agent 协作 的项目治理底座。

更准确地说,ArchSight AIOS 试图回答一个越来越现实的问题:

当 Codex、Claude、Antigravity 2.0 等 AI 工具同时进入一个真实工程项目时,怎样才能让它们读取同一套规则、理解同一份上下文、遵守同一组角色边界,并且按照可验证的方式完成交付?

图 1  ArchSight AIOS 项目概览

一、AI Coding 的问题,已经不只是“能不能写代码”

过去讨论 AI Coding,很多焦点集中在模型能不能生成代码、能不能修 bug、能不能补测试。

这些能力当然重要,但在真实项目里,更大的问题往往不是“AI 会不会写”,而是:

如果这些问题没有被显式组织起来,AI 很容易进入一种“看起来很快,实际不可控”的状态。

它可能会在需求没有读完整时开始修改代码,在上下文不充分时自行猜测方案,在多个工具之间产生规则漂移,或者在没有验证的情况下声称任务完成。

对于普通应用来说,这已经会造成维护成本;对于建筑 AI 研发来说,这类风险会被进一步放大。

因为建筑 AI 项目通常同时涉及 BIM / IFC、图纸、规范条文、施工现场影像、工程知识库、RAG / GraphRAG、智能审图和多源数据处理。这里的很多判断不是普通文本生成问题,而是带有工程语义、审查边界和交付责任的问题。

二、ArchSight AIOS 想解决什么

ArchSight AIOS 的核心目标很简单:

让不同 AI 工具在同一个项目里读取同一套规则、项目上下文、角色分工和验收要求。

它希望减少三类常见问题:

  1. 乱猜需求:AI 没有读取项目规则和上下文,就开始按照自己的理解补全空白。
  2. 乱改代码:AI 不清楚当前角色和修改边界,把设计、实现、审查、验证混在一起。
  3. 无验证交付:AI 只给出“已完成”的结论,却没有明确说明跑了什么检查、验证了哪些风险。

因此,AIOS 不是把 AI 当作一个全能助手,而是把 AI 放回工程协作体系里。

它关注的不是“让一个 AI 什么都干”,而是让 AI 知道自己在什么阶段、承担什么职责、应该遵守哪些约束,以及交付之前必须如何验证。

三、不是 Prompt 集合,而是项目治理底座

很多团队已经开始在项目里使用多个 AI 工具。一个项目中,可能会在 Codex、Antigravity、Claude、Gemini 等工具之间切换:有的负责代码修改,有的负责长文档分析,有的负责架构评审,有的负责测试、审查、发布等专项任务。

问题在于,如果这些工具各自读取不同的提示词、不同的上下文、不同的项目规则,协作很快会失去稳定性。

ArchSight AIOS 的定位,是为项目提供一套统一的 AI 协作入口:

图 2  ArchSight AIOS 的 Agent 角色分工

从这个意义上说,它更像一个面向 AI 协作的“项目操作系统”。

它并不替代模型,也不绑定某一个具体 AI 工具,而是把项目内应该被 AI 理解和遵守的规则沉淀下来,让不同工具可以围绕同一套工程契约工作。

在 Codex 里,AIOS 可以通过 /aios 入口把 CEO、Arch、Exec、Plan、Design、Review、Runtime、Knowledge 等角色能力列出来;在 Antigravity 里,也可以以 aios-* 工作流的形式展开同一套建筑行业增强能力。

图 3  Codex 中的 AIOS 命令入口

图 4  Antigravity 中的 AIOS 工作流入口

四、为什么重点面向建筑 AI 研发

ArchSight AIOS 当前重点服务建筑 AI 研发场景。

建筑行业的 AI 项目有一个明显特征:它不是单纯的通用软件开发,也不是单纯的算法实验。

它通常要同时面对:

这些场景要求 AI 不能只会“生成一段代码”。

它还必须理解:哪些结论只是模型推断,哪些结论需要证据支撑;哪些规则可以自动检查,哪些必须由专业人员复核;哪些代码可以由 AI 修改,哪些交付必须经过测试和人工确认。

图 5  ArchSight AIOS 的治理责任面

因此,ArchSight AIOS 在设计上保留了通用 AI Coding 规则、Agent 路由、Workflow、项目 .ai/ 上下文和交付验证能力,同时把差异化能力集中在建筑行业语义、工程证据链、规范知识工程和可复核 AI 研发流程上。

五、多 Agent 协作需要明确的角色边界

在 AIOS 中,多 Agent 协作不是简单地增加几个角色名称,而是把研发工程治理拆成几个稳定责任面。

例如:

这些角色的价值,不是把组织结构照搬给 AI,而是让 AI 在执行任务时有明确的责任边界。

一个负责架构评审的 Agent,不应该顺手改代码;一个负责执行修改的 Agent,不应该擅自改变产品边界;一个负责验证的 Agent,不应该只复述实现者的结论。

AI Coding 要真正进入工程化阶段,必须把“谁负责判断、谁负责执行、谁负责审查、谁负责验收”显式写进项目。

六、从“生成代码”走向“可验证交付”

我理解的 AI Coding 工程化,不是让 AI 一路从需求写到上线。

相反,它应该让 AI 更清楚地知道什么时候不该动手。

一个成熟的 AI 编程流程,至少应该包含以下环节:

  1. 读取项目规则和上下文;
  2. 明确当前任务边界;
  3. 判断当前应该设计、实现、审查还是验证;
  4. 在角色职责内完成工作;
  5. 记录关键假设、风险和拒绝方案;
  6. 运行测试、预检或人工可复核检查;
  7. 输出交付证据,而不是只输出“已完成”。

ArchSight AIOS 试图把这些环节整理成可以放进项目里的工程资产,而不是停留在临时对话和个人习惯中。

在实际使用中,它可以约束 AI 做架构评审、风险识别、任务拆解和验证闭环,而不是只给一个泛泛的“看起来没问题”。

下面这组截图来自一次更接近真实工作的验证:先要求架构评审 Agent 遵循项目入口规则和 .ai/ 约束,避开已有评审报告,只基于当前代码、配置、README、契约和部署入口形成新的评审结论。

图 6  使用 ArchSight AIOS 进行架构评审

第一轮输出之后,再把真实项目里的两份架构评审文档放到同一个评价框架下比较:一份更偏架构洞察,一份更偏工程实施计划。这样做的价值,是能看到 AI 在真实上下文里到底发现了哪些风险、遗漏了哪些风险,以及不同评审方式各自适合支撑什么决策。

图 7  真实案例评审评分结果

从结果看,基于真实项目上下文的评审比单纯套用热门架构检查清单更有价值。它不只给出“是否合理”的宽泛判断,而是能指出生产级隐患、风险优先级、证据链缺口和后续演进方向。

图 8  真实案例评审观点一致性分析

这种对比还能揭示不同评审之间的稳定共识和差异点。完全一致的部分可以作为后续行动的高置信依据,不一致的部分则提示团队进一步复核边界、策略和验证路径。

图 9  真实案例评审结论

这类过程的重点不是某一次评分本身,而是让 AI 的判断可以被比较、被追踪、被复盘,也能在下一轮迭代中继续改进。

图 10  架构评审评分更新

当评审进入多轮迭代后,评分、风险项和方法论也可以被版本化比较。哪些风险被持续确认,哪些风险被新增发现,哪些验证方式真正提升了检查质量,都应该留下可复核证据。

图 11  架构评审风险识别对比

七、开源之后,希望它成为一个可复用的起点

ArchSight AIOS 目前仍处于早期阶段。

这次开源,更多是把我们在建筑 AI、工程工具开发和 AI Coding 治理中的一些实践沉淀出来,形成一个可以被复用、审查和继续演进的起点。

它不会假设所有团队都使用同一个 AI 工具,也不会假设所有任务都适合完全自动化。

它更关注真实项目中的几个基础问题:

对我来说,AI Coding 的下一阶段,不只是模型能力继续提升。

更关键的是:项目如何把 AI 纳入工程体系。

让规则可读,让上下文可继承,让角色可切换,让交付可验证。

这就是 ArchSight AIOS 想持续探索的方向。

欢迎关注,也欢迎一起交流建筑 AI、AI Coding 工程化和多 Agent 项目治理。

项目地址:https://github.com/ArchSightLabs/archsight-aios npm 包地址:https://www.npmjs.com/package/@archsight/aios