188金宝博,金宝博,188金宝博体育,188金宝博官方网站,188金宝博app下载,金宝博体育,金宝博网站,金宝博链接,188金宝博网址,188金宝博黑款,金宝博入口,金宝博登录,体育投注,足球投注这一多智能体系统(multi-agent system)从原型到正式上线的过程,让我们在系统架构、工具设计和提示词工程(prompt engineering)等方面积累了重要经验。多智能体系统由多个智能体(即LLMs在循环中自主调用工具)协作完成任务。我们的Research 功能包含一个智能体,根据用户查询规划调研流程,并利用工具并行创建多个子智能体,协同检索信息。多智能体系统在智能体协同、评测与可靠性等方面带来了全新挑战。
我们的内部评测显示,多智能体研究系统尤其擅长“广度优先型”查询,能够同时追踪多个独立方向。我们发现,以 Claude Opus 4作为主导智能体、Claude Sonnet 4作为子智能体的多智能体系统,在内部研究评测中较单智能体 Claude Opus 4提升了90.2%。例如,当系统被要求列举信息技术 S&P 500指数成分企业全部董事会成员时,多智能体系统能够将任务拆解分配给各子智能体,从而找到正确答案,而单智能体系统因采用缓慢、串行的检索流程,未能给出答案。
多智能体系统之所以有效,主要在于它们能投入足够多的 tokens 来解决问题。我们的分析显示,在 BrowseComp 评测(用于测试智能体检索难以获取信息的能力)中,有三项因素解释了95% 的性能差异。其中,token 使用量单独就能解释80% 的差异,工具调用次数和模型选择则是另外两个主要影响因素。这一结果印证了我们的架构思路:通过不同上下文窗口分配任务,实现并行推理,提升系统容量。最新的 Claude 模型也极大提升了 token 使用效率,例如,升级至 Claude Sonnet 4带来的性能提升,甚至超过在 Claude Sonnet 3.7上将 token 配额翻倍。多智能体架构能有效扩展 token 使用,适配超出单一智能体处理能力的任务。
但这也带来了问题:在实际应用中,该架构 token 消耗极快。数据显示,单一智能体通常比聊天场景多用约4倍 tokens,多智能体系统则比聊天多用约15倍。要实现经济可行性,多智能体系统需专注于任务价值足以覆盖高性能消耗的应用场景。此外,部分领域要求所有智能体共享完全一致的上下文,或智能体间依赖关系极多,这类任务目前并不适合多智能体系统。例如,大多数编程任务真正可并行化的环节不如研究型任务多,且现阶段 LLM 智能体尚不擅长实时协调和分工。我们发现,多智能体系统在高并行度、信息量超出单一上下文窗口、需对接大量复杂工具的任务中表现最为突出。
图/流程图展示了我们多智能体Research系统的完整工作流程。当用户提交查询后,系统会创建一个LeadResearcher(主研究者)智能体,进入迭代式研究流程。LeadResearcher首先思考研究路径,并将研究计划保存至Memory(记忆)以保证上下文持久存储。因为一旦上下文窗口超过200,000 tokens,超出部分将被截断,因此计划的保存尤为关键。随后,LeadResearcher会根据不同研究任务创建专业化的Subagent(子智能体)(此处仅示例两个,实际可为任意数量)。每个子智能体独立进行网络检索,通过穿插思考(interleaved thinking)评估工具结果,并将发现返回至LeadResearcher。LeadResearcher对这些结果进行综合判断,如需进一步研究,可继续创建新的子智能体或优化研究策略。当信息收集充分后,系统将退出研究循环,并将所有研究结果交由CitationAgent(引文智能体)处理。CitationAgent会对文档和研究报告进行分析,标注具体引用位置,确保所有论断均有明确信息源支撑。最终,带有完整引文的研究结果返回给用户。
指导协调者如何分工。 我们的系统中,主导智能体需要将查询拆分为具体子任务,并清晰地描述给子智能体。每个子智能体都需明确目标、输出格式、应使用的工具和信息源,以及清晰的任务边界。如果任务描述不够详尽,智能体之间容易重复劳动、出现遗漏,或找不到必要信息。我们最初允许主导智能体给出简短指令,例如“调研半导体短缺”,但发现这样的指令往往太过模糊,导致子智能体误解任务,甚至重复执行同一检索。例如,一个子智能体调查了2021年汽车芯片危机,另外两个则重复研究2025年供应链,却缺乏有效分工。
工具的设计与选择至关重要。 智能体-工具接口和人机接口同样关键。选对工具不仅高效,很多时候更是完成任务的必要条件。例如,若智能体在网上搜索一条只存在于Slack的信息,必然无果。MCP服务器为模型接入各种外部工具,但工具描述质量参差不齐,这一挑战更为突出。我们为智能体制定了明确的启发式规则:如先检查所有可用工具,将工具使用与用户意图相匹配,广泛探索时优先用网络搜索,专业任务优选专用工具而非通用工具。不恰当的工具描述可能导致智能体完全走错方向,因此每个工具都需有明确的功能和清晰的描述。
引导思考过程。 扩展思考模式(extended thinking mode)可让Claude在输出时展示可见的思考过程,作为可控的草稿板。主导智能体借助思考环节规划行动,评估任务所需工具、查询复杂度及子智能体数量,并明确各自职责。测试表明,这一模式能提升指令执行力、推理能力和效率。子智能体同样先制定计划,获取工具结果后再穿插思考,评估信息质量、发现遗漏并优化后续检索。这让子智能体能够更好地适应各种任务。
良好的评估对于构建可靠的AI应用至关重要,智能体系统同样如此。然而,多智能体系统的评估面临独特挑战。传统评估通常假设AI每次都遵循相同步骤:输入X,系统应按照路径Y产生输出Z。但多智能体系统并非如此。即使初始条件完全相同,智能体也可能通过完全不同但同样有效的路径达成目标。有的智能体可能检索三种信息源,有的则检索十种,或采用不同工具得出相同答案。由于我们往往无法预知“正确”的具体步骤,因此也就无法简单核查智能体是否严格按预设流程执行。我们需要灵活的评估方法,既判断智能体是否达成预期结果,也关注其过程是否合理。
从小样本立刻开始评估。 在智能体开发早期,细微的改动往往带来显著影响,因为此时存在大量“低垂的果实”。一次提示词微调,成功率可能由30%提升至80%。如此大的效果差异,只需少量测试用例即可观察到变化。我们最初用约20条代表真实使用场景的查询进行测试。这些测试经常能清楚反映改动的成效。我们常听说AI开发团队因认为只有包含数百个用例的大型评测才有意义而延迟开展评估。实际上,最佳做法是从少量样例的小规模测试立即着手,而不是等到有能力构建更全面评测时再开始。
以大语言模型(LLM)为判官的评估方法具有可扩展性。 研究型输出很难用程序化手段评估,因为其多为自由文本,且鲜有唯一正确答案。LLM非常适合用于结果评分。我们使用LLM判官(LLM-as-judge),基于评分细则对每个输出进行评估,包括事实准确性(结论是否与信息源一致)、引用准确性(所引信息源是否与陈述相符)、全面性(是否覆盖所有要求的方面)、信息源质量(是否优先使用高质量的一手来源而非低质量的二手来源)、工具效率(是否合理选择并调用工具)。我们曾尝试用多个判官评估不同维度,但最终发现,单次LLM调用、以单一提示词输出0.0-1.0分数并给出通过/未通过判定,效果最为一致且与人工判断高度吻合。这种方法在测试用例答案明确时尤其有效,LLM判官只需判断答案是否正确(例如是否准确列出研发投入最高的三家制药公司)。利用LLM判官,我们可以大规模评估数百个输出。
多智能体系统会出现“涌现行为”,即未经过明确编程而自然产生的新模式。 例如,对主导智能体的微小调整,可能以不可预测的方式改变子智能体行为。要取得成功,必须理解智能体之间的互动模式,而不仅仅是个体行为。因此,最佳提示词不仅仅是严格的指令,更应是协作框架,明确分工、解决问题的方法及资源投入的上限。要做到这一点,需要精心的提示词设计与工具配置、扎实的启发式规则、良好的可观测性以及高效反馈循环。具体可参考我们Cookbook中开源的系统提示词示例。
智能体具备状态,且错误会累积。 智能体往往需要长时间运行,期间跨越多次工具调用并持续维护自身状态。这要求我们的系统必须具备持久化执行能力,并能妥善处理运行过程中的各类错误。若缺乏有效应对机制,哪怕极小的系统故障也可能对智能体造成灾难性影响。出错时,系统无法简单地从头重启——重启代价高昂且令用户沮丧。因此,我们设计了可在出错点恢复的系统。同时,借助模型智能优雅处理异常问题,例如在工具失效时向智能体发出提示,让其主动调整,这一策略效果出奇地好。我们将基于Claude的AI智能体适应能力,与如重试逻辑、定期检查点等确定性防护措施相结合。
调试需采用新方法。 智能体的决策过程高度动态,即便提示词完全一致,不同运行结果也可能不同,给调试带来极大难度。例如,用户报告智能体“未能找到显而易见的信息”,但我们无法直接看出原因——是检索指令设置不佳,还是信息源选择错误,亦或工具本身出错?我们通过引入全量生产追踪,系统性定位智能体失败原因并加以修复。除常规可观测性外,我们还监控智能体的决策模式与互动结构,但不监控具体对话内容,以保障用户隐私。这种高层级可观测性有助于发现根本原因、意外行为及常见故障。
同步执行会造成瓶颈。 目前,主导智能体按同步方式执行子智能体,即需等待一批子智能-体全部完成后才能继续。这虽简化了协调,但也造成智能体之间信息流的瓶颈。例如,主导智能体无法动态引导子智能体,子智能体之间无法协作,整个系统可能因等待某个子智能体完成检索而被阻塞。异步执行则可实现更高并行度:智能体能并发工作,并在需要时动态生成新的子智能体。但异步同时带来结果协调、状态一致性和错误传播等新挑战。随着模型处理更长、更复杂研究任务的能力提升,我们预计性能提升将抵消由此带来的复杂性。
尽管存在这些挑战,多智能体系统在开放性研究任务中依然展现出巨大价值。用户反馈称,Claude帮助他们发现了未曾考虑过的商业机会,理清了复杂的医疗方案,解决了棘手的技术难题,还能通过揭示原本难以独立发现的研究关联,节省数天工作时间。只要注重工程细节、全面测试、精心设计提示词和工具、完善运维实践,并确保研究、产品与工程团队之间紧密协作,对当前智能体能力有深刻理解,多智能体研究系统完全可以在规模化应用中保持可靠运行。我们已经看到,这些系统正在改变人们解决复杂问题的方式。
评估跨多轮对话持续变更状态的智能体终态。 对于在多轮对话中持续修改持久状态的智能体,其评估面临独特挑战。与只读型研究任务不同,每一步操作都会影响后续环境,形成步骤间的依赖关系,传统评估方法难以应对。我们的做法是关注终态评估(end-state evaluation),而非每一步的细致分析。与其考察智能体是否遵循了特定流程,不如评估其最终是否达到了正确的目标状态。这种方法认可了智能体实现目标的多样路径,同时确保结果符合预期。对于复杂流程,可将评估拆分为若干关键检查点,考察每个阶段是否发生了应有的状态变更,而无需验证每一步细节。
长周期对话管理。 生产环境下的智能体常需应对长达数百轮的对话,这对上下文管理提出了更高要求。随着对话延长,常规的上下文窗口已不够用,必须依靠智能压缩与记忆机制。我们的做法是让智能体在完成某一阶段任务后,总结关键信息并存储于外部记忆系统,然后再进入新任务。当接近上下文限制时,智能体可创建新的子智能体,以干净的上下文继续任务,并通过精心设计的交接流程保持连贯性。此外,智能体可随时从记忆中调取如研究计划等已存信息,而非因窗口溢出丢失工作进展。这种分布式方法可有效防止上下文溢出,同时保持长对话的一致性和连贯性。
子智能体直接输出至文件系统,减少“传话游戏”信息损失。 对于某些类型的结果,允许子智能体绕过主协调者(coordinator)直接输出,可提升结果的保真度和系统性能。与其让子智能体一切信息都经主智能体转述,不如引入工件系统(artifact systems),让专业化子智能体可独立生成、存储持久化输出。子智能体通过工具将工作成果存入外部系统,再将轻量级引用信息交还协调者。这一模式可防止多轮处理过程中的信息损失,也减少了因历史对话反复复制大块输出而造成的token消耗。对于结构化输出(如代码、报告或数据可视化)而言,采用专业子智能体的专属提示词,往往比通过通用协调者转述更能保证结果质量。(易句)
第一,搞好县委换届,是加强党的执政能力建设的需要。在我国的政治框架中,党委、人大、政府、政协各有其职能,这是党执政形式的体现,最终统一于党的领导。县委就是县各项事业的领导核心,新一届县委班子执政能力的强弱,事关全县经济社会的稳定和发展,事关的前途和未来。而这次换届,是对党的xx届四中全会《决定》精神的贯彻落实,在减少副书记职数、适当扩大党政成员交叉任职上有实质性进展,有利于完善县委的领导体制和工作机制,充分发挥县委会的集体领导作用;在优化县委班子的知识、专业和年龄上有新的要求,有利于进一步增强班子的整体功能;在把扩大党内民主贯穿于换届的全过程上有新的举措,有利于进一步提高县委班子的凝聚力和战斗力。因此,只要我们严格按照中央以及省委、市委的要求,搞好换届,必将进一步提高县委班子贯彻落实科学发展观的能力、驾驭全局的能力、处理利益关系的能力和务实创新的能力。
第七、提高凝聚人心、做群众思想工作的能力。 当前,群众思想工作方式单一是我们工作的一个薄弱环节,很大程度上是农村经济发展的制约因素。我们做每一项工作都要从实际出发,要带着问题与基层群众共同研究本村的资源状况和优势所在,寻找符合本村实际的经济发展路子,商量增加农民收入的办法。要带着感情到群众中去,真诚了解农民群众的困难和愿望、意见和要求,真心实意地帮助他们排忧解难。只有经济得到发展,群众的政治意识才会增强,我们基层党组织、村干部说话办事才会有感召力和威力。目前,在全县大力实施生态移民、特色种植、百村万户养殖、劳务产业、生态建设、基础设施建设 “ 六大工程 ” 中,特别是按照 “ 搬迁中部,扩展两翼 ” 的思路,围绕 “ 水源、生态、开发、特色、转移 ” 五个重点,集中人力财力物力,在完成去年2.86万生态移民的基础上,用3年的时间开发水浇地36.43万亩,安置县内移民10.4万人的生态移民工程,在座的各位是具体工作的落实者,肩上的担子可不轻。