跳转到主要内容
语言模型能处理的上下文有限,且上下文越长,效果越差、成本越高。Locus 在界面上持续显示用量,并在接近上限时自动压缩。

用量指示

输入框下方有一个环形进度指示,悬停显示明细:
  • 上下文 X / Y (Z%):当前会话占用的上下文 token 数、模型上下文窗口上限与占比。占比超过 60% 时指示变黄,超过 80% 变红。
  • Cost $N:本会话累计的模型调用费用估算,仅在所用模型有定价数据时显示(订阅类供应商通常不显示)。
自定义端点的上下文窗口大小可在端点配置中设置,见模型配置

自动压缩

会话占用接近上下文窗口上限(约九成)时,Locus 自动触发压缩,对话区显示正在压缩上下文…上下文已压缩 压缩保留什么、丢什么:
  • 保留:最近的消息往来原文;关键技术决策、代码变更、未完成任务等重要上下文,被整理成一份交接摘要。
  • 丢弃:较早的完整往来与冗余的中间过程,例如已经过时的工具调用输出。
  • 恢复:压缩后自动把最近读过的少量关键文件内容重新带回上下文,减少 Agent 重新读文件的往返。
若某次请求直接超出模型上下文窗口,Locus 也会兜底压缩并提示上一请求超出模型上下文窗口,已自动压缩对话历史 压缩是有损的:摘要不可避免会丢失细节。长会话多次压缩后,Agent 对早期讨论的把握会下降。

手动 /compact 的时机

不必等自动触发,以下时点主动输入 /compact 更有利:
  • 一个阶段性任务刚完成、下一个任务即将开始,此时中间过程最适合被总结掉。
  • 上下文占比进入黄色区间,而你预计接下来还有大量工具调用。
  • 对话里堆积了大量报错输出与重试过程,这些内容对后续工作没有参考价值。

上下文导出

排查 Agent 行为异常时,可以导出会话的原始上下文:在会话列表右键目标会话,选择保存上下文(带系统提示词)保存上下文(不带系统提示词)。导出内容为每轮 API 请求与响应的原文,可以确认模型实际收到了什么、注入了哪些规则与知识。向他人提供复现材料时,注意导出文件可能包含项目代码与文档内容。

独立任务开新会话

上下文里混入大量不相关的工具调用结果时,模型能力会显著下降,同时带来更高的 cache read 开销。相互独立的任务应尽量开启新会话处理,这也是控制成本最有效的手段。完整讨论见使用建议中「独立的任务应该在独立的上下文中完成」一节。