上下文与成本

语言模型能处理的上下文有限，且上下文越长，效果越差、成本越高。Locus 在界面上持续显示用量，并在接近上限时自动压缩。

用量指示

输入框下方有一个环形进度指示，悬停显示明细：

上下文 X / Y (Z%)：当前会话占用的上下文 token 数、模型上下文窗口上限与占比。占比超过 60% 时指示变黄，超过 80% 变红。
Cost $N：本会话累计的模型调用费用估算，仅在所用模型有定价数据时显示（订阅类供应商通常不显示）。

自定义端点的上下文窗口大小可在端点配置中设置，见模型配置。

自动压缩

会话占用接近上下文窗口上限（约九成）时，Locus 自动触发压缩，对话区显示正在压缩上下文…与上下文已压缩。压缩保留什么、丢什么：

保留：最近的消息往来原文；关键技术决策、代码变更、未完成任务等重要上下文，被整理成一份交接摘要。
丢弃：较早的完整往来与冗余的中间过程，例如已经过时的工具调用输出。
恢复：压缩后自动把最近读过的少量关键文件内容重新带回上下文，减少 Agent 重新读文件的往返。

若某次请求直接超出模型上下文窗口，Locus 也会兜底压缩并提示上一请求超出模型上下文窗口，已自动压缩对话历史。压缩是有损的：摘要不可避免会丢失细节。长会话多次压缩后，Agent 对早期讨论的把握会下降。

手动 /compact 的时机

不必等自动触发，以下时点主动输入 /compact 更有利：

一个阶段性任务刚完成、下一个任务即将开始，此时中间过程最适合被总结掉。
上下文占比进入黄色区间，而你预计接下来还有大量工具调用。
对话里堆积了大量报错输出与重试过程，这些内容对后续工作没有参考价值。

上下文导出

排查 Agent 行为异常时，可以导出会话的原始上下文：在会话列表右键目标会话，选择保存上下文（带系统提示词）或保存上下文（不带系统提示词）。导出内容为每轮 API 请求与响应的原文，可以确认模型实际收到了什么、注入了哪些规则与知识。向他人提供复现材料时，注意导出文件可能包含项目代码与文档内容。

独立任务开新会话

上下文里混入大量不相关的工具调用结果时，模型能力会显著下降，同时带来更高的 cache read 开销。相互独立的任务应尽量开启新会话处理，这也是控制成本最有效的手段。完整讨论见使用建议中「独立的任务应该在独立的上下文中完成」一节。

​用量指示

​自动压缩

​手动 /compact 的时机

​上下文导出

​独立任务开新会话

用量指示

自动压缩

手动 /compact 的时机

上下文导出

独立任务开新会话