Iniciação rápida
-
Escolha modelo
O limite de contexto vem da lista de modelos.
-
Preencha quatro slots
Ver total, restante e porcentagem usada.
Estimar tokens para sistema, ferramentas, histórico e slots de usuário em relação a um limite de contexto do modelo.Útil ao projetar layout de chat de agente.
Privacidade: processado localmente, nunca carregado.
↓ Colar na área de entrada abaixo para ver os resultados instantaneamente
按 system / tools / history / user 四段估算 Token 占用与剩余窗口。
System
7
Tools
0
History
0
User
5
合计 Token
12
剩余
127988
占用率
0.0%
本工具按对话槽位拆分预算; 上下文检查器对整段文本按模型窗口对比。均为启发式估算。
Estimar tokens para sistema, ferramentas, histórico e slots de usuário em relação a um limite de contexto do modelo.Útil ao projetar layout de chat de agente.
Escolha modelo
O limite de contexto vem da lista de modelos.
Preencha quatro slots
Ver total, restante e porcentagem usada.
Sistema é o prompt do sistema; Ferramentas é o defs de função; Histórico é as mensagens anteriores; Usuário é a vez atual.
Ao projetar um agente de diálogo de IA, primeiro selecione o modelo de destino (por exemplo, GPT - 4) na ferramenta. O limite da janela de contexto será exibido automaticamente. Em seguida, insira o conteúdo nos quatro slots (sistema, ferramentas, histórico, usuário), respectivamente, para ver o uso de token em tempo real para cada seção. Ajuste o comprimento do prompt para ficar abaixo do limite enquanto reserva espaço para diálogos subsequentes.
Por exemplo, ao criar um bot de atendimento ao cliente, você pode alocar 50 tokens para definição de função no slot do sistema, 200 tokens para descrições de API no slot de ferramentas, 300 tokens para histórico de conversação e reservar 500 tokens para entrada do usuário. As barras de progresso codificadas por cores mostram proporções visualmente, acionando alertas quando se aproximar do limite - indicando quando simplificar as descrições de ferramentas ou encurtar o histórico.
Input
gpt-4o-mini + 4 slots
Output
Per-slot tokens + remaining
O Checker usa texto inteiro; este é dividido por slot para planejamento multi-turno.
O comprimento da entrada do usuário é imprevisível. Reserva impede transbordamentos - por exemplo, com o limite de 32.768 do GPT - 4 - 32k, se outras seções usarem 32.000 tokens, apenas 768 tokens permanecem para os usuários. Recomendamos reservar 15 - 20% para entrada do usuário + resposta de IA, mais para cenários complexos.