Analisador de chunk

Digite um documento e parâmetros de pedaços para ver a contagem, a distribuição de cargas e o desperdício sobreposto. Ajuste a indexação RAG sem adivinhar o tamanho do chunk.

Privacidade: processado localmente, nunca carregado.

↓ Colar na área de entrada abaixo para ver os resultados instantaneamente

分析文档分块统计：块数、平均/最小/最大字符、重叠浪费率。配合文档分块工具调参。

块大小

重叠

文档内容

块数

平均字符

138

最小

138

最大

138

重叠浪费

空块

Notas

如何解读

重叠浪费率 = 因重叠导致的冗余字符占比。块数过多或平均过小可能不利于检索质量。

Digite um documento e parâmetros de pedaços para ver a contagem, a distribuição de cargas e o desperdício sobreposto. Ajuste a indexação RAG sem adivinhar o tamanho do chunk.

Iniciação rápida

Set parâmetros

O mesmo tamanho e sobreposição de chunk como o divisor de chunk.
Leia as métricas

Observe o comprimento do pedaço de AGG e o desperdício sobreposto.

Com o Chunk Splitter

Isso produz apenas estatísticas; o divisor de pedaços mostra texto de pedaços. Analise primeiro e depois divida.

Características e casos de uso

Visualize os tamanhos e sobreposições do RAG por caracteres ou tokens estimados para ajustar a estratégia de recuperação.

Use antes de construir KBs para comparar o impacto do chunk _ size nas configurações de pipeline de recall e tune vector.

Fluxo de trabalho típico

Ao usar o RAG Chunk Analyzer, primeiro cole o texto do documento ou carregue um arquivo, em seguida, defina o tamanho do chunk e a sobreposição. A ferramenta calcula instantaneamente o número de pedaços e exibe a distribuição de caracteres através de histograma. Ao ajustar os controles deslizantes, você pode observar os caracteres de sobreposição desperdiçados sob diferentes parâmetros para encontrar a estratégia de fragmentação ideal que equilibra a precisão de recuperação e a eficiência de armazenamento.

Na prática, comece com pedaços pequenos (200 - 500 carros) para documentos técnicos e pedaços maiores (800 - 1500 carros) para artigos. Reduzir a sobreposição quando a taxa de resíduos exceder 15%. Depois de exportar os resultados, aplique esses parâmetros ao seu pipeline de indexação de banco de dados vetorial para evitar tentativas e erros repetidos.

Exemplos

Exemplo

Input

500 chars, 50 overlap

Output

6 stat metrics

FAQ

Como são calculados os resíduos?

(total chunk chars - comprimento bruto) / chunk chars total; reflete a redundância de sobreposição.

Por que a minha taxa de resíduos de sobreposição sobe de repente?

Quando o tamanho do pedaço e a sobreposição são múltiplos de inteiros (por exemplo, 1000 caracteres + 500 sobreposição), o texto é redundantemente calculado. Evite isso usando números primos (por exemplo, 997 caracteres) ou ajustando a sobreposição para 10% -20% do tamanho do pedaço.

Ferramentas relacionadas

Markdown Chunk Splitter (em inglês) Token Estimador Verificador de janela de contexto