Iniciação rápida
-
Set parâmetros
O mesmo tamanho e sobreposição de chunk como o divisor de chunk.
-
Leia as métricas
Observe o comprimento do pedaço de AGG e o desperdício sobreposto.
Digite um documento e parâmetros de pedaços para ver a contagem, a distribuição de cargas e o desperdício sobreposto. Ajuste a indexação RAG sem adivinhar o tamanho do chunk.
Privacidade: processado localmente, nunca carregado.
↓ Colar na área de entrada abaixo para ver os resultados instantaneamente
分析文档分块统计:块数、平均/最小/最大字符、重叠浪费率。配合文档分块工具调参。
块数
1
平均字符
138
最小
138
最大
138
重叠浪费
0%
空块
0
重叠浪费率 = 因重叠导致的冗余字符占比。块数过多或平均过小可能不利于检索质量。
Digite um documento e parâmetros de pedaços para ver a contagem, a distribuição de cargas e o desperdício sobreposto. Ajuste a indexação RAG sem adivinhar o tamanho do chunk.
Set parâmetros
O mesmo tamanho e sobreposição de chunk como o divisor de chunk.
Leia as métricas
Observe o comprimento do pedaço de AGG e o desperdício sobreposto.
Isso produz apenas estatísticas; o divisor de pedaços mostra texto de pedaços. Analise primeiro e depois divida.
Visualize os tamanhos e sobreposições do RAG por caracteres ou tokens estimados para ajustar a estratégia de recuperação.
Use antes de construir KBs para comparar o impacto do chunk _ size nas configurações de pipeline de recall e tune vector.
Ao usar o RAG Chunk Analyzer, primeiro cole o texto do documento ou carregue um arquivo, em seguida, defina o tamanho do chunk e a sobreposição. A ferramenta calcula instantaneamente o número de pedaços e exibe a distribuição de caracteres através de histograma. Ao ajustar os controles deslizantes, você pode observar os caracteres de sobreposição desperdiçados sob diferentes parâmetros para encontrar a estratégia de fragmentação ideal que equilibra a precisão de recuperação e a eficiência de armazenamento.
Na prática, comece com pedaços pequenos (200 - 500 carros) para documentos técnicos e pedaços maiores (800 - 1500 carros) para artigos. Reduzir a sobreposição quando a taxa de resíduos exceder 15%. Depois de exportar os resultados, aplique esses parâmetros ao seu pipeline de indexação de banco de dados vetorial para evitar tentativas e erros repetidos.
Input
500 chars, 50 overlap
Output
6 stat metrics
(total chunk chars - comprimento bruto) / chunk chars total; reflete a redundância de sobreposição.
Quando o tamanho do pedaço e a sobreposição são múltiplos de inteiros (por exemplo, 1000 caracteres + 500 sobreposição), o texto é redundantemente calculado. Evite isso usando números primos (por exemplo, 997 caracteres) ou ajustando a sobreposição para 10% -20% do tamanho do pedaço.