Iniciação rápida
-
Set parâmetros
Tamanho do pedaço ≥ 100 carros; sobreposição deve ser menor que o tamanho do pedaço.
-
Documento Paste
Visualização ao vivo de cada comprimento e texto do chunk.
Defina o tamanho do pedaço e a sobreposição para dividir o Markdown longo ou texto simples. Preview RAG chunking antes de incorporação e recuperação tuning.
Privacidade: processado localmente, nunca carregado.
↓ Colar na área de entrada abaixo para ver os resultados instantaneamente
按字符数切分长文档,支持重叠窗口。适合 RAG 索引与上下文裁剪预览。
共 1 个块
块 #1 (94 字符)
# Doc Paragraph one with enough text for RAG chunking. Paragraph two continues the document.
块大小最小 100; 重叠须小于块大小。生产环境请结合语义边界与 Embedding 模型限制调整。
Defina o tamanho do pedaço e a sobreposição para dividir o Markdown longo ou texto simples. Preview RAG chunking antes de incorporação e recuperação tuning.
Set parâmetros
Tamanho do pedaço ≥ 100 carros; sobreposição deve ser menor que o tamanho do pedaço.
Documento Paste
Visualização ao vivo de cada comprimento e texto do chunk.
As divisões de caracteres são um começo; adicione limites semânticos (títulos, parágrafos) na produção.
Divida Markdown por cabeçalhos ou tamanho máximo, preservando a estrutura para incorporação ou tradução por lotes.
Usado para RAG doc técnico, long chunking README e unidades de pipeline de localização.
Depois de colar documentos longos na caixa de entrada, defina um tamanho de pedaço de 500 - 1000 caracteres (ideal para a maioria dos sistemas RAG). Clique em 'Split' para visualizar instantaneamente os blocos, com uma sobreposição de 10 - 20% recomendada para a continuidade do contexto. Os resultados permitem copiar pedaços individuais ou exportar todos, prontos para incorporar APIs ou bancos de dados vetoriais.
Para a documentação do código, preserve as marcas de sintaxe Markdown (como símbolos de bloco de código). Verifique se não ocorre truncamento acidental de código, ajustável por meio de tamanho de pedaço ou separadores manuais. Documentação de código pode exigir pedaços menores (por exemplo, 300 caracteres) do que o texto simples para integridade lógica.
Input
200 chars, 40 overlap
Output
Multiple indexed chunks
Baseado em caracteres; use o Token Estimator para orçamentos de tokens.
Isso equilibra os limites de caráter rigorosos. Para sentenças completas, aumente o tamanho do pedaço ou ative "Priorizar parágrafos" (excedendo ligeiramente os limites). Documentação técnica pode tolerar truncamentos menores como recuperação RAG muitas vezes recupera contexto através de pedaços sobrepostos.