Markdown Chunk Splitter (em inglês)

Defina o tamanho do pedaço e a sobreposição para dividir o Markdown longo ou texto simples. Preview RAG chunking antes de incorporação e recuperação tuning.

Privacidade: processado localmente, nunca carregado.

↓ Colar na área de entrada abaixo para ver os resultados instantaneamente

按字符数切分长文档,支持重叠窗口。适合 RAG 索引与上下文裁剪预览。

块大小(字符)
重叠(字符)

文档内容

共 1 个块

#1 (94 字符)

# Doc

Paragraph one with enough text for RAG chunking.

Paragraph two continues the document.

Notas

RAG 提示

块大小最小 100; 重叠须小于块大小。生产环境请结合语义边界与 Embedding 模型限制调整。

Defina o tamanho do pedaço e a sobreposição para dividir o Markdown longo ou texto simples. Preview RAG chunking antes de incorporação e recuperação tuning.

Iniciação rápida

  1. Set parâmetros

    Tamanho do pedaço ≥ 100 carros; sobreposição deve ser menor que o tamanho do pedaço.

  2. Documento Paste

    Visualização ao vivo de cada comprimento e texto do chunk.

Tipos de produção

As divisões de caracteres são um começo; adicione limites semânticos (títulos, parágrafos) na produção.

Características e casos de uso

Divida Markdown por cabeçalhos ou tamanho máximo, preservando a estrutura para incorporação ou tradução por lotes.

Usado para RAG doc técnico, long chunking README e unidades de pipeline de localização.

Fluxo de trabalho típico

Depois de colar documentos longos na caixa de entrada, defina um tamanho de pedaço de 500 - 1000 caracteres (ideal para a maioria dos sistemas RAG). Clique em 'Split' para visualizar instantaneamente os blocos, com uma sobreposição de 10 - 20% recomendada para a continuidade do contexto. Os resultados permitem copiar pedaços individuais ou exportar todos, prontos para incorporar APIs ou bancos de dados vetoriais.

Para a documentação do código, preserve as marcas de sintaxe Markdown (como símbolos de bloco de código). Verifique se não ocorre truncamento acidental de código, ajustável por meio de tamanho de pedaço ou separadores manuais. Documentação de código pode exigir pedaços menores (por exemplo, 300 caracteres) do que o texto simples para integridade lógica.

Exemplos

Exemplo

Input

200 chars, 40 overlap

Output

Multiple indexed chunks

FAQ

Dividido por tokens?

Baseado em caracteres; use o Token Estimator para orçamentos de tokens.

Por que os meus blocos contêm frases truncadas?

Isso equilibra os limites de caráter rigorosos. Para sentenças completas, aumente o tamanho do pedaço ou ative "Priorizar parágrafos" (excedendo ligeiramente os limites). Documentação técnica pode tolerar truncamentos menores como recuperação RAG muitas vezes recupera contexto através de pedaços sobrepostos.