Il Markdown Chunk Splitter

Impostare la dimensione del blocco e la sovrapposizione per dividere il Markdown lungo o il testo semplice. Anteprima di RAG chunking prima dell 'incorporamento e del recupero.

Privacy: elaborato localmente, mai caricato.

↓ Incolla nell 'area di input qui sotto per vedere i risultati istantaneamente

按字符数切分长文档,支持重叠窗口。适合 RAG 索引与上下文裁剪预览。

块大小(字符)
重叠(字符)

文档内容

共 1 个块

#1 (94 字符)

# Doc

Paragraph one with enough text for RAG chunking.

Paragraph two continues the document.

Note

RAG 提示

块大小最小 100; 重叠须小于块大小。生产环境请结合语义边界与 Embedding 模型限制调整。

Impostare la dimensione del blocco e la sovrapposizione per dividere il Markdown lungo o il testo semplice. Anteprima di RAG chunking prima dell 'incorporamento e del recupero.

Avvio veloce

  1. Set parametri

    Dimensione del pezzo ≥ 100 carri; sovrapposizione deve essere inferiore alla dimensione del pezzo.

  2. Colla il documento

    Anteprima live di ogni lunghezza e testo.

Tippi di produzione

La divisione dei caratteri è un punto di partenza; aggiungere confini semantici (intestazioni, paragrafi) nella produzione.

Caratteristiche e casi d'uso

Split Markdown per intestazioni o dimensione massima preservando la struttura per l'incorporamento o la traduzione in batch.

Utilizzato per RAG doc tecnico, lunghe unità di chunking README e localizzazione pipeline.

Tipico Workflow

Dopo aver incollato documenti lunghi nella casella di input, impostare una dimensione di blocco di 500 - 1000 caratteri (ideale per la maggior parte dei sistemi RAG). Fare clic su 'Split' per visualizzare istantaneamente i pezzi, con una sovrapposizione del 10 - 20% raccomandata per la continuità del contesto. I risultati consentono di copiare singoli blocchi o esportare tutti, pronti per l'incorporazione di API o database vettoriali.

Per la documentazione del codice, conservare i segni di sintassi Markdown (come i simboli di blocco di codice). Verificare che non si verifichi alcun truncamento accidentale del codice, regolabile tramite dimensioni di blocco o separatori manuali. Documenti di codice possono richiedere pezzi più piccoli (ad es. 300 caratteri) rispetto al testo semplice per integrità logica.

Esempi

Esempio

Input

200 chars, 40 overlap

Output

Multiple indexed chunks

FAQ

Splitto da token?

Basato sui caratteri; utilizza Token Estimator per i budget dei token.

Perché i miei blocchi contengono frasi truncate?

Questo bilancia i limiti di carattere rigorosi. Per le frasi complete, aumentare la dimensione del blocco o abilitare "Prioritizzare i paragrafi" (oltre leggermente i limiti). Documenti tecnici possono tollerare truncamenti minori come il recupero RAG spesso recupera il contesto tramite pezzi sovrapposti.