Avvio veloce
-
Set parametri
Dimensione del pezzo ≥ 100 carri; sovrapposizione deve essere inferiore alla dimensione del pezzo.
-
Colla il documento
Anteprima live di ogni lunghezza e testo.
Impostare la dimensione del blocco e la sovrapposizione per dividere il Markdown lungo o il testo semplice. Anteprima di RAG chunking prima dell 'incorporamento e del recupero.
Privacy: elaborato localmente, mai caricato.
↓ Incolla nell 'area di input qui sotto per vedere i risultati istantaneamente
按字符数切分长文档,支持重叠窗口。适合 RAG 索引与上下文裁剪预览。
共 1 个块
块 #1 (94 字符)
# Doc Paragraph one with enough text for RAG chunking. Paragraph two continues the document.
块大小最小 100; 重叠须小于块大小。生产环境请结合语义边界与 Embedding 模型限制调整。
Impostare la dimensione del blocco e la sovrapposizione per dividere il Markdown lungo o il testo semplice. Anteprima di RAG chunking prima dell 'incorporamento e del recupero.
Set parametri
Dimensione del pezzo ≥ 100 carri; sovrapposizione deve essere inferiore alla dimensione del pezzo.
Colla il documento
Anteprima live di ogni lunghezza e testo.
La divisione dei caratteri è un punto di partenza; aggiungere confini semantici (intestazioni, paragrafi) nella produzione.
Split Markdown per intestazioni o dimensione massima preservando la struttura per l'incorporamento o la traduzione in batch.
Utilizzato per RAG doc tecnico, lunghe unità di chunking README e localizzazione pipeline.
Dopo aver incollato documenti lunghi nella casella di input, impostare una dimensione di blocco di 500 - 1000 caratteri (ideale per la maggior parte dei sistemi RAG). Fare clic su 'Split' per visualizzare istantaneamente i pezzi, con una sovrapposizione del 10 - 20% raccomandata per la continuità del contesto. I risultati consentono di copiare singoli blocchi o esportare tutti, pronti per l'incorporazione di API o database vettoriali.
Per la documentazione del codice, conservare i segni di sintassi Markdown (come i simboli di blocco di codice). Verificare che non si verifichi alcun truncamento accidentale del codice, regolabile tramite dimensioni di blocco o separatori manuali. Documenti di codice possono richiedere pezzi più piccoli (ad es. 300 caratteri) rispetto al testo semplice per integrità logica.
Input
200 chars, 40 overlap
Output
Multiple indexed chunks
Basato sui caratteri; utilizza Token Estimator per i budget dei token.
Questo bilancia i limiti di carattere rigorosi. Per le frasi complete, aumentare la dimensione del blocco o abilitare "Prioritizzare i paragrafi" (oltre leggermente i limiti). Documenti tecnici possono tollerare truncamenti minori come il recupero RAG spesso recupera il contesto tramite pezzi sovrapposti.