Avvio veloce
-
Set parametri
Stessa dimensione e sovrapposizione del chunk splitter.
-
Leggi le metriche
Osserva la lunghezza del pezzo e i rifiuti sovrapposti.
Immettere un documento e i parametri del blocco per vedere il conteggio, la distribuzione del carbone e i rifiuti sovrapposti. Sfumina l'indicizzazione RAG senza indovinare la dimensione del pezzo.
Privacy: elaborato localmente, mai caricato.
↓ Incolla nell 'area di input qui sotto per vedere i risultati istantaneamente
分析文档分块统计:块数、平均/最小/最大字符、重叠浪费率。配合文档分块工具调参。
块数
1
平均字符
138
最小
138
最大
138
重叠浪费
0%
空块
0
重叠浪费率 = 因重叠导致的冗余字符占比。块数过多或平均过小可能不利于检索质量。
Immettere un documento e i parametri del blocco per vedere il conteggio, la distribuzione del carbone e i rifiuti sovrapposti. Sfumina l'indicizzazione RAG senza indovinare la dimensione del pezzo.
Set parametri
Stessa dimensione e sovrapposizione del chunk splitter.
Leggi le metriche
Osserva la lunghezza del pezzo e i rifiuti sovrapposti.
Questo genera solo statistiche; il chunk splitter mostra il testo del chunk. Prima analizzare e poi dividere.
Visualizza in anteprima le dimensioni dei pezzi RAG e le sovrapposizioni per caratteri o token stimati per regolare la strategia di recupero.
Usare prima di creare KB per confrontare l'impatto di chunk _ size sulle configurazioni di pipeline vettoriali di richiamo e di sintonizzazione.
Quando si utilizza RAG Chunk Analyzer, incolla prima il testo del documento o carica un file, quindi imposta la dimensione del chunk e la sovrapposizione. Lo strumento calcola istantaneamente il numero di pezzi e mostra la distribuzione dei caratteri tramite istogramma. Regolando i cursori, è possibile osservare i caratteri di sovrapposizione sprecati sotto diversi parametri per trovare la strategia di chunking ottimale che bilancia l'accuratezza del recupero e l'efficienza di archiviazione.
In pratica, iniziare con piccoli pezzi (200 - 500 carri) per documenti tecnici e pezzi più grandi (800 - 1500 carri) per articoli. Ridurre la sovrapposizione quando il tasso di spreco supera il 15%. Dopo aver esportato i risultati, applicare questi parametri alla pipeline di indicizzazione del database vettoriale per evitare ripetuti tentativi ed errori.
Input
500 chars, 50 overlap
Output
6 stat metrics
(total chunk chars − lunghezza grezza) / totale chunk chars; riflette la ridondanza di sovrapposizione.
Quando la dimensione del blocco e la sovrapposizione sono multipli interi (ad esempio 1000 caratteri + 500 sovrapposizione), il testo viene ridondantemente calcolato. Evitare questo utilizzo di numeri primi (ad esempio 997 caratteri) o fine-tuning sovrapposizione al 10% -20% della dimensione del pezzo.