Analisi di RAG Chunk

Immettere un documento e i parametri del blocco per vedere il conteggio, la distribuzione del carbone e i rifiuti sovrapposti. Sfumina l'indicizzazione RAG senza indovinare la dimensione del pezzo.

Privacy: elaborato localmente, mai caricato.

↓ Incolla nell 'area di input qui sotto per vedere i risultati istantaneamente

分析文档分块统计：块数、平均/最小/最大字符、重叠浪费率。配合文档分块工具调参。

块大小

重叠

文档内容

块数

平均字符

138

最小

138

最大

138

重叠浪费

空块

Note

如何解读

重叠浪费率 = 因重叠导致的冗余字符占比。块数过多或平均过小可能不利于检索质量。

Immettere un documento e i parametri del blocco per vedere il conteggio, la distribuzione del carbone e i rifiuti sovrapposti. Sfumina l'indicizzazione RAG senza indovinare la dimensione del pezzo.

Avvio veloce

Set parametri

Stessa dimensione e sovrapposizione del chunk splitter.
Leggi le metriche

Osserva la lunghezza del pezzo e i rifiuti sovrapposti.

Con il chunk splitter

Questo genera solo statistiche; il chunk splitter mostra il testo del chunk. Prima analizzare e poi dividere.

Caratteristiche e casi d'uso

Visualizza in anteprima le dimensioni dei pezzi RAG e le sovrapposizioni per caratteri o token stimati per regolare la strategia di recupero.

Usare prima di creare KB per confrontare l'impatto di chunk _ size sulle configurazioni di pipeline vettoriali di richiamo e di sintonizzazione.

Tipico Workflow

Quando si utilizza RAG Chunk Analyzer, incolla prima il testo del documento o carica un file, quindi imposta la dimensione del chunk e la sovrapposizione. Lo strumento calcola istantaneamente il numero di pezzi e mostra la distribuzione dei caratteri tramite istogramma. Regolando i cursori, è possibile osservare i caratteri di sovrapposizione sprecati sotto diversi parametri per trovare la strategia di chunking ottimale che bilancia l'accuratezza del recupero e l'efficienza di archiviazione.

In pratica, iniziare con piccoli pezzi (200 - 500 carri) per documenti tecnici e pezzi più grandi (800 - 1500 carri) per articoli. Ridurre la sovrapposizione quando il tasso di spreco supera il 15%. Dopo aver esportato i risultati, applicare questi parametri alla pipeline di indicizzazione del database vettoriale per evitare ripetuti tentativi ed errori.

Esempi

Esempio

Input

500 chars, 50 overlap

Output

6 stat metrics

FAQ

Come vengono calcolati i rifiuti?

(total chunk chars − lunghezza grezza) / totale chunk chars; riflette la ridondanza di sovrapposizione.

Perché il mio tasso di rifiuti sovrapposti sale improvvisamente?

Quando la dimensione del blocco e la sovrapposizione sono multipli interi (ad esempio 1000 caratteri + 500 sovrapposizione), il testo viene ridondantemente calcolato. Evitare questo utilizzo di numeri primi (ad esempio 997 caratteri) o fine-tuning sovrapposizione al 10% -20% della dimensione del pezzo.

Strumenti correlati

Il Markdown Chunk Splitter Token stimatore Controllo di finestra di contesto