RAG Chunk Analizörü

Sayımı, char dağılımını ve çakışan atıkları görmek için bir belge ve parçacık parametrelerini girin. Parça boyutunu tahmin etmeden RAG dizinlemeyi ayarlayın.

Gizlilik: yerel olarak işlenir, asla yüklenmez.

Anında sonuçları görmek için aşağıdaki giriş alanına yapıştırın

分析文档分块统计:块数、平均/最小/最大字符、重叠浪费率。配合文档分块工具调参。

块大小
重叠

文档内容

块数

1

平均字符

138

最小

138

最大

138

重叠浪费

0%

空块

0

Notlar

如何解读

重叠浪费率 = 因重叠导致的冗余字符占比。块数过多或平均过小可能不利于检索质量。

Sayımı, char dağılımını ve çakışan atıkları görmek için bir belge ve parçacık parametrelerini girin. Parça boyutunu tahmin etmeden RAG dizinlemeyi ayarlayın.

Hızlı başlangıç

  1. Parameleri ayarlayın

    Aynı parçacık büyüklüğü ve parçacık bölücü ile örtüşen.

  2. Metrikleri Oku

    Aeg chunk uzunluğuna ve çakışan atıklara dikkat edin.

Chunk Splitter ile

Bu sadece istatistikler çıkarır; parçacık bölücü parçacık metni gösterir.Önce analiz edin, sonra bölününün.

Özellikler ve kullanım durumları

RAG parçacık boyutlarını önizleme ve karakterlere veya tahmini belirteçlere göre üst üste çakışmalar, geri alma stratejisini ayarlar.

KB'leri oluşturmadan önce, chunk_size etkisini recall ve ayar vektör boru hattı yapılandırmalarına karşılaştırmak için kullanın.

Tipik iş akışı

RAG Chunk Analyzer'ı kullanırken, önce belgenizi yapıştırın veya bir dosya yükleyin, ardından parçacık boyutunu ve çakışmasını ayarlayın. Araç anında parçacık sayısını hesaplar ve histogram yoluyla karakter dağılımını görüntüler. Kaydırıcıları ayarlayarak, farklı parametreler altında israf edilen çakışma karakterlerini gözlemleyebilir ve geri alma doğruluğu ve depolama verimliliğini dengeleyen optimum parçalanma stratejisini bulabilirsiniz.

Pratikte, teknik dokümanlar için küçük parçalar (200-500 kara) ve makaleler için daha büyük parçalar (800-1500 kara) ile başlayın. Atık oranı% 15 'i aşınca örtüşmeyi azaltın. Sonuçları dışa aktardıktan sonra, tekrarlanan deneme ve hatalardan kaçınmak için bu parametreleri vektör veritabanı dizinleme boru hattınıza uygulayın.

Örnekler

Örnek

Input

500 chars, 50 overlap

Output

6 stat metrics

FAQ

Atıklar nasıl hesaplanır?

(total chunk chars − raw length) / total chunk chars; overlap redundancy 'ı yansıtır.

Neden çakışan atık oranım birdenbire artıyor?

Parça boyutu ve çakışma tamsayı katları olduğunda (örneğin 1000 karakter + 500 çakışma), metin gereksiz olarak hesaplanır. Bunu asal sayılar (örneğin 997 karakter) kullanarak veya parçacık boyutunun% 10-20'ine kadar örtüşmeyi ince ayarlayarak önleyebilirsiniz.