Hızlı başlangıç
-
Parameleri ayarlayın
Aynı parçacık büyüklüğü ve parçacık bölücü ile örtüşen.
-
Metrikleri Oku
Aeg chunk uzunluğuna ve çakışan atıklara dikkat edin.
Sayımı, char dağılımını ve çakışan atıkları görmek için bir belge ve parçacık parametrelerini girin. Parça boyutunu tahmin etmeden RAG dizinlemeyi ayarlayın.
Gizlilik: yerel olarak işlenir, asla yüklenmez.
Anında sonuçları görmek için aşağıdaki giriş alanına yapıştırın
分析文档分块统计:块数、平均/最小/最大字符、重叠浪费率。配合文档分块工具调参。
块数
1
平均字符
138
最小
138
最大
138
重叠浪费
0%
空块
0
重叠浪费率 = 因重叠导致的冗余字符占比。块数过多或平均过小可能不利于检索质量。
Sayımı, char dağılımını ve çakışan atıkları görmek için bir belge ve parçacık parametrelerini girin. Parça boyutunu tahmin etmeden RAG dizinlemeyi ayarlayın.
Parameleri ayarlayın
Aynı parçacık büyüklüğü ve parçacık bölücü ile örtüşen.
Metrikleri Oku
Aeg chunk uzunluğuna ve çakışan atıklara dikkat edin.
Bu sadece istatistikler çıkarır; parçacık bölücü parçacık metni gösterir.Önce analiz edin, sonra bölününün.
RAG parçacık boyutlarını önizleme ve karakterlere veya tahmini belirteçlere göre üst üste çakışmalar, geri alma stratejisini ayarlar.
KB'leri oluşturmadan önce, chunk_size etkisini recall ve ayar vektör boru hattı yapılandırmalarına karşılaştırmak için kullanın.
RAG Chunk Analyzer'ı kullanırken, önce belgenizi yapıştırın veya bir dosya yükleyin, ardından parçacık boyutunu ve çakışmasını ayarlayın. Araç anında parçacık sayısını hesaplar ve histogram yoluyla karakter dağılımını görüntüler. Kaydırıcıları ayarlayarak, farklı parametreler altında israf edilen çakışma karakterlerini gözlemleyebilir ve geri alma doğruluğu ve depolama verimliliğini dengeleyen optimum parçalanma stratejisini bulabilirsiniz.
Pratikte, teknik dokümanlar için küçük parçalar (200-500 kara) ve makaleler için daha büyük parçalar (800-1500 kara) ile başlayın. Atık oranı% 15 'i aşınca örtüşmeyi azaltın. Sonuçları dışa aktardıktan sonra, tekrarlanan deneme ve hatalardan kaçınmak için bu parametreleri vektör veritabanı dizinleme boru hattınıza uygulayın.
Input
500 chars, 50 overlap
Output
6 stat metrics
(total chunk chars − raw length) / total chunk chars; overlap redundancy 'ı yansıtır.
Parça boyutu ve çakışma tamsayı katları olduğunda (örneğin 1000 karakter + 500 çakışma), metin gereksiz olarak hesaplanır. Bunu asal sayılar (örneğin 997 karakter) kullanarak veya parçacık boyutunun% 10-20'ine kadar örtüşmeyi ince ayarlayarak önleyebilirsiniz.