Hızlı başlangıç
-
Parameleri ayarlayın
Parça büyüklüğü ≥100 kara; örtüşme parça boyutundan daha az olmalıdır.
-
Belgeyi yapıştır
Her parçacık uzunluğunun ve metnin canlı önizlemesi.
Uzun Markdown veya düz metni bölmek için parçacık boyutunu ve çakışma ayarlayın.Önizleme RAG parçalanma önce gömme ve geri alma ayarlama.
Gizlilik: yerel olarak işlenir, asla yüklenmez.
Anında sonuçları görmek için aşağıdaki giriş alanına yapıştırın
按字符数切分长文档,支持重叠窗口。适合 RAG 索引与上下文裁剪预览。
共 1 个块
块 #1 (94 字符)
# Doc Paragraph one with enough text for RAG chunking. Paragraph two continues the document.
块大小最小 100; 重叠须小于块大小。生产环境请结合语义边界与 Embedding 模型限制调整。
Uzun Markdown veya düz metni bölmek için parçacık boyutunu ve çakışma ayarlayın.Önizleme RAG parçalanma önce gömme ve geri alma ayarlama.
Parameleri ayarlayın
Parça büyüklüğü ≥100 kara; örtüşme parça boyutundan daha az olmalıdır.
Belgeyi yapıştır
Her parçacık uzunluğunun ve metnin canlı önizlemesi.
Karakter bölünmeleri bir başlangıçtır; üretimde semantik sınırları (başlıklar, paragraflar) ekleyin.
Gömme veya toplu çeviri için yapıyı korurken başlıklara veya maksimum boyutlara göre bölünürken Markdown.
Teknik dok RAG, uzun README parçalanması ve lokalizasyon boru hattı birimleri için kullanılır.
Giriş kutusuna uzun belgeleri yapıştırdıktan sonra, 500-1000 karakterlik bir parçacık boyutunu ayarlayın (çoğu RAG sistemi için ideal). Parçaları anında önizlemek için 'Split' tıklatın, bağlam sürekliliği için% 10-20 çakışması önerilir. Sonuçlar tek parçaların kopyalanmasına veya hepsinin dışa aktarılmasına izin verir, Gömme API 'leri veya vektör veritabanları için hazırdır.
Kod dokümantasyonu için, Markdown sözdizimi işaretlerini koruyun (kod bloğu "" sembolleri gibi). Kazara kod kesintilerinin oluşmadığını doğrulayın, parçacık boyutu veya manuel ayırıcılar aracılığıyla ayarlanabilir. Kod dokümanları daha küçük parçacıklar gerektirebilir (örneğin, 300 karakter) mantıksal bütünlük için düz metinden.
Input
200 chars, 40 overlap
Output
Multiple indexed chunks
Karakter tabanlı; token bütçeleri için Token Estimator kullanın.
Bu, katı karakter sınırlarını dengeler. Tam cümleler için, parçacık boyutunu arttırın veya 'Paragrafları Öncelikleştir'i etkinleştirin (sınırları biraz aşar). Teknik belgeler, RAG alımı genellikle örtüşen parçalar aracılığıyla bağlamı kurtarırken küçük kesmelere tolere edebilir.