Markdown Chunk Splitter (İngilizce)

Uzun Markdown veya düz metni bölmek için parçacık boyutunu ve çakışma ayarlayın.Önizleme RAG parçalanma önce gömme ve geri alma ayarlama.

Gizlilik: yerel olarak işlenir, asla yüklenmez.

Anında sonuçları görmek için aşağıdaki giriş alanına yapıştırın

按字符数切分长文档,支持重叠窗口。适合 RAG 索引与上下文裁剪预览。

块大小(字符)
重叠(字符)

文档内容

共 1 个块

#1 (94 字符)

# Doc

Paragraph one with enough text for RAG chunking.

Paragraph two continues the document.

Notlar

RAG 提示

块大小最小 100; 重叠须小于块大小。生产环境请结合语义边界与 Embedding 模型限制调整。

Uzun Markdown veya düz metni bölmek için parçacık boyutunu ve çakışma ayarlayın.Önizleme RAG parçalanma önce gömme ve geri alma ayarlama.

Hızlı başlangıç

  1. Parameleri ayarlayın

    Parça büyüklüğü ≥100 kara; örtüşme parça boyutundan daha az olmalıdır.

  2. Belgeyi yapıştır

    Her parçacık uzunluğunun ve metnin canlı önizlemesi.

Üretim Tipleri

Karakter bölünmeleri bir başlangıçtır; üretimde semantik sınırları (başlıklar, paragraflar) ekleyin.

Özellikler ve kullanım durumları

Gömme veya toplu çeviri için yapıyı korurken başlıklara veya maksimum boyutlara göre bölünürken Markdown.

Teknik dok RAG, uzun README parçalanması ve lokalizasyon boru hattı birimleri için kullanılır.

Tipik iş akışı

Giriş kutusuna uzun belgeleri yapıştırdıktan sonra, 500-1000 karakterlik bir parçacık boyutunu ayarlayın (çoğu RAG sistemi için ideal). Parçaları anında önizlemek için 'Split' tıklatın, bağlam sürekliliği için% 10-20 çakışması önerilir. Sonuçlar tek parçaların kopyalanmasına veya hepsinin dışa aktarılmasına izin verir, Gömme API 'leri veya vektör veritabanları için hazırdır.

Kod dokümantasyonu için, Markdown sözdizimi işaretlerini koruyun (kod bloğu "" sembolleri gibi). Kazara kod kesintilerinin oluşmadığını doğrulayın, parçacık boyutu veya manuel ayırıcılar aracılığıyla ayarlanabilir. Kod dokümanları daha küçük parçacıklar gerektirebilir (örneğin, 300 karakter) mantıksal bütünlük için düz metinden.

Örnekler

Örnek

Input

200 chars, 40 overlap

Output

Multiple indexed chunks

FAQ

Tokenlerle bölünmüş mü?

Karakter tabanlı; token bütçeleri için Token Estimator kullanın.

Neden parçacıklarım kısaltılmış cümleleri içerir?

Bu, katı karakter sınırlarını dengeler. Tam cümleler için, parçacık boyutunu arttırın veya 'Paragrafları Öncelikleştir'i etkinleştirin (sınırları biraz aşar). Teknik belgeler, RAG alımı genellikle örtüşen parçalar aracılığıyla bağlamı kurtarırken küçük kesmelere tolere edebilir.