html to text

RAG yutma, istekler veya LLM giriş için HTML snippet 'leri düz metine dönüştürün. Yerel DOM ayrıştırma, asla yüklenmedi.

Gizlilik: yerel olarak işlenir, asla yüklenmez.

Anında sonuçları görmek için aşağıdaki giriş alanına yapıştırın

将 HTML 转为纯文本,便于 RAG 索引或送入 LLM。本地解析,不上传。

HTML 输入

纯文本输出

Notlar

解析方式

浏览器内用 DOMParser 提取 textContent; 无 DOM 环境时回退为标签剥离。脚本与样式标签会被忽略。

RAG yutma, istekler veya LLM giriş için HTML snippet 'leri düz metine dönüştürün. Yerel DOM ayrıştırma, asla yüklenmedi.

Hızlı başlangıç

  1. HTML yapıştırma

    Tam sayfalar veya makale parçaları çalışır.

  2. Metni kopyalayın

    Ekstra beyaz alan tek boşluklara daraltılır.

Kullanım durumları

İçerik temizliği, e-posta HTML soyutlaması, bölüm öncesi belge hazırlığı.

Özellikler ve kullanım durumları

Arama, özetler veya LLM girişleri için paragraf kesmelerini korurken HTML 'yi düz metin olarak çizin.

E-postaları arşivlerken, çizikleri temizlerken, zengin metinlerin işlenmesinden sonra veya RAG öncesinde kullanın.

Tipik iş akışı

Web sayfasının içeriğini çıkarmak için, HTML kodunu yapıştırın veya bir URL girin. Araç, stiller ve komut dosyaları gibi içerik dışı öğeleri otomatik olarak çıkarır, başlıklar ve paragraflar gibi temel metni korur.İşlenmiş düz metin doğrudan kopyalanabilir veya bir vektör veritabanında RAG verileri olarak saklanabilir.

Geliştiriciler toplu HTML işleme için API kullanabilir.Örneğin, tarayıcı projelerinde, önce web sayfasının HTML 'sini alır, ardından veritabanı depolamadan önce bu araçla temizler. Tüm işleme yerel olarak gerçekleşir, GDPR uyumluluğu veya hassas verilerin temizlenmesi için idealdir.

Örnekler

Örnek

Input

<h1>Title</h1><p>Body</p>

Output

Title Body

FAQ

Hat kesintilerini mi sürdürüyorsun?

Beyaz alan çökmüştür; yapı gerekirse Markdown araçlarını kullanın.

İşlenmiş metin neden fazladan boş satırlar içerir?

Bu orijinal HTML paragraf aralığını korur. Kompakt metin için, `\\n{2,}`'yi regex kullanarak tek satır kesmeleriyle değiştirin. Araç, beyaz alanın genellikle semantik anlam taşıdığı için görsel düzen korunmasına öncelik verir.The tool prioritizes visual layout retention as whitespace often carries semantic meaning.