Avvio veloce
-
Colla HTML
Pagine intere o frammenti di articoli funzionano.
-
Copiare il testo
Gli spazi bianchi extra si collassano in singoli spazi.
Trasforma i snippet HTML in testo semplice per l'ingestione RAG, richieste o input LLM. Parsing DOM locale, mai caricato.
Privacy: elaborato localmente, mai caricato.
↓ Incolla nell 'area di input qui sotto per vedere i risultati istantaneamente
将 HTML 转为纯文本,便于 RAG 索引或送入 LLM。本地解析,不上传。
浏览器内用 DOMParser 提取 textContent; 无 DOM 环境时回退为标签剥离。脚本与样式标签会被忽略。
Trasforma i snippet HTML in testo semplice per l'ingestione RAG, richieste o input LLM. Parsing DOM locale, mai caricato.
Colla HTML
Pagine intere o frammenti di articoli funzionano.
Copiare il testo
Gli spazi bianchi extra si collassano in singoli spazi.
Pulizia dei contenuti scraped, stripping HTML email, preparazione dei documenti pre-chunk.
Strippare l'HTML al testo semplice preservando le interruzioni di paragrafo per la ricerca, i sintesi o l'input LLM.
Utilizzare durante l'archiviazione di e-mail, la pulizia dei graffi, il post-elaborazione del testo ricco o l'ingestione pre-RAG.
Per estrarre il contenuto della pagina Web, basta incollare il codice HTML o immettere un URL. Lo strumento elimina automaticamente gli elementi non contenuti come stili e script, preservando il testo principale come intestazioni e paragrafi. Il testo semplice elaborato può essere copiato direttamente o memorizzato in un database vettoriale come dati RAG.
Gli sviluppatori possono utilizzare l'API per l'elaborazione di HTML in batch Ad esempio, nei progetti di crawler, prima recuperare l'HTML della pagina web, quindi pulirla con questo strumento prima di archiviare il database. Tutto l'elaborazione avviene localmente, ideale per la conformità al GDPR o per la pulizia di dati sensibili.
Input
<h1>Title</h1><p>Body</p>
Output
Title Body
Lo spazio bianco è collassato; usa gli strumenti Markdown se hai bisogno di struttura.
Ciò preserva lo spaziamento dei paragrafi HTML originale. Per il testo compatto, sostituire `\\ n{2,}` con una singola linea di interruzione utilizzando regex. Lo strumento dà la priorità alla conservazione del layout visivo in quanto lo spazio bianco spesso ha un significato semantico.