Iniciação rápida
-
Coloque HTML
Páginas completas ou fragmentos de artigos funcionam.
-
Copiar texto
Espaços extras em branco colapsa em espaços individuais.
Transforme snippets de HTML em texto simples para ingestão RAG, solicitações ou entrada LLM. Análise do DOM local, nunca carregado.
Privacidade: processado localmente, nunca carregado.
↓ Colar na área de entrada abaixo para ver os resultados instantaneamente
将 HTML 转为纯文本,便于 RAG 索引或送入 LLM。本地解析,不上传。
浏览器内用 DOMParser 提取 textContent; 无 DOM 环境时回退为标签剥离。脚本与样式标签会被忽略。
Transforme snippets de HTML em texto simples para ingestão RAG, solicitações ou entrada LLM. Análise do DOM local, nunca carregado.
Coloque HTML
Páginas completas ou fragmentos de artigos funcionam.
Copiar texto
Espaços extras em branco colapsa em espaços individuais.
Limpeza de conteúdo raspado, extração de HTML de e-mail, preparação de documentos pré - chunk.
Retire o HTML para texto simples, preservando as quebras de parágrafo para pesquisa, resumos ou entrada LLM.
Use quando arquivar e-mails, limpar arranhões, pós-processamento de texto rico ou ingestão pré - RAG.
Para extrair o conteúdo da página da Web, basta colar o código HTML ou digitar uma URL. A ferramenta elimina automaticamente elementos não conteúdo, como estilos e scripts, preservando o texto principal, como cabeçalhos e parágrafos. O texto simples processado pode ser copiado diretamente ou armazenado em um banco de dados vetorial como dados RAG.
Os desenvolvedores podem usar a API para processamento de HTML por lotes. Por exemplo, em projetos de rastreamento, obtenha primeiro o HTML da página web e, em seguida, limpe-o com esta ferramenta antes do armazenamento do banco de dados. Todo o processamento ocorre localmente, ideal para conformidade com o GDPR ou limpeza de dados confidenciais.
Input
<h1>Title</h1><p>Body</p>
Output
Title Body
Espaço em branco é colapsado; use as ferramentas Markdown se você precisar de estrutura.
Isso preserva o espaçamento de parágrafos HTML original. Para texto compacto, substitua `\\ n {2,}` com quebras de linha simples usando regex. A ferramenta prioriza a retenção do layout visual, pois o espaço em branco muitas vezes carrega significado semântico.