Avvio veloce
-
Politica di pick
Permettere tutti per impostazione predefinita o elencare i percorsi Disallower.
-
Aggiungi Sitemap
Utilizzare l'URL completo sitemap.xml.
Configura i percorsi di autorizzazione / disabilitazione e l'URL della mappa del sito per generare un file robots.txt standard.
Privacy: elaborato localmente, mai caricato.
↓ Incolla nell 'area di input qui sotto per vedere i risultati istantaneamente
生成 robots.txt 爬虫规则草案,可指定 sitemap 与 Disallow 路径。
User-agent: * Allow: / Sitemap: https://example.com/sitemap.xml
将输出保存为站点根目录 /robots.txt; 生产环境请结合 SEO 策略调整规则。
Configura i percorsi di autorizzazione / disabilitazione e l'URL della mappa del sito per generare un file robots.txt standard.
Politica di pick
Permettere tutti per impostazione predefinita o elencare i percorsi Disallower.
Aggiungi Sitemap
Utilizzare l'URL completo sitemap.xml.
Salva come /robots.txt alla root del tuo sito; evita CDN che serve copie obsolete.
Quando si utilizza il generatore di robots.txt, identificare prima le directory sensibili da bloccare (ad esempio, /admin/ o /tmp/) mantenendo accessibili le pagine pubbliche. Lo strumento offre caselle di controllo visive per creare regole di disallowanza senza codifica manuale. Infine, aggiungi l'URL della sitemap e fai clic su generare per ottenere un file conforme agli standard per tutti i motori di ricerca.
Dopo la generazione, convalidare il comportamento del crawler in un ambiente di test. Utilizza il tester robots.txt di Google Search Console per verificare l'efficacia delle regole. Una volta confermato, carica il file nella root del tuo sito web. Nota: le modifiche possono richiedere 24 - 48 ore per propagarsi, monitorare i log di crawler durante questo periodo.
Input
Allow all + sitemap
Output
User-agent: * Allow: / Sitemap: ...
Solo le regole wildcard *; aggiungi blocchi specifici per bot manualmente se necessario.
I motori di ricerca eseguono la cache dei file robots.txt periodicamente (in genere 24 - 48 ore). Per gli aggiornamenti urgenti, inviare una richiesta di ricastrizione tramite Search Console, ma la propagazione completa richiede ancora la scadenza della cache. Nota: robots.txt guida solo i crawler e non può forzare la rimozione delle pagine indicizzate.