Vai al contenuto
  • 0

Chiarimento su Robots, sito web e forum


Agnello

Domanda

Giusto per capire visto che sono di coccio e non riesco a farmi un'idea chiara. Magari serve anche ad altri.

 

Io ho un sito in wordpress caricato in www.dominio.it e Invision nel sottodominio www.forum.dominio.it.

1) Essendo un dominio e un sottodominio, quindi due cose differenziate agli occhi di google, mi viene da pensare che dovrei mettere 2 robots, uno nella root e uno nella directory forum. E' corretto?

 

 

2) Attualmente ne ho uno nella sottodirectory con all'interno righe come Disallow: /forum/admin/

Ma siamo certi che debba essere cosi? Io sarei portato a scrivere /forum... se lo mettessi in public_html, ma se lo metto nella directory forum devo scrivere /forum nel robots?

 

Domande idiote sicuramente, ma grazie a chi mi chiarirà. :D

Link al commento
Condividi su altri siti

14 risposte a questa domanda

Messaggi raccomandati

  • 0

OK, grazie. Probabilmente i siti che consigliando di usare un solo robots che contenga tutte le regole si riferiscono a siti con sottocartelle e non sottodomini.

Però quello che vorrei ancora capire è se i percorsi all'interno del robots dipendono dalla posizione in cui questo viene caricato.

Se voglo escludere la cartella public_html/prova1/prova2/prova3 contenuta nel sottodominio prova1 dovrò scrivere 

 

Disallow: /prova1/prova2/prova3/

 

sia se inserisco il robots nella root sia se lo inserisco nel sottodominio prova1 ??

Oppure inserendolo nel sottodominio prova1 dovrei scrivere 

 

Disallow: /prova2/prova3/ ?

 

Grazie Ale 

Link al commento
Condividi su altri siti

  • 0

se la directory principale (nell'ftp) del "sottodominio prova1" è public_html/prova1 dovrai applicare la regola Disallow: /prova2/prova3/ perchè il bot non potrà analizzare poi attraverso l'URL la directory http://prova1.dominio.it/prova2/prova3/

 

nel http://dominio.it/robots.txt invece dovrai semplicemente negargli l'accesso a "/prova1/prova2/prova3/*" se la sua directory principale è public_html/

Link al commento
Condividi su altri siti

  • 0

Ah, quindi mi stai dicendo che il mio attuale robots di invision, posizionato nel sottodominio  /public_html/forum, e che dice 

 

Disallow: /forum/admin/
Disallow: /forum/cache/
Disallow: /forum/converge_local/
Disallow: /forum/hooks/
Disallow: /forum/ips_kernel/

etc...

 

non sta bloccando niente? bene.

Link al commento
Condividi su altri siti

  • 0

Si infatti dovresti o togliere dalle regole /forum oppure rendere la cartella principale la public_html, ma hai detto che li hai impostato il sito... 

Quindi rimuovi il prefisso /forum dalle voci che hai elencato e avrai dei cambiamenti, penso in una settimana ma non sono certo, in tempi brevi.

Link al commento
Condividi su altri siti

  • 0

Grazie a tutti, ora ho sistemato. Ultimo dubbio: se nel robots disabilito la cartella cache, come nel robots standard di invision, come fanno i motori di ricerca a raggiungere la sitemap sitemap_topics.xml.gz che è proprio in quella cartella insieme alle altre?

Link al commento
Condividi su altri siti

  • 0

Si certo, quello lo legge. E li dentro c'è il link che rimanda al sitemap_topics.xml.gz contenuto nella cache, cartella a loro proibita. Se da webmastertool faccio leggere sitemap_topics.xml.gz tramite la funzione "visualizza come google", mi risponde 

 

forum.sito.org/cache/sitemap_topics.xml.gz     Web    Negata da robots.txt

Modificato da Agnello
Link al commento
Condividi su altri siti

  • 0

A vero... Prova con Allow: /cache/*.gz$

 

ps: la sitemap viene inviata via php quindi a google non interessa avere accesso in forum.sito.org/cache/sitemap_topics.xml.gz, questi file servono al php per processarli penso... non vengono direttamente scansionati da google!

 

 

https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=it

Modificato da BomAle
Link al commento
Condividi su altri siti

  • 0

io credo che debbano essere leggibili, di fatto non vedo motivo perchè debbano essere corrotti
Visto che i xml.gz sono degli XML creati dal server si devono poter leggere

 

Agnello, ( meno male che non è Pasqua ma Natale :D )
anche a me ad un certo punto Google mi ha scassato le scatole con sta storia del robots, un tempo non me lo faceva

Io ho aggiunto in testa al robots:

User-agent: *Allow: /forum/cache/sitemap_core_core.xml.gzAllow: /forum/cache/sitemap_core_forums.xml.gzAllow: /forum/cache/sitemap_core_topics.xml.gzAllow: /forum/index.php?app=core&module=global&section=sitemap&sitemap=sitemap_core_topics.xml.gzAllow: /forum/index.php?app=core&module=global&section=sitemap&sitemap=sitemap_core_core.xml.gzAllow: /forum/index.php?app=core&module=global&section=sitemap&sitemap=sitemap_core_forums.xml.gzDisallow: /forum/cache/e poi di seguito tutti i disallow classici previsti ....

Nota :  gli ALLOW particolari vanno messi prima dei DISALLOW se il file o la cartella è annidata

 

Errore svanito

Modificato da gianpiero
  • Like 2
Link al commento
Condividi su altri siti

  • 0

 

 

ps: la sitemap viene inviata via php quindi a google non interessa avere accesso in forum.sito.org/cache/sitemap_topics.xml.gz, questi file servono al php per processarli penso... non vengono direttamente scansionati da google!

 

 

 

Grazie. Se le cose stanno cosi direi che non c'è problema, ho aggiunto comunque per sicurezza le regole di Giampi che ringrazio anche per il supporto privato che ogni tanto mi da. :D

Link al commento
Condividi su altri siti

Crea un account o accedi per lasciare un commento

Devi essere un membro per lasciare un commento

Crea un account

Iscriviti per un nuovo account nella nostra community. È facile!

Registra un nuovo account

Accedi

Sei già registrato? Accedi qui.

Accedi Ora
  • Chi sta navigando   0 utenti

    • Nessun utente registrato visualizza questa pagina.
×
×
  • Crea Nuovo...

Informazioni importanti

Abbiamo inserito dei cookies nel tuo dispositivo per aiutarti a migliorare la tua esperienza su questo sito. Puoi modificare le impostazioni dei cookie, altrimenti puoi accettarli cliccando su continua. to insert a cookie message.