Jump to content
  • 0

Chiarimento su Robots, sito web e forum


Agnello

Question

Giusto per capire visto che sono di coccio e non riesco a farmi un'idea chiara. Magari serve anche ad altri.

 

Io ho un sito in wordpress caricato in www.dominio.it e Invision nel sottodominio www.forum.dominio.it.

1) Essendo un dominio e un sottodominio, quindi due cose differenziate agli occhi di google, mi viene da pensare che dovrei mettere 2 robots, uno nella root e uno nella directory forum. E' corretto?

 

 

2) Attualmente ne ho uno nella sottodirectory con all'interno righe come Disallow: /forum/admin/

Ma siamo certi che debba essere cosi? Io sarei portato a scrivere /forum... se lo mettessi in public_html, ma se lo metto nella directory forum devo scrivere /forum nel robots?

 

Domande idiote sicuramente, ma grazie a chi mi chiarirà. :D

Link to comment
Share on other sites

14 answers to this question

Recommended Posts

  • 0

OK, grazie. Probabilmente i siti che consigliando di usare un solo robots che contenga tutte le regole si riferiscono a siti con sottocartelle e non sottodomini.

Però quello che vorrei ancora capire è se i percorsi all'interno del robots dipendono dalla posizione in cui questo viene caricato.

Se voglo escludere la cartella public_html/prova1/prova2/prova3 contenuta nel sottodominio prova1 dovrò scrivere 

 

Disallow: /prova1/prova2/prova3/

 

sia se inserisco il robots nella root sia se lo inserisco nel sottodominio prova1 ??

Oppure inserendolo nel sottodominio prova1 dovrei scrivere 

 

Disallow: /prova2/prova3/ ?

 

Grazie Ale 

Link to comment
Share on other sites

  • 0

se la directory principale (nell'ftp) del "sottodominio prova1" è public_html/prova1 dovrai applicare la regola Disallow: /prova2/prova3/ perchè il bot non potrà analizzare poi attraverso l'URL la directory http://prova1.dominio.it/prova2/prova3/

 

nel http://dominio.it/robots.txt invece dovrai semplicemente negargli l'accesso a "/prova1/prova2/prova3/*" se la sua directory principale è public_html/

Link to comment
Share on other sites

  • 0

Ah, quindi mi stai dicendo che il mio attuale robots di invision, posizionato nel sottodominio  /public_html/forum, e che dice 

 

Disallow: /forum/admin/
Disallow: /forum/cache/
Disallow: /forum/converge_local/
Disallow: /forum/hooks/
Disallow: /forum/ips_kernel/

etc...

 

non sta bloccando niente? bene.

Link to comment
Share on other sites

  • 0

Si infatti dovresti o togliere dalle regole /forum oppure rendere la cartella principale la public_html, ma hai detto che li hai impostato il sito... 

Quindi rimuovi il prefisso /forum dalle voci che hai elencato e avrai dei cambiamenti, penso in una settimana ma non sono certo, in tempi brevi.

Link to comment
Share on other sites

  • 0

Grazie a tutti, ora ho sistemato. Ultimo dubbio: se nel robots disabilito la cartella cache, come nel robots standard di invision, come fanno i motori di ricerca a raggiungere la sitemap sitemap_topics.xml.gz che è proprio in quella cartella insieme alle altre?

Link to comment
Share on other sites

  • 0

Si certo, quello lo legge. E li dentro c'è il link che rimanda al sitemap_topics.xml.gz contenuto nella cache, cartella a loro proibita. Se da webmastertool faccio leggere sitemap_topics.xml.gz tramite la funzione "visualizza come google", mi risponde 

 

forum.sito.org/cache/sitemap_topics.xml.gz     Web    Negata da robots.txt

Edited by Agnello
Link to comment
Share on other sites

  • 0

A vero... Prova con Allow: /cache/*.gz$

 

ps: la sitemap viene inviata via php quindi a google non interessa avere accesso in forum.sito.org/cache/sitemap_topics.xml.gz, questi file servono al php per processarli penso... non vengono direttamente scansionati da google!

 

 

https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=it

Edited by BomAle
Link to comment
Share on other sites

  • 0

io credo che debbano essere leggibili, di fatto non vedo motivo perchè debbano essere corrotti
Visto che i xml.gz sono degli XML creati dal server si devono poter leggere

 

Agnello, ( meno male che non è Pasqua ma Natale :D )
anche a me ad un certo punto Google mi ha scassato le scatole con sta storia del robots, un tempo non me lo faceva

Io ho aggiunto in testa al robots:

User-agent: *Allow: /forum/cache/sitemap_core_core.xml.gzAllow: /forum/cache/sitemap_core_forums.xml.gzAllow: /forum/cache/sitemap_core_topics.xml.gzAllow: /forum/index.php?app=core&module=global&section=sitemap&sitemap=sitemap_core_topics.xml.gzAllow: /forum/index.php?app=core&module=global&section=sitemap&sitemap=sitemap_core_core.xml.gzAllow: /forum/index.php?app=core&module=global&section=sitemap&sitemap=sitemap_core_forums.xml.gzDisallow: /forum/cache/e poi di seguito tutti i disallow classici previsti ....

Nota :  gli ALLOW particolari vanno messi prima dei DISALLOW se il file o la cartella è annidata

 

Errore svanito

Edited by gianpiero
  • Like 2
Link to comment
Share on other sites

  • 0

 

 

ps: la sitemap viene inviata via php quindi a google non interessa avere accesso in forum.sito.org/cache/sitemap_topics.xml.gz, questi file servono al php per processarli penso... non vengono direttamente scansionati da google!

 

 

 

Grazie. Se le cose stanno cosi direi che non c'è problema, ho aggiunto comunque per sicurezza le regole di Giampi che ringrazio anche per il supporto privato che ogni tanto mi da. :D

Link to comment
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
  • Recently Browsing   0 members

    • No registered users viewing this page.
×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. to insert a cookie message.