Jump to content
Agnello

Chiarimento su Robots, sito web e forum

Recommended Posts

Agnello

Giusto per capire visto che sono di coccio e non riesco a farmi un'idea chiara. Magari serve anche ad altri.

 

Io ho un sito in wordpress caricato in www.dominio.it e Invision nel sottodominio www.forum.dominio.it.

1) Essendo un dominio e un sottodominio, quindi due cose differenziate agli occhi di google, mi viene da pensare che dovrei mettere 2 robots, uno nella root e uno nella directory forum. E' corretto?

 

 

2) Attualmente ne ho uno nella sottodirectory con all'interno righe come Disallow: /forum/admin/

Ma siamo certi che debba essere cosi? Io sarei portato a scrivere /forum... se lo mettessi in public_html, ma se lo metto nella directory forum devo scrivere /forum nel robots?

 

Domande idiote sicuramente, ma grazie a chi mi chiarirà. :D

Share this post


Link to post
Share on other sites
Agnello

OK, grazie. Probabilmente i siti che consigliando di usare un solo robots che contenga tutte le regole si riferiscono a siti con sottocartelle e non sottodomini.

Però quello che vorrei ancora capire è se i percorsi all'interno del robots dipendono dalla posizione in cui questo viene caricato.

Se voglo escludere la cartella public_html/prova1/prova2/prova3 contenuta nel sottodominio prova1 dovrò scrivere 

 

Disallow: /prova1/prova2/prova3/

 

sia se inserisco il robots nella root sia se lo inserisco nel sottodominio prova1 ??

Oppure inserendolo nel sottodominio prova1 dovrei scrivere 

 

Disallow: /prova2/prova3/ ?

 

Grazie Ale 

Share this post


Link to post
Share on other sites
BomAle

se la directory principale (nell'ftp) del "sottodominio prova1" è public_html/prova1 dovrai applicare la regola Disallow: /prova2/prova3/ perchè il bot non potrà analizzare poi attraverso l'URL la directory http://prova1.dominio.it/prova2/prova3/

 

nel http://dominio.it/robots.txt invece dovrai semplicemente negargli l'accesso a "/prova1/prova2/prova3/*" se la sua directory principale è public_html/

Share this post


Link to post
Share on other sites
Agnello

Ah, quindi mi stai dicendo che il mio attuale robots di invision, posizionato nel sottodominio  /public_html/forum, e che dice 

 

Disallow: /forum/admin/
Disallow: /forum/cache/
Disallow: /forum/converge_local/
Disallow: /forum/hooks/
Disallow: /forum/ips_kernel/

etc...

 

non sta bloccando niente? bene.

Share this post


Link to post
Share on other sites
BomAle

Si infatti dovresti o togliere dalle regole /forum oppure rendere la cartella principale la public_html, ma hai detto che li hai impostato il sito... 

Quindi rimuovi il prefisso /forum dalle voci che hai elencato e avrai dei cambiamenti, penso in una settimana ma non sono certo, in tempi brevi.

Share this post


Link to post
Share on other sites
Agnello

Grazie a tutti, ora ho sistemato. Ultimo dubbio: se nel robots disabilito la cartella cache, come nel robots standard di invision, come fanno i motori di ricerca a raggiungere la sitemap sitemap_topics.xml.gz che è proprio in quella cartella insieme alle altre?

Share this post


Link to post
Share on other sites
Agnello

Si certo, quello lo legge. E li dentro c'è il link che rimanda al sitemap_topics.xml.gz contenuto nella cache, cartella a loro proibita. Se da webmastertool faccio leggere sitemap_topics.xml.gz tramite la funzione "visualizza come google", mi risponde 

 

forum.sito.org/cache/sitemap_topics.xml.gz     Web    Negata da robots.txt

Edited by Agnello

Share this post


Link to post
Share on other sites
BomAle

A vero... Prova con Allow: /cache/*.gz$

 

ps: la sitemap viene inviata via php quindi a google non interessa avere accesso in forum.sito.org/cache/sitemap_topics.xml.gz, questi file servono al php per processarli penso... non vengono direttamente scansionati da google!

 

 

https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=it

Edited by BomAle

Share this post


Link to post
Share on other sites
gianpiero

io credo che debbano essere leggibili, di fatto non vedo motivo perchè debbano essere corrotti
Visto che i xml.gz sono degli XML creati dal server si devono poter leggere

 

Agnello, ( meno male che non è Pasqua ma Natale :D )
anche a me ad un certo punto Google mi ha scassato le scatole con sta storia del robots, un tempo non me lo faceva

Io ho aggiunto in testa al robots:

User-agent: *Allow: /forum/cache/sitemap_core_core.xml.gzAllow: /forum/cache/sitemap_core_forums.xml.gzAllow: /forum/cache/sitemap_core_topics.xml.gzAllow: /forum/index.php?app=core&module=global&section=sitemap&sitemap=sitemap_core_topics.xml.gzAllow: /forum/index.php?app=core&module=global&section=sitemap&sitemap=sitemap_core_core.xml.gzAllow: /forum/index.php?app=core&module=global&section=sitemap&sitemap=sitemap_core_forums.xml.gzDisallow: /forum/cache/e poi di seguito tutti i disallow classici previsti ....

Nota :  gli ALLOW particolari vanno messi prima dei DISALLOW se il file o la cartella è annidata

 

Errore svanito

Edited by gianpiero

Share this post


Link to post
Share on other sites
Agnello

 

 

ps: la sitemap viene inviata via php quindi a google non interessa avere accesso in forum.sito.org/cache/sitemap_topics.xml.gz, questi file servono al php per processarli penso... non vengono direttamente scansionati da google!

 

 

 

Grazie. Se le cose stanno cosi direi che non c'è problema, ho aggiunto comunque per sicurezza le regole di Giampi che ringrazio anche per il supporto privato che ogni tanto mi da. :D

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Loading...

×
×
  • Crea Nuovo...

Important Information

By using this site, you agree to our Terms of Use.