Qué hacer cuando Google no accede al sitemap de mi blog

robotstxt

Con la puesta en marcha de ‘Sin Cobertura’ he de confesar que me estoy interesando por las cuestiones de posicionamiento y SEO en general. En el caso de las Google Webmaster Tools, existe una herramienta muy útil denominada sitemaps que facilitará la labor del rastreador de Google cuando pase por nuestra página.

Suele ocurrir que, una vez dados todos los pasos de forma correcta, construimos nuestro sitemap -que viene a ser un esquema del contenido de nuestra Web- pero cuando queremos validarlo con en las Webmaster Tools éste nos dice que el proceso es incorrecto o que el robots.txt restringe el acceso a alguna URL. El remedio es bien sencillo.

¿Qué es el robots.txt?

Es un archivo de texto simple alojado en root con el que el administrador de cualquier página puede determinar los bots o arañas que estarán autorizados a rastrear la Web o algunos de sus directorios concretos. En el 99% de las ocasiones el usuario común que quiere ser indexado cuanto antes, debe escribir lo siguiente en dicho documento:

User-agent: *
Disallow:
Sitemap: https://sincobertura.com/sitemap.xml
User-agent: *
Disallow:
Sitemap: http://www.tudominio.com.com/sitemap.xml

User-agent hace referencia al bot o a los bots que tendrán permiso a la hora de rastrear nuestra bitácora o página Web. En este caso * significa que todos los buscadores tienen las puertas abiertas para dar un pase por nuestros contenidos. Por su parte, el comando disallow hace referencia a los directorios o subdominios que quedarán excluidos de ese rastreo si lo consideráramos oportuno. En el ejemplo, el bot tiene vía a libre para andar a sus anchas por todo el dominio ya que se ha dejado dicho campo en blanco. Y, por último, llegamos al sitemap, donde simplemente teclearemos la dirección de nuestro mapa de sitio o incluso la del feed para que los motores de búsquedas accedan a dicho esquema de las secciones y noticias publicadas.

Ahora bien, una vez tengamos nuestro archivo robots.txt terminado lo subiremos al directorio principal o root del dominio en cuestion. De forma que se pueda acceder a él de la siguiente forma: www.tudominio.com/robots.txt.

Por su parte, y volviendo a las Webmaster Tools de Google, tendremos que añadir el sitemap para que, tras su validación, la indexación de los contenidos publicados en nuestra página sea mucho más rápida y sencilla para cualquier buscador.

Y hasta aquí este pequeño acercamiento al mundo SEO y de los robots.txt, de los que existe un sinfín de comandos y variantes que los administradores más avanzados podréis consultar en otros foros y bitácoras más específicas.

De todas formas, os dejo una serie de enlaces interesantes para los que queráis ahondar un poco más en el tema.

Más información | Robots.txt: todo lo que quería saber, Estándar de exclusión de robots.txt (Wikipedia) y Creación manual de un archivo robots.txt

Por |13 agosto, 2009|

Deje su comentario