SEO y WordPress: optimizar rastreo de Googlebot. WordCamp Bilbao

Ha participado en el WordCamp Bilbao, evento impulsado por la comunidad de WordPress. Colaboro como ponente con uno de mis temas favoritos de SEO: la indexación. Agradezco la oportunidad a Ibon Azkoitia, Fernan Díez y Juan Carlos Alonso, organizadores del evento.

Si tuviera que decantarme por un gestor de contenidos pensando exclusivamente en SEO, elegiría WordPress. El propio Matt Cutts, ingeniero antispam de Google reconoce las virtudes de este CMS. De hecho el blog de Matt no esta construido sobre Blogger,  como podría esperarse, sino en WordPress.
De todas formas veremos como el propio WordPress nos pone trampas que deberemos configurar para preservar el SEO.

Puedes ver la presentación de mi charla y el vídeo (6h 30 min) con el resto de ponencias del WordCamp Bilbao

"WordPress takes care of 80-90% of Search Engine Optimization (SEO)" Matt Cutts

Esto es lo que te espera

Empezar el SEO por el tejado

Cuando pensamos en posicionamiento web, enseguida surgen términos como SEO on page, keywords, enlaces, anchor text… Es habitual descuidar que, antes de que Google valore si nuestra página es digna de las primeras posiciones, debe encontrarnos, rastrearnos e incluirnos en su base de datos.

Previo a fusilar los titles, H1 o textos con palabras clave hay que pulir el rastreo y la indexación. El propio Moz, blog referente de SEO, lo refrenda en su pirámide de factores SEO. Como puedes ver en la imagen, la base de la pirámide alberga la accesibilidad y la calidad del contenido. Veremos que ambos conceptos están muy relacionados.

Pirámide SEO Moz

Ver la pirámide completa creada por Rand Fiskin

En la mastaba inferior (no usaba esta palabra desde las clases de arte) se incluye:

  • Accesibilidad del robot: si el bot no puede leerlo, no existe para Google. (iframes, flash, menús en javascript mal programados…)
  • Código de respuesta del servidor: Google toma nota de la cada respuesta del servidor para sus próximas visitas. Si detecta un 404 (página no encontrada), no dará muchas mas oportunidades de indexación a esa URL.
  • Contenido único: entendido como original, fresco y de calidad.

Crawl budget y Craw rate

Googlebot

Googlebot, tras haber inspeccionado nuestra web, calcula dos baremos para los siguientes rastreos:

Crawl budget: es el tiempo que nos asignan para que el robot nos rastree. Se determina en función de la relevancia, el rendimientos, la frescura (frecuencia de actualización de contenidos) enlaces, y tamaño del site.

Craw rate; frecuencia con la que el robot o crawler pasará por la página

En definitiva Google nos cede «unos segundos» de su tiempo. Deberemos optimizar para que ese tiempo cunda al máximo. Para ello eliminaremos todas las trabas que ralenticen el rastreo y lo dirigiremos para que indexe lo que nos interese y nada más.

Google no facilita este dato de forma clara y nos da información limitada en Search Console > Rastreo > Estadísticas de rastreo.

Estadísticas de rastreo

 

Cómo optimizar el Craw Budget

Se pretende que el robot vaya directo a cada URL sin rodeos, rastree el máximo número de paginas por segundo y se quede encantado con todo (y recalco, todo) el contenido que encuentre. Y no lo digo yo, nos lo dice el propio Google en PageSpeed Insights. Cómo evitarlo según Google.

Evida redireccionamientos

Códigos de respuesta de estado HTTP

Al hacer una petición al servidor, se espera una respuesta que  indica el estado de esa página o archivo. Estos son los mas habituales:

  • 20x: Todo OK, la página se sirve correctamente.
  • 30x: Petición redirigida, es necesario más acciones. Pueden ser permanentes (301) o temporales (302)
  • 40x: La solicitud es incorrecta o no puede procesarse.
  • 50x: Error del servidos. Podemos echarle la culpa al proveedor de hosting ( no siempre)

Ver todos los códigos bien detallados en ala Wikipedia.

Cuando Googlebot se encuentra un 404 se desconcierta y ademas de recordarlo para otra vez, pierde un tiempo precioso que podría estar destinando a encontrar más URL del site. Por lo tanto hay que arreglar todos los enlaces rotos, externos e internos. Hay muchas herramientas para eso como el plugin Broken Link Checker para WordPress. Consume recursos por lo que yo prefiero revisarle periódicamente con Screaming Frog (¿Cómo podía vivir antes sin él? )

Panllazo de Screming Frog

Ahora toca arreglar todas las redirecciones (30x). No tienen sentido que mantengamos enlaces internos apuntando a URL que redirigen a otra dirección. Suelen ser producto de migraciones, cambios a URL más amigables o contenido caducado.  Sea por el motivo que sea estamos mareando al robot y duplicando las peticiones para una única URL.
No influye que en el archivo .htaccess haya redirecciones para conservar el tráfico de enlaces de otras páginas. El robot esta evaluando nuestro site.

El objetivo es que todas las respuestas sean 200 y el robot vaya fluido. No pares hasta conseguirlo.

Velocidad de carga (WPO)

Por qué le llaman SEO cuando quieren decir WPO

Web performance optimization es el «arte» de reducir la velocidad de carga de página al mínimo. Ya hemos conseguido que el crawler llegue a las paginas sin rodeos, ahora toca que las lea rápidamente para que le de tiempo a encontrar muchas más. El WPO se ha convertido en un factor SEO muy importante y depende de muchos factores como la calidad del hosting que determinará el TTFB (Time to first byte), peso de las imágenes, uso de sprites, rendimiento de plugins o botones sociales. Se ha convertido en una disciplina dentro del SEO. Hay especialistas que «adelgazan» tu web al máximo como mi amigo Eduardo Turiño.

Thin content, la cara oculta de WordPress

Google evalúa el contenido y dependiendo de su calidad  nos asigna más o menos crawl budget. Si encuentra muchas páginas con contenido débil no será generoso. El «Thin content» incluye contenido duplicado (copiado de otras webs o repetido en nuestro site) y contenido pobre en extensión (menos de 300 palabras) o valor para el usuario. Es el llamado Panda update.

WordPress es un gran CMS para SEO y los plugins (SEO by Yoast, All in one pack) que existen facilitan mucho su configuración. Pero la propia estructura de WordPress puede ser un generador nato de contenido duplicado.

Contenido duplicado en WordPress

El sistema de categorías y etiquetas provocan que tengamos URL diferentes con el mismo contenido (por ejemplo tags con un único post).
Si en un blog solo hay un único autor y mostramos post completos, la página de «author» y la home serán calcos idénticos.
Las páginaciones y ordenación de listados incurren en claro contenido duplicado.

Para solucionarlo debemos esperar a tener 4-5 post en cada categoría o etiqueta antes de indexarla. Hasta entonces usamos el metatag robots=noindex.
Para casos como la página author podemos desindexarla o usar la etiqueta canonical apuntando a la home.

<link rel=»canonical» href=»https://tudominio.com/»/>

Para las paginaciones, recomiendo desindexar a partir de la página 3-4 con el archivo robots.txt.

Ejemplos de bloqueos en robots.txt:

Disallow: /category/google/
Disallow: /tag/adwords-trucos/
Disallow : /page/4/
Disallow : /author/ukoegin/

Contenido pobre

Vamos a quitar de en medio (a nivel de rastreo claro) todo las URL que no aporten valor: páginas con menos de 400 palabras, aviso legal, file attachment y todas esas páginas «Hello world» o de prueba que vamos abandonando por ahí. Noindex a todas.

Podemos tunear contenidos: unificar en un solo post, esos artículos que publicamos por capítulos, añadir transcripción a un post de solo vídeo, ampliar posts cortos…y lo que se te ocurra para mejorar el contenido.

Yo eliminé mas de 100 etiquetas y me quedé con unas pocas y de long tail. Ej: cómo buscar trabajo en marketing online

Otro truco aplicado a este blog es personalizar las categorías. Incluí un texto al comienzo y al final para que Google no lo considere duplicado.
Busca en tu plantilla si tiene o no la opción de personalización de categorías. También hay plugins para ello. Una opción para todos es hacerlo a mano.

En la pestaña categorías, ponte encima del enlace y mira abajo en la barra de estado el número «category&tag_ID=n». Descarga vía FTP el archivo category.php, duplícalo y renómbralo como «category-n». Ya solo falta modificarlo con html y tras subirlo al servidor, ese cambio solo se mostrará en esta categoría.

ID de categorias para personalización
De esta forma conseguiremos que Google encuentre «contenido molón» en vez de cientos de páginas repetidas.

Monitorizar Googlebot en Google Analytics

Una vez que hemos tuneado nuestra web para Google sería interesante saber qué páginas rastrea y con qué frecuencia. Palla ello podemos analizar los logs. Otra forma más elegante es usar Google Analytics y crear una propiedad o vista que solo muestre el tráfico del robot. ¿A que mola?

En el último SEonthebeach , Lino Uruñuela lo contó fenomenal. Os dejo su presentación donde explica y cede el código para implementarlo.

Conclusiones

  • Debemos allanar el camino al robot y mostrarle solo contenido de calidad.
  • El control de las redirecciones, la velocidad de carga y el contenido duplicado aumentarán el crawl budget.
  • Screamimg frog, Search Console, Analytics nos ayudan a monitorizar.
  • El SEO mola.

Presentación y vídeo: SEO y WordPress, optimizar rastreo de Googlebot



Más posts de SEO

¿Qué pasa con las SERPS? La revolución de los snippets
Ponencia: SEO y Analítica web de la mano
SEO para tu currículum vitae

2 Comments

  1. Roberto Ardanaz 22 junio, 2016
  2. Awakens 30 abril, 2019

Leave a Reply

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.