Ha participado en el WordCamp Bilbao, evento impulsado por la comunidad de WordPress. Colaboro como ponente con uno de mis temas favoritos de SEO: la indexación. Agradezco la oportunidad a Ibon Azkoitia, Fernan Díez y Juan Carlos Alonso, organizadores del evento.
Si tuviera que decantarme por un gestor de contenidos pensando exclusivamente en SEO, elegiría WordPress. El propio Matt Cutts, ingeniero antispam de Google reconoce las virtudes de este CMS. De hecho el blog de Matt no esta construido sobre Blogger, como podría esperarse, sino en WordPress.
De todas formas veremos como el propio WordPress nos pone trampas que deberemos configurar para preservar el SEO.
Puedes ver la presentación de mi charla y el vídeo (6h 30 min) con el resto de ponencias del WordCamp Bilbao
Esto es lo que te espera
Empezar el SEO por el tejado
Cuando pensamos en posicionamiento web, enseguida surgen términos como SEO on page, keywords, enlaces, anchor text… Es habitual descuidar que, antes de que Google valore si nuestra página es digna de las primeras posiciones, debe encontrarnos, rastrearnos e incluirnos en su base de datos.
Previo a fusilar los titles, H1 o textos con palabras clave hay que pulir el rastreo y la indexación. El propio Moz, blog referente de SEO, lo refrenda en su pirámide de factores SEO. Como puedes ver en la imagen, la base de la pirámide alberga la accesibilidad y la calidad del contenido. Veremos que ambos conceptos están muy relacionados.
Ver la pirámide completa creada por Rand Fiskin
En la mastaba inferior (no usaba esta palabra desde las clases de arte) se incluye:
- Accesibilidad del robot: si el bot no puede leerlo, no existe para Google. (iframes, flash, menús en javascript mal programados…)
- Código de respuesta del servidor: Google toma nota de la cada respuesta del servidor para sus próximas visitas. Si detecta un 404 (página no encontrada), no dará muchas mas oportunidades de indexación a esa URL.
- Contenido único: entendido como original, fresco y de calidad.
Crawl budget y Craw rate
Googlebot, tras haber inspeccionado nuestra web, calcula dos baremos para los siguientes rastreos:
Crawl budget: es el tiempo que nos asignan para que el robot nos rastree. Se determina en función de la relevancia, el rendimientos, la frescura (frecuencia de actualización de contenidos) enlaces, y tamaño del site.
Craw rate; frecuencia con la que el robot o crawler pasará por la página
En definitiva Google nos cede «unos segundos» de su tiempo. Deberemos optimizar para que ese tiempo cunda al máximo. Para ello eliminaremos todas las trabas que ralenticen el rastreo y lo dirigiremos para que indexe lo que nos interese y nada más.
Google no facilita este dato de forma clara y nos da información limitada en Search Console > Rastreo > Estadísticas de rastreo.
Cómo optimizar el Craw Budget
Se pretende que el robot vaya directo a cada URL sin rodeos, rastree el máximo número de paginas por segundo y se quede encantado con todo (y recalco, todo) el contenido que encuentre. Y no lo digo yo, nos lo dice el propio Google en PageSpeed Insights. Cómo evitarlo según Google.
Códigos de respuesta de estado HTTP
Al hacer una petición al servidor, se espera una respuesta que indica el estado de esa página o archivo. Estos son los mas habituales:
- 20x: Todo OK, la página se sirve correctamente.
- 30x: Petición redirigida, es necesario más acciones. Pueden ser permanentes (301) o temporales (302)
- 40x: La solicitud es incorrecta o no puede procesarse.
- 50x: Error del servidos. Podemos echarle la culpa al proveedor de hosting ( no siempre)
Ver todos los códigos bien detallados en ala Wikipedia.
Cuando Googlebot se encuentra un 404 se desconcierta y ademas de recordarlo para otra vez, pierde un tiempo precioso que podría estar destinando a encontrar más URL del site. Por lo tanto hay que arreglar todos los enlaces rotos, externos e internos. Hay muchas herramientas para eso como el plugin Broken Link Checker para WordPress. Consume recursos por lo que yo prefiero revisarle periódicamente con Screaming Frog (¿Cómo podía vivir antes sin él? )
Ahora toca arreglar todas las redirecciones (30x). No tienen sentido que mantengamos enlaces internos apuntando a URL que redirigen a otra dirección. Suelen ser producto de migraciones, cambios a URL más amigables o contenido caducado. Sea por el motivo que sea estamos mareando al robot y duplicando las peticiones para una única URL.
No influye que en el archivo .htaccess haya redirecciones para conservar el tráfico de enlaces de otras páginas. El robot esta evaluando nuestro site.
El objetivo es que todas las respuestas sean 200 y el robot vaya fluido. No pares hasta conseguirlo.
Velocidad de carga (WPO)
Web performance optimization es el «arte» de reducir la velocidad de carga de página al mínimo. Ya hemos conseguido que el crawler llegue a las paginas sin rodeos, ahora toca que las lea rápidamente para que le de tiempo a encontrar muchas más. El WPO se ha convertido en un factor SEO muy importante y depende de muchos factores como la calidad del hosting que determinará el TTFB (Time to first byte), peso de las imágenes, uso de sprites, rendimiento de plugins o botones sociales. Se ha convertido en una disciplina dentro del SEO. Hay especialistas que «adelgazan» tu web al máximo como mi amigo Eduardo Turiño.
Thin content, la cara oculta de WordPress
Google evalúa el contenido y dependiendo de su calidad nos asigna más o menos crawl budget. Si encuentra muchas páginas con contenido débil no será generoso. El «Thin content» incluye contenido duplicado (copiado de otras webs o repetido en nuestro site) y contenido pobre en extensión (menos de 300 palabras) o valor para el usuario. Es el llamado Panda update.
WordPress es un gran CMS para SEO y los plugins (SEO by Yoast, All in one pack) que existen facilitan mucho su configuración. Pero la propia estructura de WordPress puede ser un generador nato de contenido duplicado.
Contenido duplicado en WordPress
El sistema de categorías y etiquetas provocan que tengamos URL diferentes con el mismo contenido (por ejemplo tags con un único post).
Si en un blog solo hay un único autor y mostramos post completos, la página de «author» y la home serán calcos idénticos.
Las páginaciones y ordenación de listados incurren en claro contenido duplicado.
Para solucionarlo debemos esperar a tener 4-5 post en cada categoría o etiqueta antes de indexarla. Hasta entonces usamos el metatag robots=noindex.
Para casos como la página author podemos desindexarla o usar la etiqueta canonical apuntando a la home.
<link rel=»canonical» href=»https://tudominio.com/»/>
Para las paginaciones, recomiendo desindexar a partir de la página 3-4 con el archivo robots.txt.
Ejemplos de bloqueos en robots.txt:
Disallow: /category/google/
Disallow: /tag/adwords-trucos/
Disallow : /page/4/
Disallow : /author/ukoegin/
Contenido pobre
Vamos a quitar de en medio (a nivel de rastreo claro) todo las URL que no aporten valor: páginas con menos de 400 palabras, aviso legal, file attachment y todas esas páginas «Hello world» o de prueba que vamos abandonando por ahí. Noindex a todas.
Podemos tunear contenidos: unificar en un solo post, esos artículos que publicamos por capítulos, añadir transcripción a un post de solo vídeo, ampliar posts cortos…y lo que se te ocurra para mejorar el contenido.
Yo eliminé mas de 100 etiquetas y me quedé con unas pocas y de long tail. Ej: cómo buscar trabajo en marketing online
Otro truco aplicado a este blog es personalizar las categorías. Incluí un texto al comienzo y al final para que Google no lo considere duplicado.
Busca en tu plantilla si tiene o no la opción de personalización de categorías. También hay plugins para ello. Una opción para todos es hacerlo a mano.
En la pestaña categorías, ponte encima del enlace y mira abajo en la barra de estado el número «category&tag_ID=n». Descarga vía FTP el archivo category.php, duplícalo y renómbralo como «category-n». Ya solo falta modificarlo con html y tras subirlo al servidor, ese cambio solo se mostrará en esta categoría.
De esta forma conseguiremos que Google encuentre «contenido molón» en vez de cientos de páginas repetidas.
Monitorizar Googlebot en Google Analytics
Una vez que hemos tuneado nuestra web para Google sería interesante saber qué páginas rastrea y con qué frecuencia. Palla ello podemos analizar los logs. Otra forma más elegante es usar Google Analytics y crear una propiedad o vista que solo muestre el tráfico del robot. ¿A que mola?
En el último SEonthebeach , Lino Uruñuela lo contó fenomenal. Os dejo su presentación donde explica y cede el código para implementarlo.
Conclusiones
- Debemos allanar el camino al robot y mostrarle solo contenido de calidad.
- El control de las redirecciones, la velocidad de carga y el contenido duplicado aumentarán el crawl budget.
- Screamimg frog, Search Console, Analytics nos ayudan a monitorizar.
- El SEO mola.
Presentación y vídeo: SEO y WordPress, optimizar rastreo de Googlebot
Más posts de SEO
¿Qué pasa con las SERPS? La revolución de los snippets
Ponencia: SEO y Analítica web de la mano
SEO para tu currículum vitae
Muy buen artículo.
Cuando empiezo con un cliente, trato de enseñarle la diferencia entre indexación y posicionamiento en sí, que para mi son dos cosas diferentes pero unidas entre sí, no sé si me explico. Que sin una buena indexación va a dar igual lo que hagas para ganar autoridad en tu página.
Y también muy a favor de eliminar etiquetas innecesarias, normalmente en blogs con poco contenido soy partidario de eliminarlas totalmente. Manías. ;)
Excelente artículo tanto para principiantes como para los menos principiantes.
Desde luego esta es una de las tareas esenciales que tiene que hacer un SEO, no solo mejorar el rastreo sino también lo que se rastrea en sí.
Gracias Gorka