Sitemaps: manual imprescindible

En este artículo explicaremos a qué nos referimos con Sitemap, cuál es si utilidad, veremos como podemos generar un Sitemap efectivo y cómo utilizarlo.

Maximizar la indexabilidad de un sitio web es una de las primeras fases del posicionamiento web “on-site”.

La indexabilidad de la web es la capacidad que esta tiene de ser rastreable por los motores de búsqueda.

¿Qué es el Sitemap.xml?

Normalmente utilizamos el término “Sitemap.xml” cuando nos referimos al archivo (o archivos) con el que facilitamos a los motores de búsqueda el rastreo de nuestro sitio.

Sin embargo, este archivo no tiene ni que estar en formato xml (puede ser un fichero de texto, un archivo RSS o Atom). Sin embargo lo más habitual es encontrarlo en este formato. El motivo es que tanto Google como Yahoo! y Bing (y la mayoría de los motores de búsqueda) son miembros de sitemap.org y por lo tanto aceptan este formato.

Tampoco tiene por qué llamarse necesariamente Sitemap (aunque sea lo habitual)

Así, el objetivo de incluir un sitemap bien construido en nuestro sitio nos asegura una buena indexabilidad del mismo. Esto no quiere decir que Google vaya a indexar todas las páginas que incluimos en el, pero si que nos asegura que las podrá rastrear. De esta forma, si Google decide indexar o no una página de nuestro site será por otro motivo, pero no porque no la haya podido rastrear.

¿Como se construye un sitemap?

Hay muchas formas automatizadas (o semi automatizadas) de crear un sitemap. A veces con plugins o extensiones del CMS que estemos utilizando, pero también podemos generarlo con herramientas como Screaming Frog… o simplente podemos generarlo manualmente.

De cualquier forma, el contenido del sitemap debería de estar bien configurado y/o revisado manualmente. Fiarte de los procesos automáticos puede costarte caro en lo que se refiere a la visibilidad orgánica de tu sitio web.

Es por eso que vamos a ver qué es un sitemap, su estructura y su sintáxis. Solamente si conocemos el funcionamiento de estos ficheros seremos capaces de configurar correctamente la forma en la que los generamos.

El Sitemap es un fichero compuesto por una serie de etiquetas XML que necesariamente han de estar codificado en UTF-8.

Sintaxis del archivo Sitemap.xml

Las 3 etiquetas xml que siempre ha de incluir un Sitemap son las siguientes:

  • URLSET: Todo el código del sitemap ha de colocarse entre las etiquetas ; y <;/urlset>; en la cual, además se especificará el protocolo estandar utilizado.
  • URL: Las etiquetas correspondientes a cada URL de nuestro sitio irán entre unas etiquetas ; y <;/url>;
  • LOC: Para cada URL se debe definir, al menos, la etiqueta ;<;/loc>; en la cual se incluirá la dirección de la url que se desea indexar.

Como vemos estas tres etiquetas siguen una jerarquía clara: la etiqueta; contiene a todas las etiquetas; (una por cada página a indexar), que a su vez incluyen otras etiquetas que definen al sitio.

Obviamente tendremos que incluir siempre la url a indexar (etiqueta;), pero se puede definir mucho más cada una, dándole así infomación extra a los motores de búsqueda de como indexar cada web.

Otras etiquetas que podemos incluir son, por ejemplo:

lastmod: que indicará, en formato W3C la fecha y hora de la última modificación de el archivo.

changefreq: le da una idea al motor de búsqueda de cada cuanto se modifica la página. Esto sirve de orientación para saber cada cuanto se ha de rastrear la página en busca de nuevos cambios. (No quiere decir, ni mucho menos, que se vaya a rastrear con esa frecuencia)

Los valores que puede tomar esta etiqueta son: always, hourly, daily, weekly, monthly, yearly o never.

priority: le indica a los motores de búsquedas la importancia relativa de una página con respecto a las demás. Es un ratio de 0 a 1 en el que 1 es la prioridad máxima (página más importante del sitio). Si no se especifica esta etiqueta se considerará 0,5

Veamos un ejemplo de Sitemap:

<urlset>

<url>

<loc>http://www.misitio.com/index.html</loc>

<lastmod>2012-05-15</lastmod>

<changefreq><changefreqdialy</changefreq>

<priority>0.9</priority>

</url>

<url>

<loc>http://www.misitio.com/productos/1.html</loc>

<lastmod>2012-01-07T00:00:15+00:00</lastmod>

<changefreq>monthly</changefreq>

<priority>0.9</priority>

</url>

<url>

<loc>http://www.misitio.com/about.html</loc>

<lastmod>2012-01-15T18:00:15+00:00</lastmod>

<changefreq>monthly</changefreq>

<priority>0.3</priority>

</url>

</urlset>
Es importante destacar que, todas estas etiquetas y parámetros sirven para asegurarnos de que Google (u otro motor de búsqueda) ‘encuentra’ estas páginas y recibe esta información sobre ellas. Pero son solo una ‘sugerencia’ y no es seguro que se vaya a indexar una página incluida o, si se indexa que lo vaya a hacer con la importancia que nosotros indicamos, o se vaya a rastrear con la frecuencia que proponemos,…

Limitaciones del Sitemap

Existen ciertas limitaciones en cuanto a peso y extensión del archivo. Un archivo Sitemap nunca podrá:

  • Contener más de 50000 URLs
  • Pesar más de 10Mb

Siempre me han parecido exageradas estas capacidades (sobre todo los 10Mb… ¡¡10Mb de texto!!)

Sin embargo, si superásemos a está capacidad ( …¿seguro?) o si simplemente nos interesa separar distintas partes de la estructura de nuestro sitio, podemos hacerlo utilizando varios archivos Sitemap

SitemapIndex: utilizando varios Sitemap

La forma de utilizar varios archivos Sitemap para un mismo sitio es muy simple: crearemos un indice de Sitemaps que indique los sitemaps que se incluyen en el sitio. El funcionamiento y sintaxis de un Sitemap de Sitemaps es muy parecido al de un Sitemap simple.

En realidad tan solo tendremos que cambiar la etiqueta; por; y la etiqueta; por;

Un ejemplo de indice de Sitemaps sería:

<sitemapindex>

    <sitemap>

      http://www.misitio.com/sitemap01.xml</loc>

      2012-08-24T18:23:17+00:00</lastmod>

       </sitemap>

       <sitemap>

      http://www.misitio.com/sitemap02.xml</loc>

      2012-08-25T18:23:17+00:00</lastmod>

    </sitemap>

</sitemapindex>

Ubicación del archivo Sitemap.xml

Cuando subamos el archivo a nuestro hosting hemos de tener en cuenta que las páginas a las que hacer referencia el Sitemap han de estar en el mismo directorio o en directorios inferiores.

Así, si se nos ocurre subir el Sitemap a, por ejemplo:

http://www.misitio.com/carpeta/sitemap.xml

será imposible que este sitemap indexe una página de un nivel superior. Por ejemplo

http://www.misitio.com/index.html

Sitemap desde Robots.txt

Para indicar a los motores de búsqueda cual es el Sitemap de nuestro sitio deberemos incluir la ubicación del fichero xml en el robots.txt que esta en el directorio raíz del sitio web.

La sintaxis será algo así:

Sitemap: http://www.misitio.com/sitemap.xml

Sitemap desde Webmasters Tools

Otra opción para que Google rastree el Sitemap es a través del panel de control de WMT.

Si ya tenemos añadido y verificado el sitio, accederemos al panel de control. Podremos acceder a la sección de Sitemaps desde el título “Sitemaps” que se presenta en la pantalla principal de “Estado actual”

Sitemaps en WMT de Google

O a través del menú de la izquierda expandiendo la opción “Optimización”

Sitemaps en WMT de Google (Menú lateral)En ambos casos accederemos a la pantalla de los Sitemaps en la cual tendremos que pulsar en “Añadir o probar sitemap” para enviar a Google el fichero.

Añadir o probar Sitemap

Nos pedirá que indiquemos la ubicación del archivo xml en nuestro sitio.

Indexar lo No-Indexable con el Sitemap

Gracias a la extensión del protocolo Sitemap podemos utilizar el archivo Sitemap para ‘informar’ a Google del contenido de algunos elementos que no puede rastrear como por ejemplo video en distintos formatos (.mpeg, .mov, .wmv, .avi…) o elementos flash (¿por qué se seguirán usando?).

Sitemaps de vídeos

Cuando queremos que Google indexe los vídeos que contienen nuestra web podemos hacer un sitemap específico para estos elementos o simplemente incluirlos en el sitemap general.

Si optamos por hacer un sitemap exclusivo para vídeo, la estructura de este será muy similar a la del sitemap general. Simplemente tenemos que tener en cuenta que en ambos casos deberemos añadir las etiquetas video que le indican a Google toda la información sobre el vídeo que debe indexar.

La estructura de esta etiqueta incluye:

  • Una etiqueta general <video:video>
  • Cuatro etiquetas obligatorias que tendremos que incluir dentro de esta:
    • <video:thumbnail_loc>: que le indica a Google cual es la URL de la miniatura del vídeo
    • <video:title>: Donde incluiremos el título del vídeo
    • <video:description>: En esta etiqueta incluiremos una breve descripción del vídeo de no más de 2048 caracteres.
    • <video:content_loc>: Que le indicará a Google la url real del archivo de vídeo. Ojo, no confundir con la etiqueta <loc> que indica la página en la que se aloja el vídeo. Esta URL debe ser la que apunte al archivo de vídeo. Recuerda que este archivo ha de estar en uno de estos formatos: 3g2, .3gp2, .3gp, .3gpp, .asf, .avi, .divx, .f4v, .flv, .m2v, .m3u8, .m4v, .mkv, .mov, .mp4, .mpe, .mpeg, .mpg, .ogv, .qvt, .ram, .rm, .vob, .webm, .wmv, .xap
  • Hay muchas otras etiquetas de vídeo que, a pesar de no ser obligatorias las podemos incluir para aumentar la información que le facilitamos a Google en nuestro sitemap. Las más comunes son:
    • <video:duration>: para informar de la duración del vídeo. El valor lo tendremos que expresar en segundos.
    • <video:expiration_date>: si está previsto que eliminemos el vídeo en una fecha concreta podremos indicarselo con esta etiqueta.
    • <video:rating>: que indica la puntuación del vídeo de 0 a 5.
    • <video:category>: nos permite indicarle a Google la categoría a la que pertenece el vídeo

Así, un sitemap de vídeo podría resultar con esta estructura:

<sitemap>
<loc>http://www.misitio.com/sitemap.xml</loc>
<lastmod>2012-08-24T18:23:17+00:00</lastmod>
<video:video>
<video:thumbnail_loc>http://www.misitio.com/images/video1-miniatura.jpg</video:thumbnail_loc>
<video:title>Cómo generar sitemaps</video:title>
<video:description>En este vídeo aprenderás a generar correctamente el fichero sitemap de tu sitio web</video:description>
<video:content_loc>
http://wwww.youtube.com/crear-sitemaps.mp4</video:content_loc>
<video:duration>325</video:duration>
<video:rating>4.8</video:rating>
</video:video>
</sitemap>

…pero ahora añadiremos una etiqueta<video> bajo la cual se anidarán otras especificas para este tipo de archivo: algunas obligatorias y otras optativas. Cada una de ellas le aportará una información adicional distinta a Google sobre el contenido del video.

Etiquetas obligatorias de video

Hay algunas etiquetas que tendremos que incluir sí o sí entre las etiquetas <video:video> y <video/video> de nuestro sitemap para que este sea correcto:

  • <video:thumbnail_loc>: que le indica a Google cual es la URL de la miniatura del vídeo
  • <video:title>: Donde incluiremos el título del vídeo
  • <video:description>: En esta etiqueta incluiremos una breve descripción del vídeo de no más de 2048 caracteres.
  • <video:content_loc>: Que le indicará a Google la url real del archivo de vídeo. Ojo, no confundir con la etiqueta <loc> que indica la página en la que se aloja el vídeo. Esta URL debe ser la que apunte al archivo de vídeo. Recuerda que este archivo ha de estar en uno de estos formatos: 3g2, .3gp2, .3gp, .3gpp, .asf, .avi, .divx, .f4v, .flv, .m2v, .m3u8, .m4v, .mkv, .mov, .mp4, .mpe, .mpeg, .mpg, .ogv, .qvt, .ram, .rm, .vob, .webm, .wmv, .xap

Con estas etiquetas, le daremos dando toda la información necesaria a Google para que ese vídeo que hemos incluido en nuestro sitio web pueda ser indexado y mostrado en las SERPs con un aspecto parecido a este:

Video incrustado en resultados de búsqueda

Etiquetas no obligatorias de videos

Las etiquetas mencionadas hasta ahora ya suponen un avance enorme en cuanto a indexabilidad de elementos como el video que de otra forma serían invisibles para Google.

Sin embargo, existen muchas otras etiquetas que podrían aportar todavía más información opcional a cada video. Algunas de estas etiquetas son:

  • <video:duration>: para informar de la duración del vídeo. El valor lo tendremos que expresar en segundos.
  • <video:expiration_date>: si está previsto que eliminemos el vídeo en una fecha concreta podremos indicarselo con esta etiqueta.
  • <video:rating>: que indica la puntuación del vídeo de 0 a 5.
  • <video:category>: nos permite indicarle a Google la categoría a la que pertenece el vídeo

Si estás interesado en ampliar información sobre estas etiquetas te aconsejo que visites la página de ayuda de las Herramientas para Webmasters de Google sobre como crear Sitemaps de video.

Sitemaps de imagenes

Al igual que ocurre con los videos, con las imágenes se pueden crear Sitemaps que aportarán la información necesaria a los motores de búsqueda para indexar correctamente estos elementos.

La sintaxis de las etiquetas <image:image> es similar a la de <video:video>, pero cambian las etiquetas obligatorias y opcionales que existen.

Etiquetas obligatorias de imagen

A parte de la ya mencionada <image:image> tan solo será obligatoria la <image:loc> que, como es evidente, informa de la ubicación del archivo de imagen.

Etiquetas opcionales de imagen

Tan solo 4 opcione en el caso de las imágenes:

  • <image:caption> (texto en el pie de imagen)
  • <image:geo_location> (lugar donde fue tomada la imagen)
  • <image:title> (el título)
  • <image:license> (que hará referencia a la URL donde se pueda encontrar la licencia de la imagen)

Hasta aquí esta primera aproximación a los Sitemaps, su utilidad, su utilización y su sintaxis.

Si quieres ampliar tus conocimientos sobre Sitemaps os recomiendo que le echéis un vistazo a:

Y por supuesto, para cualquier duda o aportación que os apetezca hacer al respecto no dudéis en dejar un comentario.

About The Author

Related Posts

7 Comments

  1. Jorge Gil septiembre 3, 2012 Responder
    • Jesús Pernas Alonso Jesús Pernas Alonso septiembre 3, 2012 Responder
    • Jesús Pernas Alonso Jesús Pernas Alonso septiembre 3, 2012 Responder
  2. Eduardo septiembre 3, 2012 Responder
    • Jesús Pernas Alonso Jesús Pernas Alonso septiembre 3, 2012 Responder
  3. Jesús Pernas Alonso Jesús Pernas Alonso septiembre 20, 2012 Responder

Leave a Reply