Comparteix:

Publicació de dades no indexades pels cercadors

Perquè una pàgina no sigui indexada el millor és configurar-la en estat intranet:

Llegiu com crear una intranet

Així i tot, de vegades estem obligats a publicar una informació, però, com que conté dades de caràcter personal, hem d'evitar que surti als resultats de cerca. Un exemple seria les llistes de persones participants en un concurs laboral. En aquests casos farem servir les metadades de la pàgina, tal com s'explica al següent apartat.

Recordeu passar a intranet les pàgines una vegada transcorregut el termini en què estem obligats a tenir-les publiques.

Sempre hem de tenir en compte que els motors de cerca convencionals (Google, Bing...) respecten les instruccions que els donem, però no podem garantir que tots els cercadors ho facin.

Configurar la metaetiqueta noindex

Documentació de Google sobre com bloquejar la indexació

Per tal que funcioni el bloqueig fent servir la metaetiqueta noindex, la pàgina ha d'estar accessible pel crawler i no ha d'estar bloquejada pel fitxer robots.txt

Per afegir la següent metaetiqueta a la pàgina: <meta name="robots" content="noindex"> farem servir la pestanya "SEO" configurant el valor "noindex" al camp Metatag Robots:

Metatag Robots. Configuració

Altres funcionalitats de la Metaetiqueta Robots

La metaetiqueta robots és una directiva HTML que indica als robots dels motors de cerca (com Googlebot) com han de rastrejar i indexar una pàgina web. És una eina fonamental per controlar què es mostra als resultats de cerca. Ho podem modificar a  SEO > Metatag Robots i el seu valor per defecte és "no value", és a dir, que els motors de cerca indexen la pàgina i segueixen els enllaços.

<meta name="robots" content="PARÀMETRES">

Paràmetres Principals disponibles

  • No value (per defecte): Els motors de cerca indexen la pàgina i segueixen els enllaços (comportament per defecte).
  • index, nofollow: Indexa la pàgina, però no segueix els enllaços que conté.
  • noindex, follow: No indexa la pàgina, però sí que segueix els enllaços.
  • index, follow: Indexa la pàgina i segueix els enllaços (equivalent a no especificar res).
  • noindex: No indexa la pàgina i no segueix els enllaços.
  • noindex, nofollow: No indexa la pàgina ni segueix els enllaços.

Per què és important?

  • Control d'indexació: Evita que contingut sensible o duplicat aparegui als cercadors.
  • Gestió de l'SEO tècnic: Millora l'eficiència del rastreig (evitant pàgines irrellevants).
  • Compatibilitat amb xarxes socials.


Instruccions descartades a data desembre 2024

Fer servir robots.txt no és suficient per garantir que la nostra pàgina no sortirà als resultats d'una cerca, ja que si la pàgina està enllaçada des d'altres webs és susceptible de sortir als resultats, encara que el crawler no hagi entrat a indexar-la.

Google ho explica en aquesta documentació:

https://developers.google.com/search/docs/crawling-indexing/robots/intro#understand-the-limitations-of-a-robots.txt-file 

Per aquesta raó recomanem seguir les instruccions de l'apartat anterior, i descartar aquestes.

Si necessiteu publicar dades que no indexin els motors de cerca, seguiu aquestes instruccions:

Crear, allà on vulgueu, una carpeta amb el nom:

noindex-upc

i col·locar a dins els fitxers dels quals s'ha d'evitar la indexació.

Podeu crear enllaços cap a aquests fitxers a les pàgines a on us calgui, però els fitxers han d'estar ubicats dins de la carpeta anterior.

Si dintre de 'noindex-upc' n'hi ha subcarpetes tampoc s'indexaran.