<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>MyDesign - Blog de Diseño Web &#187; Tutoriales</title>
	<atom:link href="http://www.mydesign.com.ar/blog/category/tutoriales/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.mydesign.com.ar/blog</link>
	<description>blog de noticias, posicionamiento web y diseño</description>
	<lastBuildDate>Mon, 16 Aug 2010 23:21:16 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
		<item>
		<title>El archivo robots.txt y la meta etiqueta robots</title>
		<link>http://www.mydesign.com.ar/blog/el-archivo-robotstxt-y-la-meta-etiqueta-robots/</link>
		<comments>http://www.mydesign.com.ar/blog/el-archivo-robotstxt-y-la-meta-etiqueta-robots/#comments</comments>
		<pubDate>Tue, 02 Jun 2009 14:43:50 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Tutoriales]]></category>

		<guid isPermaLink="false">http://mydesign.com.ar/blog/2009/06/02/el-archivo-robotstxt-y-la-meta-etiqueta-robots/</guid>
		<description><![CDATA[A continuacion, les dejo un detalle con la mejor explicacion que he encontrado hasta el momento sobre los archivos robots.txt con todos los detalles, opciones y configuraciones posibles, ademas de como repercute en cada caso. Robots.txt El archivo Robots.txt es un simple archivo de texto que sirve para indicarle a los robots o bots de [...]]]></description>
			<content:encoded><![CDATA[<p><script type="text/javascript"><!--
google_ad_client = "pub-8532219450775915";
/* horizontal blog mydesign */
google_ad_slot = "5993413567";
google_ad_width = 468;
google_ad_height = 60;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script><br />
A continuacion, les dejo un detalle con la mejor explicacion que he encontrado hasta el momento sobre los archivos robots.txt con todos los detalles, opciones y configuraciones posibles, ademas de como repercute en cada caso.</p>
<p><span id="more-2416"></span></p>
<p><span id="more-26"></span></p>
<h2>Robots.txt</h2>
<p>El archivo Robots.txt es un simple archivo de texto que sirve para indicarle a los robots o bots de los motores de búsqueda, encargados de rastrear e indexar los contenidos de las webs, qué secciones de nuestras webs queremos que indexen, y qué secciones querems que omitan y, por ende, que no aparezcan en los resultados de búsqueda.</p>
<p>Saber manejar este archivo es super importante para evitar diferentes problemas de indexación que evitan que obtengamos buenos resultados en Google: el contenido duplicado y la pérdida de PR en páginas administrativas (backend) por dar un par de ejemplos. Si tu sitio no tiene un archivo robots.txt, entonces el bot de Google ingresará a tu página y comenzará a indexar todo lo que se le cruce en el camino, para bien o para mal.</p>
<p>La ubicación normal del archivo robots.txt (un archivo de texto normal con instrucciones ingresadas de acuerdo a un estandar que veremos más adelante) es el root o folder principal de tu página web, donde se encuentra tu index.</p>
<p>Crear un archivo robots.txt es súper sencillo, ya que lo podemos crear en un bloc de notas común y corriente. Lo difícil es aprender a agregarle contenido adecuadamente. Los comandos utilizados dentro de este archivo son los siguientes:</p>
<ul>
<li>User-agent: [nombre del spider / bot de un buscador determinado]</li>
<li>Disallow: [Directorio o archivo]</li>
<li>Allow: [Directorio o archivo]</li>
<li>Sitemap: [URL del sitemap XML de tu sitio]</li>
</ul>
<p>El user-agent viene a ser el nombre con el que se identifica oficialmente al crawler o bot de un buscador o servicio de indexación determinado. Estos son los más comunes:</p>
<ul>
<li>Googlebot (Google)</li>
<li>googlebot-image (Google Image)</li>
<li>googlebot-mobile (Google Mobile)</li>
<li>msnbot (MSN Search)</li>
<li>yahoo-slurp (Yahoo)</li>
<li>yahoo-mmcrawler (Yahoo MM)</li>
<li>yahoo-blogs/v3.9</li>
<li>teoma (Ask/Teoma)</li>
<li>twiceler (Cuil)</li>
<li>robozilla (Dmoz checker)</li>
<li>ia_archiver (Alexa)</li>
<li>baiduspider (Baidu)</li>
</ul>
<p>Mediante el comando disallow, indicamos los archivos o directorios de nuestro blog que no queremos que sean indexados; es decir, aquellos que no queremos que aparezcan en los resultados de búsqueda de Google u otros. El comando Allow hace lo contrario.</p>
<p>Finalmente, mediante el comando Sitemap indicamos la URL en donde se encuentra el sitemap XML de nuestro sitio (la lista de URLs de nuestra página web, que ayuda a Google a indexar todo nuestro sitio más rápido).</p>
<h2>Configurando el archivo robots.txt para WordPress</h2>
<p>Mi archivo robots.txt contine indicaciones bastante específicas para el Google Bot (User-agent: Googlebot), las cuales paso a explicar a continuación:</p>
<p>Las siguientes líneas evitan que Google indexe los directorios que almacenan los archivos administrativos (wp-admin), la carpeta includes (wp-includes), la carpeta donde guardamos nuestros backups y cualquier otro folder en la raiz del sitio donde guardemos información que no deseamos que sea indexada.</p>
<blockquote>
<pre>Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /directorio/
Disallow: /backup/</pre>
</blockquote>
<p>Estas líneas evitan la indexación de archivos que terminen con estas extensiones: php, js (java scripts), inc, css (hojas de estilo), gif, jpg, png (no queremos que en los resultados de búsqueda aparezca en enlace a una imagen, esto se lo dejamos a Google images), etc.</p>
<blockquote><p>Disallow: /*.php$<br />
Disallow: /*.js$<br />
Disallow: /*.inc$<br />
Disallow: /*.css$<br />
Disallow: /*.gz$<br />
Disallow: /*.cgi$<br />
Disallow: /*.wmv$<br />
Disallow: /*.png$<br />
Disallow: /*.gif$<br />
Disallow: /*.jpg$<br />
Disallow: /*.cgi$<br />
Disallow: /*.xhtml$<br />
Disallow: /*.php*<br />
Disallow: */trackback*<br />
Disallow: /wp-*</p></blockquote>
<p>Esta línea evita la indexacion de URLs con el operador “?” (común en las URLs con resultados de búsqueda):</p>
<blockquote><p>Disallow: /*?*</p></blockquote>
<p>Estas líneas evitan la indexación de los feeds individuales (copia del contenido de cada post en formato para feeds), las páginas de categorías y las URLs generadas por la paginación (page 2, page 3, etc), todo con la finalidad de evitar la indexación de <a href="http://ilmaistro.com/factores-que-influyen-en-el-posicionamiento-web/" title="contenido duplicado">contenido duplicado</a>:</p>
<p>Disallow: */feed/<br />
Disallow: /category/*<br />
Disallow: /page/</p>
<p>Y, finalmente, esta línea permite que bot de Google Images que indexe las imágene de la web:</p>
<blockquote><p>User-agent: Googlebot-Image<br />
Disallow:<br />
Allow: /*</p></blockquote>
<p>Ahora, si no desean molestarse en aprender este código tan fácil, les recomiendo instalar el plugin <a href="http://wordpress.org/extend/plugins/robots-meta/" onclick="javascript:pageTracker._trackPageview('/outgoing/wordpress.org/extend/plugins/robots-meta/');" title="Robots-Meta para WordPress, ">Robots-Meta para WordPress, </a>el cual les permitirá configurar el archivo de manera sencilla y rápida.</p>
<p>Si no tienen un blog en WordPress pero quieren generar rápidamente un archivo robots.txt, existen algunos generadores en línea, pero yo recomiendo el que nos brinda la <a href="http://www.google.com/webmasters/tools/%3Fhl%3Des" onclick="javascript:pageTracker._trackPageview('/outgoing/www.google.com/webmasters/tools/%3Fhl%3Des');" title="herramientas para webmasters de Google">herramienta para webmasters de Google</a>.</p>
<p><!-- Smart Youtube --><span class="youtube"><object width="500" height="400"></object></span><param name="movie" value="http://www.youtube.com/v/WuEievTY638&amp;rel=1&amp;color1=d6d6d6&amp;color2=f0f0f0&amp;border=&amp;fs=1&amp;hl=en&amp;autoplay=&amp;showinfo=0&amp;iv_load_policy=3&amp;showsearch=0"></param><param name="allowFullScreen" value="true"></param><embed src="http://www.youtube.com/v/WuEievTY638&amp;rel=1&amp;color1=d6d6d6&amp;color2=f0f0f0&amp;border=&amp;fs=1&amp;hl=en&amp;autoplay=&amp;showinfo=0&amp;iv_load_policy=3&amp;showsearch=0" wmode="transparent" type="application/x-shockwave-flash" allowfullscreen="true" width="500" height="400"></embed><param name="wmode" value="transparent"></param>
<h2>¿Y si tengo un blog o web pero no tengo acceso al servidor?</h2>
<p>En este caso, podemos obtener la misma funcionalidad mediante la utilización de la meta etiqueta robots. El único inconveniente es que tendremos que personalizarla de acuerdo a la página en la cual la coloquemos, lo cual hace esta labor muy trabajosa para ser aplicada en un CMS. Sirve para páginas con poco contenido o para usuarios que sepan personalizarlas vía código PHP, por ejemplo.</p>
<p>La meta etiqueta robots tiene el siguiente formato:</p>
<p><code>&lt;meta name="robots" content="robots-terms"&gt;</code></p>
<p><img src="http://ilmaistro.com/wp-content/uploads/2009/05/bot-spider.png" class="alignright size-full wp-image-2423" title="bot-spider" alt="bot-spider" width="150" height="140" />El contenido dentro de “robots-terms” es una lista, separada por comas, con uno o varios de los siguientes indicadores, dependiendo del caso: noindex, nofollow, all, index y follow.</p>
<ul>
<li>NoIndex, indica l bot que la página actual no debe ser indexada</li>
<li>NoFollow, le indica al bot que no siga los enlaces de la página actual</li>
<li>Los operadores follow, index y all no son necesarios ya que se asumen como activos en forma tácita</li>
</ul>
<p>Si la etiqueta robots contiene información contradictoria (follow, nofollow) entonces el bot decidirá por si mismo que acción tomar.</p>
<p>La siguiente etiqueta en uno de nuestros posts, por ejemplo, indicaría a Google que no indexe ese post en particular, pero que siga los enlaces en el mismo:</p>
<p><code>&lt;meta name="robots" content="noindex,follow"&gt; | &lt;meta name="robots" content="noindex"&gt;</code></p>
<p>Existen, además, otros operadores para la sección “robots-terms”, que sin embargo no son muy utilizados. Ojo, no todos ellos son validados por todos los buscadores, algunos funcionan solo para los principales, o solo para Google, como es el caso del operador “Unavailable_After”, el cual le indica a Google que a partir de cierta fecha la página debe dejar de indexarse (útil para noticias u ocurrencias válidas solo para un determinado lapso de tiempo).</p>
<p>Finalmente, recomiendo infinitamente configurar adecuadamente un archivo robots.txt para su web o blog. Como se habrán dado cuenta, su utilidad es muy valisoa y sin embargo una gran cantidad de webs no tiene uno activo.</p>
<p>Fuente: <a href="http://ilmaistro.com/el-archivo-robotstxt-y-la-meta-etiqueta-robots/" target="_new">ilmaistro.com</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.mydesign.com.ar/blog/el-archivo-robotstxt-y-la-meta-etiqueta-robots/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>
