Googlebot, Google'ın web tarama botudur (bazen "örümcek" de denir). Tarama, Googlebot'un Google dizinine eklenecek yeni ve güncel sayfaları bulmasını sağlayan işlemdir.
Web'deki milyarlarca sayfayı bulup getirmek (veya "taramak") için sayısız bilgisayardan yararlanırız. Googlebot algoritmaya dayalı bir işlem kullanır: hangi sitelerin ne sıklıkta taranacağı ve her siteden kaç sayfa alınacağı bilgisayar programları tarafından belirlenir.
Googlebot'un tarama işlemi, önceki tarama işlemlerinde oluşturulan web sayfası URL'lerinin listesiyle başlar ve web yöneticileri tarafından sağlanan Site Haritası verileriyle artar. Googlebot, bu web sitelerini ziyaret ettiğinde her sayfadaki bağlantıları (SRC ve HREF) tespit eder ve bunları taranacak sayfalar listesine ekler. Yeni siteler, mevcut sitelerdeki değişiklikler ve geçersiz bağlantılar belirlenerek Google dizinini güncellemek için kullanılır.
Web yöneticileri için: Googlebot ve siteniz
Googlebot sitenize nasıl erişir?
Çoğu site için, Googlebot'un, sitenize ortalama olarak her birkaç saniyede birden fazla erişmemesi gerekir. Ancak, ağ gecikmeleri yüzünden, kısa dönemlerde bu hızın biraz daha yüksek olduğunu görebilirsiniz. Genel olarak, Googlebot her defasında her bir sayfanın yalnızca bir kopyasını indirmelidir. Googlebot'un bir sayfayı birden çok kez indirdiğini görürseniz, bunun nedeni muhtemelen tarayıcının durup yeniden başlamış olmasıdır.
Googlebot, performansını artırmak ve web büyüdükçe ölçeklenmesini sağlamak için birçok makineye dağıtılmak üzere tasarlanmıştır. Ayrıca, bant genişliği kullanımını azaltmak amacıyla çok sayıda tarayıcıyı ağda dizine ekledikleri sitelere yakın yerlerde bulunan makinelerde çalıştırırız. Dolayısıyla, günlüklerinizde google.com'daki birkaç makineden, tümü de Googlebot kullanıcı aracısına sahip ziyaretler görebilirsiniz. Amacımız, sunucunuzun bant genişliğinde aşırı yoğunluğa yol açmadan her ziyaretimizde sitenizden mümkün olduğunca çok sayfayı taramaktır. Tarama hızının değiştirilmesi için istekte bulunun.
Googlebot'un sitenizdeki içeriğe erişmesini engelleme
Bağlantılarını yayınlamayarak bir web sunucusunu gizli tutmak neredeyse imkansızdır. Bir kullanıcı "gizli" sunucunuzdaki bir bağlantıyı izleyerek başka bir web sunucusuna gittiği anda "gizli" URL'niz yönlendiren etiketinde görülebilir ve diğer web sunucusu tarafından yönlendiren günlüğüne kaydedilip herkesin erişebileceği şekilde yayınlanabilir. Benzer bir şekilde, internet'te çok sayıda eski ve bozuk bağlantı bulunmaktadır. Biri sitenize hatalı bir bağlantı yayınladığında veya mevcut bağlantıları sunucunuzdaki değişiklikleri yansıtacak şekilde güncellemediğinde, Googlebot sitenizden hatalı bir bağlantı indirmeyi dener.
Googlebot'un sitenizdeki içeriği taramasını önlemek istiyorsanız, sunucunuzdaki dosyalara ve dizinlere erişimi engellemek için robots.txt dosyasını kullanmayı da kapsayan çeşitli seçenekleriniz vardır. Robots.txt dosyanızı oluşturduktan sonra, Googlebot'un değişikliklerinizi keşfetmesinde küçük bir gecikme olabilir. Googlebot, robots.txt içinde engellediğiniz içeriği taramaya devam ediyorsa, robots.txt dosyasının doğru konumda olup olmadığını kontrol edin. Dosya, sunucunun en üst dizininde (örn., www.anamakinem.com/robots.txt) olmalıdır; alt dizinlerden birine yerleştirilirse dosyanın hiçbir bir etkisi olmaz.
Web sunucusu günlüğünüzdeki "dosya bulunamadı" hata iletilerini önlemek istiyorsanız, robots.txt adlı boş bir dosya oluşturabilirsiniz. Googlebot'un sitenizin bir sayfasındaki hiçbir bağlantıyı izlememesini istiyorsanız, nofollow meta etiketini kullanabilirsiniz. Googlebot'un tek bir bağlantıyı izlemesini önlemek için bağlantının kendisine rel="nofollow" özniteliği ekleyin.
Burada bazı ek ipuçları sağlanmıştır:
Googlebot, siteleri, sayfadan sayfaya bağlantıları izleyerek keşfeder. Web Yöneticisi Araçları'ndaki Tarama hataları sayfası, Googlebot'un sitenizi tararken bulduğu tüm sorunları listeler. Sitenizle ilgili sorunları tanımlamak için düzenli olarak bu tarama hatalarını gözden geçirmenizi öneririz.
Robots.txt dosyanız beklendiği gibi çalışıyor, ancak siteniz trafik almıyorsa, içeriğinizin aramalarda iyi bir performans göstermemesinin olası nedenleri burada belirtilmiştir.
Spam gönderenler ve diğer kullanıcı aracılarıyla ilgili sorunlar
Googlebot tarafından kullanılan IP adresleri zaman zaman değişmektedir. Erişimleri Googlebot ile tanımlamanın en iyi yolu kullanıcı aracı (Googlebot) kullanmaktır. Ters DNS aramasını kullanarak sunucunuza gelen bot erişiminin gerçekten Googlebot olup olmadığını doğrulayabilirsiniz.
Googlebot ve diğer güvenilir arama motoru botları robots.txt dosyasındaki yönergelere uyar, ancak bazı kötü amaçlı kişiler ve spam gönderenler bunlara uymaz. Spam'ı Google'a bildirin.
Google'ın aralarında Feedfetcher'ın (Feedfetcher-Google kullanıcı aracısı) da bulunduğu birkaç başka kullanıcı aracısı daha vardır. Feedfetcher istekleri otomatik tarayıcılardan değil, özet akışlarını Google ana sayfalarına veya Google Reader'a ekleyen gerçek kullanıcıların açık bir şekilde gerçekleştirdikleri işlemlerden geldiği için, Feedfetcher robots.txt yönergelerini izlemez. Sunucunuzu Feedfetcher-Google kullanıcı aracısına 404, 410 veya başka bir hata durumu iletisi sunacak şekilde yapılandırarak, Feedfetcher'ın sitenizde tarama yapmasını engelleyebilirsiniz. Feedfetcher hakkında daha fazla bilgi edinin.
Web'deki milyarlarca sayfayı bulup getirmek (veya "taramak") için sayısız bilgisayardan yararlanırız. Googlebot algoritmaya dayalı bir işlem kullanır: hangi sitelerin ne sıklıkta taranacağı ve her siteden kaç sayfa alınacağı bilgisayar programları tarafından belirlenir.
Googlebot'un tarama işlemi, önceki tarama işlemlerinde oluşturulan web sayfası URL'lerinin listesiyle başlar ve web yöneticileri tarafından sağlanan Site Haritası verileriyle artar. Googlebot, bu web sitelerini ziyaret ettiğinde her sayfadaki bağlantıları (SRC ve HREF) tespit eder ve bunları taranacak sayfalar listesine ekler. Yeni siteler, mevcut sitelerdeki değişiklikler ve geçersiz bağlantılar belirlenerek Google dizinini güncellemek için kullanılır.
Web yöneticileri için: Googlebot ve siteniz
Googlebot sitenize nasıl erişir?
Çoğu site için, Googlebot'un, sitenize ortalama olarak her birkaç saniyede birden fazla erişmemesi gerekir. Ancak, ağ gecikmeleri yüzünden, kısa dönemlerde bu hızın biraz daha yüksek olduğunu görebilirsiniz. Genel olarak, Googlebot her defasında her bir sayfanın yalnızca bir kopyasını indirmelidir. Googlebot'un bir sayfayı birden çok kez indirdiğini görürseniz, bunun nedeni muhtemelen tarayıcının durup yeniden başlamış olmasıdır.
Googlebot, performansını artırmak ve web büyüdükçe ölçeklenmesini sağlamak için birçok makineye dağıtılmak üzere tasarlanmıştır. Ayrıca, bant genişliği kullanımını azaltmak amacıyla çok sayıda tarayıcıyı ağda dizine ekledikleri sitelere yakın yerlerde bulunan makinelerde çalıştırırız. Dolayısıyla, günlüklerinizde google.com'daki birkaç makineden, tümü de Googlebot kullanıcı aracısına sahip ziyaretler görebilirsiniz. Amacımız, sunucunuzun bant genişliğinde aşırı yoğunluğa yol açmadan her ziyaretimizde sitenizden mümkün olduğunca çok sayfayı taramaktır. Tarama hızının değiştirilmesi için istekte bulunun.
Googlebot'un sitenizdeki içeriğe erişmesini engelleme
Bağlantılarını yayınlamayarak bir web sunucusunu gizli tutmak neredeyse imkansızdır. Bir kullanıcı "gizli" sunucunuzdaki bir bağlantıyı izleyerek başka bir web sunucusuna gittiği anda "gizli" URL'niz yönlendiren etiketinde görülebilir ve diğer web sunucusu tarafından yönlendiren günlüğüne kaydedilip herkesin erişebileceği şekilde yayınlanabilir. Benzer bir şekilde, internet'te çok sayıda eski ve bozuk bağlantı bulunmaktadır. Biri sitenize hatalı bir bağlantı yayınladığında veya mevcut bağlantıları sunucunuzdaki değişiklikleri yansıtacak şekilde güncellemediğinde, Googlebot sitenizden hatalı bir bağlantı indirmeyi dener.
Googlebot'un sitenizdeki içeriği taramasını önlemek istiyorsanız, sunucunuzdaki dosyalara ve dizinlere erişimi engellemek için robots.txt dosyasını kullanmayı da kapsayan çeşitli seçenekleriniz vardır. Robots.txt dosyanızı oluşturduktan sonra, Googlebot'un değişikliklerinizi keşfetmesinde küçük bir gecikme olabilir. Googlebot, robots.txt içinde engellediğiniz içeriği taramaya devam ediyorsa, robots.txt dosyasının doğru konumda olup olmadığını kontrol edin. Dosya, sunucunun en üst dizininde (örn., www.anamakinem.com/robots.txt) olmalıdır; alt dizinlerden birine yerleştirilirse dosyanın hiçbir bir etkisi olmaz.
Web sunucusu günlüğünüzdeki "dosya bulunamadı" hata iletilerini önlemek istiyorsanız, robots.txt adlı boş bir dosya oluşturabilirsiniz. Googlebot'un sitenizin bir sayfasındaki hiçbir bağlantıyı izlememesini istiyorsanız, nofollow meta etiketini kullanabilirsiniz. Googlebot'un tek bir bağlantıyı izlemesini önlemek için bağlantının kendisine rel="nofollow" özniteliği ekleyin.
Burada bazı ek ipuçları sağlanmıştır:
- Robots.txt dosyanızın beklendiği şekilde çalışıp çalışmadığını test edin.</STRONG> Web Yöneticisi Araçları'ndaki robots.txt test aracı, Googlebot'un robots.txt dosyanızın içeriğini tam olarak nasıl yorumlayacağını görmenizi sağlar. Google kullanıcı aracısı (yeterince uygun bir şekilde) Googlebot'tur.
- Web Yöneticisi Araçları'ndaki Googlebot gibi Getir aracı, sitenizin Googlebot tarafından tam olarak nasıl görüldüğünü anlamanıza yardımcı olur. Bu araç, sitenizin içeriğiyle veya arama sonuçlarında keşfedilebilirliğiyle ilgili sorunları giderirken çok kullanışlı olabilir.
Googlebot, siteleri, sayfadan sayfaya bağlantıları izleyerek keşfeder. Web Yöneticisi Araçları'ndaki Tarama hataları sayfası, Googlebot'un sitenizi tararken bulduğu tüm sorunları listeler. Sitenizle ilgili sorunları tanımlamak için düzenli olarak bu tarama hatalarını gözden geçirmenizi öneririz.
Robots.txt dosyanız beklendiği gibi çalışıyor, ancak siteniz trafik almıyorsa, içeriğinizin aramalarda iyi bir performans göstermemesinin olası nedenleri burada belirtilmiştir.
Spam gönderenler ve diğer kullanıcı aracılarıyla ilgili sorunlar
Googlebot tarafından kullanılan IP adresleri zaman zaman değişmektedir. Erişimleri Googlebot ile tanımlamanın en iyi yolu kullanıcı aracı (Googlebot) kullanmaktır. Ters DNS aramasını kullanarak sunucunuza gelen bot erişiminin gerçekten Googlebot olup olmadığını doğrulayabilirsiniz.
Googlebot ve diğer güvenilir arama motoru botları robots.txt dosyasındaki yönergelere uyar, ancak bazı kötü amaçlı kişiler ve spam gönderenler bunlara uymaz. Spam'ı Google'a bildirin.
Google'ın aralarında Feedfetcher'ın (Feedfetcher-Google kullanıcı aracısı) da bulunduğu birkaç başka kullanıcı aracısı daha vardır. Feedfetcher istekleri otomatik tarayıcılardan değil, özet akışlarını Google ana sayfalarına veya Google Reader'a ekleyen gerçek kullanıcıların açık bir şekilde gerçekleştirdikleri işlemlerden geldiği için, Feedfetcher robots.txt yönergelerini izlemez. Sunucunuzu Feedfetcher-Google kullanıcı aracısına 404, 410 veya başka bir hata durumu iletisi sunacak şekilde yapılandırarak, Feedfetcher'ın sitenizde tarama yapmasını engelleyebilirsiniz. Feedfetcher hakkında daha fazla bilgi edinin.