Top Menu

Menghapus Duplikat Konten Dari Google

By joe

Posted in | Tags :

Ini yaitu cuilan overview dari Google Webmaster Tools yang menyampaikan “Google dikala ini tidak sanggup mengakses halaman anda sebab adanya pembatasan robots.txt”. Arghh!

Ini dikarenakan sebab beberapa malam yang lalu, saya menciptakan beberapa perubahan pada situs untuk menghapus duplikat konten di Google. Google (dan mesin pencari lainnya) tidak suka duplikat konten, jadi dengan menghapus arsip halaman, kategori, feed, dll dari indeks mereka, saya harus bisa untuk mengurangi jumlah keseluruhan halaman dari situs ini yang terdaftar dan pada dikala yang sama meningkatkan kualitas hasil telusur (posisi saya dan mudah-mudahan dalam indeks). Idealnya, saya sanggup pribadi menuju lokasi mesin pencari hanya untuk mengindeks halaman depan dan halaman posting.

Aku menurut perubahan pada beberapa informasi di web saya yang menjadikan beberapa masalah, jadi ini yaitu apa yang saya lakukan dan catatan berikut ini, mudah-mudahan orang lain saya tidak akan mengulang kesalahan yang saya perbuat, namun terdapat pengecualian, gunakan petunjuk ini dengan hati-hati, Saya tidak bertanggung jawab jikalau orang lain melaksanakan kesalahan yang saya perbuat.

Ini yaitu cuilan overview dari Google Webmaster Tools yang menyampaikan Menghapus duplikat konten dari Google

Pertama, saya menciptakan beberapa perubahan pada cuilan <head> di WordPress template:

<?php if(is_single() || is_page() || is_home()) { ?>

<meta name=”robots” content=”all” />

<?php } else { ?>

<meta name=”googlebot” content=”noindex,noarchive,follow,noodp” />

<meta name=”robots” content=”noindex,noarchive,follow” />

<meta name=”msnbot” content=”noindex,noarchive,follow” />

<?php }?>

Karena konten yang dihasilkan WordPress secara dinamis, ini memberitahu mesin pencari mana yang harus di index, dan yang harus keluar, tergantung jenis halaman. Jadi, pada dasarnya, jikalau ini merupakan posting halaman, satu halaman, atau halaman muka maka Google akan mengindexnya, jikalau tidak mengikuti hukum yang sesuai untuk Google, MSN atau search engine lainnya, memberitahu mereka tidak mengindeks arsip atau halaman tetapi follow untuk setiap link, Google tidak menyertakan setiap informasi direktori. Hal ini menurut saran dari askapache.com tetapi diubah sebab standar sikap untuk mengindeks spider, follow all, jadi saya tidak perlu menetapkan hukum khusus untuk Google dan MSN menyerupai pada contoh.

Selanjutnya, berikut hikmah untuk memakai robots.txt untuk menghindari duplikasi konten, saya mulai mengedit file robots.txt. Cukup untuk menyampaikan bahwa hasil simpulan akan terlihat pada web server dan bagi mereka yang berpikir bahwa penerbitan lokasi robots.txt yaitu ilham yang jelek (karena isi efektif yaitu daftar tempat-tempat bahwa saya tidak ingin orang mengklik link tersebut), maka dari itu saya berpikir dengan cara menyerupai ini: robots.txt yaitu standar banyak file di web server, oleh kebutuhan yang harus dibaca dan sebab itu dilarang dipakai untuk tujuan keamanan.

Perubahan yang telah saya buat untuk memblokir folder tertentu:

Disallow: /blog/page

Disallow: /blog/tags

Disallow: /blog/wp-admin

Disallow: /blog/inc

Disallow: /blog/other

Disallow: /*/feed

Disallow: /*/trackback

Saya juga memblokir ekstensi file tertentu:

Disallow: /*.css$

Disallow: /*.html$

Disallow: /*.js$

Disallow: /*.ico$

Disallow: /*.opml$

Disallow: /*.php$

Disallow: /*.shtml$

Disallow: /*.xml$

Kemudian, saya memblokir URL yang mengandung “?” ¬†Kecuali mereka yang diakhiri dengan “?:”

Allow: /*?$

Disallow: /*?

Masalahnya di <head> ini sebab saya memblokir semua file yang memakai .php

Disallow: /*.php$

Contohnya http://www.netrix.freetzi.com/blog/ setara dengan http://www.netrix.freetzi.com/blog/index.php maka saya telah efektif menghentikan spider mengakses halaman index. Saya tidak yakin spider menyatakan halaman tersebut yaitu duplikat. Saya menuntaskan duduk masalah ini dengan memakai file robots.txt yang mengijinkan file index.php terindex (dan beberapa file penting yaitu sitemap.xml)

Allow: /blog/index.php

Allow: /sitemap.xml

Ada juga bahwa wildcard (*,?) tidak membolehkan yang berlaku dan aba-aba robots.txt file sehingga akan gagal validasi. Setelah sedikit riset saya menemukan bahwa mesin pencari utama setiap ditambahkan santunan untuk perangkat embel-embel mereka sendiri ke robots.txt spesifikasi:

  • Google (Googlebot), Yahoo! (Slurp) and Ask (Teoma) support allow directives.
  • Googlebot, MSNbot and Slurp support wildcards.
  • Teoma, MSNbot and Slurp support crawl delays.

Oleh sebab itu, saya menciptakan beberapa kode blok, satu untuk masing-masing mesin pencari utama dan menangkap semua spider, jadi struktur dasarnya adalah:

# Google

User-agent: Googlebot

# Tambahkan url disini

# MSN

User-agent: msnbot

# Tambahkan url disini

# Yahoo!

User-agent: Slurp

# Tambahkan url disini

# Ask

User-agent: Teoma

# Tambahkan url disini

# Untuk semua user-agent

User-agent: *

# Tambahkan url disini

Hanya untuk tambahan, saya menambahkan beberapa kode untuk Alexa archiver dan Google AdSense.

# Alexa archiver

User-agent: ia_archiver

Disallow: /

# Google AdSense

User-agent: Mediapartners-Google*

Disallow:

Allow: /*

Akhirnya, saya menemukan bahwa Google, Yahoo, ask.com dan Microsoft kini mendukung sitemap autodiscovery melalui robots.txt.


Sumber https://product.balimediakomputer.com/

Share this story

About The joe

Bali Media Komputer adalah sebuah perusahaan yang bergerak di bidang pengadaan komputer, perlengkapan dan aksesoris komputer. Call Us : 0821 4567 5758

Related Posts

Comments are closed.
btt
BaliMediakomputer.com Toko Online Jual Produk Hardware Resmi Di Denpasar Bali Dengan Pelayanan Tercepat, Aman dan Terpercaya. Call Us 082145675758 - 087762649000 / Email : info@balimediakomputer.com
error: Alert: Content is protected !!