Apa Itu Robots.txt? Ini Cara Kerjanya

Waktu itu sekitar tahun 2020 awal, saya lagi coba-coba optimasi site saya yang baru. Niatnya sih biar Google cepat index semua halaman penting, dan yang gak penting ya disembunyikan. Saya baca banyak tutorial, kebanyakan bilang ‘pakai robots.txt aja’. Kedengarannya gampang, kan? Cuma file teks kecil yang isinya beberapa baris perintah. Saya pikir, tinggal tulis Disallow: /admin/ atau Disallow: /tag/, beres. Ternyata, itu cuma awal dari drama yang bikin saya pusing sendiri.

cara kerja robots.txt - Close-up of a woman's hands typing on a laptop while sitting comfortably indoors.

Saya ingat, seminggu setelah saya update file robots.txt, traffic di beberapa halaman penting malah anjlok. Bingung, saya cek Google Search Console, tapi gak ada notifikasi error yang jelas. Saya bolak-balik kode, cek plugin, sampai tidur cuma 4 jam sehari. Masalahnya bukan di kode, bukan di server, tapi di pemahaman saya sendiri soal cara kerja robots.txt.

Awalnya, Saya Kira Robots.txt Cuma File Teks Biasa (Sampai Kejadian Itu)

Dulu, saya salah mengira robots.txt itu semacam tembok ajaib yang kalau kita pasang, robot Google otomatis mundur teratur dan tidak akan pernah mengintip halaman di baliknya. Saya berasumsi, kalau saya tulis Disallow: /halaman-rahasia/, ya sudah, halaman itu akan menghilang dari peredaran Google selamanya. Logika saya waktu itu sederhana: kalau dilarang, ya berarti enggak boleh. Titik.

Tapi, kenyataannya jauh lebih kompleks dari itu. Robots.txt itu bukan tembok, melainkan lebih mirip papan peringatan atau rambu lalu lintas. Dia bilang ke robot, ‘Hei, sebaiknya kamu jangan lewat sini ya.’ Robot yang baik, seperti Googlebot, akan patuh. Tapi ada robot lain yang bandel, atau robot Google sendiri yang mungkin sudah tahu jalan lain ke halaman ‘terlarang’ itu.

Pengalaman paling parah, saya pernah tidak sengaja memblokir folder /wp-includes/ di site WordPress saya. Niatnya biar aman, eh malah bikin tampilan website jadi berantakan total di mata Google. Gambar gak muncul, CSS gak load. Di browser saya tampil normal, tapi di Google Search Console, laporan Crawl Errors-nya merah semua. Panik? Jelas. Saya baru sadar setelah semalaman debugging dan akhirnya cek laporan Crawl Stats di GSC. Ternyata Googlebot tidak bisa mengakses file-file penting untuk merender halaman. Ini bikin saya sadar, robots.txt itu pedang bermata dua.

Yang Tidak Pernah Dibilang Tutorial Umum: Bukan Soal Block, Tapi Soal Sinyal

Banyak tutorial pemula cuma fokus ke sintaks dasar robots.txt: User-agent dan Disallow. Mereka bilang, ‘Ini untuk memblokir, itu untuk mengizinkan.’ Selesai. Tapi jarang sekali yang menjelaskan nuansa pentingnya. Robots.txt itu instruksi, bukan perintah mutlak. Ini perbedaan krusial yang sering bikin salah paham.

Googlebot, misalnya, akan mencoba mematuhi instruksi di robots.txt. Tapi ada dua skenario di mana halaman yang di-Disallow bisa tetap muncul di hasil pencarian Google:

Halaman itu punya banyak backlink dari situs lain. Kalau banyak situs lain yang menautkan ke halaman yang kamu Disallow, Google mungkin masih memutuskan untuk mengindeks URL tersebut, meskipun dia tidak bisa meng-crawl isinya. Dia akan menampilkan URL-nya, tapi dengan deskripsi ‘A description for this result is not available because of this site’s robots.txt’. Ini bukan hasil yang kamu inginkan, kan?
Ada masalah teknis lain yang menghalangi Googlebot. Terkadang, kita menyalahkan robots.txt, padahal masalahnya di tempat lain. Misalnya, server yang down, atau ada meta noindex yang konflik.

Robots.txt sudah diset Disallow, kok halaman itu masih muncul di Google?

Ini pertanyaan klasik yang sering saya dengar, dan saya sendiri pernah mengalaminya. Penyebab utamanya adalah seperti yang saya bilang tadi: robots.txt itu cuma saran. Kalau Google menemukan banyak link ke halaman tersebut dari sumber eksternal, dia mungkin merasa halaman itu relevan dan layak ditampilkan, meskipun dia tidak bisa membaca isinya. Untuk benar-benar memastikan halaman tidak muncul di Google, kamu butuh meta noindex di bagian <head> halaman itu, atau menggunakan header HTTP X-Robots-Tag: noindex. Itu baru perintah mutlak.

Waktu Saya Salah Setup Robots.txt (dan Akibatnya ke Traffic)

Mungkin kesalahan paling fatal yang pernah saya buat adalah memblokir folder /wp-admin/ dan /wp-json/ di robots.txt. Niatnya biar aman dari bot jahat. Tapi saya lupa, ada beberapa plugin dan fungsi inti WordPress yang butuh akses ke /wp-json/ untuk bekerja dengan baik. Akibatnya, beberapa fitur di backend site saya jadi gak jalan. Lebih parah lagi, Googlebot sempat ngasih peringatan di GSC karena dia gak bisa mengakses beberapa sumber daya penting.

Kejadian itu sekitar pertengahan 2021, waktu saya lagi semangat-semangatnya merapikan ‘rumah’ website saya. Saya lihat ada banyak file di /wp-content/uploads/ yang gak penting, lalu saya Disallow seluruh folder itu. Hasilnya? Semua gambar di website saya lenyap dari hasil pencarian gambar Google. Traffic dari Google Images langsung drop tajam. Saya butuh waktu dua hari untuk menyadari kesalahan fatal itu, karena di mata saya, website masih tampil normal. Saya cuma melihat dari sisi pengguna, bukan dari sisi robot.

Pelajaran terpenting dari situ: jangan pernah berasumsi. Selalu cek dampaknya. Gunakan Google Search Console Robots.txt Tester. Ini tools gratis yang sangat membantu untuk melihat bagaimana Googlebot ‘membaca’ file robots.txt kamu. Dengan tools ini, kamu bisa simulasi dan melihat apakah URL tertentu akan diizinkan atau diblokir. Kalau tahu dari awal ada tools ini, mungkin saya gak akan kehilangan traffic berhari-hari.

Saya juga pernah mengalami, ada beberapa halaman yang saya Disallow di robots.txt, tapi ternyata masih di-crawl Google. Ternyata, ada kesalahan penulisan di file robots.txt-nya sendiri. Misalnya, spasi ekstra, atau huruf kapital yang salah. Robots.txt itu case-sensitive, jadi /Folder/ beda dengan /folder/. Detail kecil begini sering luput dari perhatian, tapi dampaknya bisa besar.

Kapan Robots.txt Benar-Benar Berguna (dan Kapan Malah Bikin Ribet)

Robots.txt itu punya tempatnya sendiri, dan dia sangat efektif untuk beberapa skenario. Dia berguna untuk:

Membatasi akses ke area sensitif: Folder /admin/, halaman login, atau skrip-skrip internal yang tidak perlu diakses publik.
Mengelola crawl budget: Jika kamu punya situs besar dengan ribuan halaman yang tidak penting (misalnya, filter produk, halaman paginasi tak terbatas, parameter URL), robots.txt bisa mengarahkan Googlebot untuk tidak membuang waktu meng-crawl halaman-halaman itu. Ini penting, apalagi kalau kamu punya sitemap XML yang besar.
Memblokir file media atau resource tertentu: Kalau kamu punya PDF, gambar, atau video yang tidak ingin muncul di hasil pencarian, kamu bisa menggunakan robots.txt.
Mengarahkan ke sitemap: Meskipun bukan fungsi utama, robots.txt sering digunakan untuk menautkan ke lokasi sitemap XML kamu, membantu Googlebot menemukan semua halaman penting.

Tapi, dia bisa bikin ribet kalau kamu pakai untuk hal yang salah. Jangan pakai robots.txt untuk:

Menyembunyikan konten sensitif: Kalau ada data rahasia atau informasi pribadi, jangan hanya mengandalkan robots.txt. Orang bisa saja langsung mengetik URL-nya. Gunakan proteksi password atau meta noindex.
Memblokir halaman yang sudah diindeks: Kalau halaman sudah terlanjur diindeks, Disallow di robots.txt tidak akan menghapusnya dari indeks. Kamu butuh meta noindex atau fitur penghapusan URL di Google Search Console.
Sebagai satu-satunya strategi SEO: Robots.txt itu cuma satu bagian kecil dari technical SEO. Dia bukan solusi semua masalah.

Lebih baik pakai Disallow di robots.txt atau meta noindex di HTML?

Ini tergantung tujuanmu. Kalau kamu ingin Googlebot tidak membuang waktu meng-crawl halaman tertentu (misalnya, halaman admin, hasil pencarian internal, halaman dengan parameter yang tidak perlu), gunakan Disallow di robots.txt. Ini menghemat crawl budget. Tapi ingat, halaman itu masih bisa muncul di indeks jika ada link eksternal.

Kalau kamu benar-benar tidak ingin halaman itu muncul di hasil pencarian Google sama sekali, dan kamu tidak peduli apakah Googlebot meng-crawl-nya atau tidak, gunakan <meta name="robots" content="noindex"> di bagian <head> halaman tersebut. Ini perintah mutlak. Seringkali, kombinasi keduanya adalah yang terbaik: Disallow di robots.txt untuk menghemat crawl budget, dan noindex untuk memastikan halaman tidak diindeks.

Mengintip Isi Robots.txt Lewat Google Search Console: Jangan Sampai Kaget

Setelah semua pengalaman ‘pahit’ saya, satu hal yang saya pelajari adalah: jangan pernah percaya asumsi. Selalu verifikasi. Dan untuk robots.txt, tools terbaik untuk verifikasi adalah Robots.txt Tester di Google Search Console. Ini gratis, dan sangat powerful.

Saya sering sekali menemukan kasus, entah itu di site saya atau site teman, di mana robots.txt yang kita kira sudah benar, ternyata ada kesalahan kecil yang berdampak besar. Misalnya, ada satu baris Disallow: / yang tidak sengaja aktif, yang artinya memblokir seluruh website! Atau ada User-agent: * yang tidak diikuti oleh Disallow apapun, padahal niatnya untuk memblokir bot spam.

Dengan Robots.txt Tester, kamu bisa:

Melihat versi robots.txt yang terakhir di-crawl Google. Ini penting, karena mungkin versi yang kamu lihat di hosting berbeda dengan yang dilihat Google.
Menguji URL spesifik. Kamu bisa masukkan URL apa saja dari situsmu, dan tester akan memberitahu apakah URL itu diizinkan atau diblokir oleh robots.txt, dan baris mana di robots.txt yang menyebabkan keputusan itu.
Mengidentifikasi kesalahan sintaks. Tester akan menyoroti kesalahan penulisan atau format yang bisa menyebabkan masalah.

Saya pernah menghabiskan berjam-jam mencoba mencari tahu kenapa satu halaman penting saya tidak terindeks. Setelah pakai Robots.txt Tester, baru ketahuan ada baris Disallow: /produk-lama/ yang tidak sengaja memblokir /produk-lama/promosi-terbaru/. Hanya karena ada awalan yang sama. Detail kecil, tapi efeknya ke traffic bisa langsung terasa.

Jadi, sebelum kamu panik melihat traffic turun atau halaman tidak terindeks, coba cek dulu robots.txt-mu pakai tester ini. Seringkali, masalahnya sesederhana itu. Kita cuma perlu tahu cara membacanya.

Saya menyalakan laptop, dan mulai dari langkah pertama yang tadi saya tulis: mengecek ulang setiap baris robots.txt di site saya.