Hướng dẫn tạo file Robots.txt chuẩn SEO cho Blogspot - HùngKuTin

Hướng dẫn tạo file Robots.txt chuẩn SEO cho Blogspot

 Robots.txt là gì?

Robots.txt là một tệp gồm các lệnh điều hướng quá trình thu nhập dữ liệu của các công cụ tìm kiếm. File này sẽ giúp bạn quản lí được trang nào được phép thu nhập dữ liệu và lập chỉ mục (index) lên công cụ tìm kiếm. Điều này rất tốt cho SEO khi bạn ngăn chặn được một số liên kết không mong muốn index lên công cụ tìm kiếm nhưng cũng sẽ phản tác dụng nếu cấu hình file này sai. Trong bài viết này, mình sẽ hướng dẫn các bạn cách cấu hình file robots.txt cho Blogspot chuẩn SEO.


Vì sao nên sử dụng tệp Robots.txt?

Chúng ta không bắt buộc phải dùng tệp Robots.txt nhưng sẽ có một số lí do thuyết phục bạn cài đặt file này cho Blogspot của mình.
  • Chặn index các tài nguyên không cần thiết (ví dụ: video, file PDF, ...)
  • Chặn index trang không cần thiết
  • Tối ưu quá trình crawl: Google luôn có một mức thu thập dữ liệu tối đa cho một website trong một khoảng thời gian nhất định. Vì thế, chúng ta cần index trang cần thiết và loại bỏ các trang cần thiết để tiết kiệm cho quá trình crawl này.

Các lệnh cơ bản của file Robots.txt

Dưới đây là một số lệnh cơ bản giúp file Robots.txt hoạt động.
  • User-agent: là tên của các bot thu thập dữ liệu của các công cụ tìm kiếm.
  • Allow: cú pháp cho phép các robot của công cụ tìm kiếm thu thập dữ liệu.
  • Disallow: cú pháp không cho phép các robot của công cụ tìm kiếm thu thập dữ liệu.
  • Sitemap: khai báo vị trí sitemap của website.
  • Crawl-delay: quy định thời gian các crawler phải chờ để thu thập dữ liệu (cú pháp này ít được sử dụng).

Thêm file Robots.txt cho blog

Bước 1: Vào trang quản lí blog của bạn > Cài đặt



Bước 2: Kéo xuống tìm phần Trình thu thập thông tin và lập chỉ mục và bật lên


Cấu hình Robots.txt chuẩn nhất cho Blogspot

Dưới đây là cấu hình file Robots.txt tốt cho Blogspot

User-agent: Media partners-Google User-agent: Googlebot User-agent: Bingbot User-agent: * Allow: / Allow: /search/label Disallow: /search Disallow: *archive.html Sitemap: https://www.hungkutin.xyz/atom.xml?redirect=false&start-index=1&max-results=500

Thay hungkutin.xyz thành địa chỉ website của bạn và nếu blog bạn có trên 500 bài viết thì hãy thay cuối link sitemap thành con số cao hơn nha!.

Mình sẽ giải thích thêm về cấu hình này:

User-agent: Media partners-Google User-agent: Googlebot User-agent: Bingbot User-agent: *
Cách dùng trên tức là cho phép các bot vào thu nhập dữ liệu như bot của Google, Bing ( công cụ này cũng khá phổ biến nên cũng cần thiết) và xác định các công cụ tìm kiếm mà quy tắc được áp dụng trong tệp.


Allow: / Allow: /search/label

Dòng này nghĩa là cho phép index các tiền tố url, ví dụ ở đây mình cho phép index nhãn và các trang khác

Disallow: /search Disallow: *archive.html

Ở đây mình sẽ chặn index các trang tìm kiếm để tránh người dùng click vào mà không có nội dung và cả trang lưu trữ.

Sitemap: https://www.hungkutin.xyz/atom.xml?redirect=false&start-index=1&max-results=500

Đây là sơ đồ trang web.

Hướng dẫn tùy chỉnh file robots.txt

Nếu bạn muốn chặn index một trang nào đó hãy thêm cú pháp:

Disallow: "địa chỉ trang muốn chặn"
Ví dụ mình muốn chặn trang sau: https://www.hungkutin.xyz/p/tao-hinh-trai-tim.html thì mình sẽ thêm vào File robots.txt
Disallow: https://www.hungkutin.xyz/p/tao-hinh-trai-tim.html

Kiểm tra hoạt động của robots.txt

Sau khi đã chỉnh sửa robots.txt theo ý muốn rồi thì bạn hãy vào trình kiểm tra của google để test xem mình đã chỉnh đúng hay chưa (có thể bỏ qua bước này cũng được).

Kiểm Tra