Hướng dẫn tạo file Robots.txt chuẩn SEO cho Blogspot
Robots.txt là gì?
Robots.txt là một tệp gồm các lệnh điều hướng quá trình thu nhập dữ
liệu của các công cụ tìm kiếm. File này sẽ giúp bạn quản lí được trang nào
được phép thu nhập dữ liệu và lập chỉ mục (index) lên công cụ tìm kiếm. Điều
này rất tốt cho SEO khi bạn ngăn chặn được một số liên kết không mong muốn index lên công
cụ tìm kiếm nhưng cũng sẽ phản tác dụng nếu cấu hình file này sai. Trong bài
viết này, mình sẽ hướng dẫn các bạn
cách cấu hình file robots.txt cho Blogspot chuẩn SEO.
Vì sao nên sử dụng tệp Robots.txt?
Chúng ta không bắt buộc phải dùng tệp Robots.txt nhưng sẽ có một số lí do
thuyết phục bạn cài đặt file này cho Blogspot của mình.
- Chặn index các tài nguyên không cần thiết (ví dụ: video, file PDF, ...)
- Chặn index trang không cần thiết
- Tối ưu quá trình crawl: Google luôn có một mức thu thập dữ liệu tối đa cho một website trong một khoảng thời gian nhất định. Vì thế, chúng ta cần index trang cần thiết và loại bỏ các trang cần thiết để tiết kiệm cho quá trình crawl này.
Các lệnh cơ bản của file Robots.txt
- User-agent: là tên của các bot thu thập dữ liệu của các công cụ tìm kiếm.
- Allow: cú pháp cho phép các robot của công cụ tìm kiếm thu thập dữ liệu.
- Disallow: cú pháp không cho phép các robot của công cụ tìm kiếm thu thập dữ liệu.
- Sitemap: khai báo vị trí sitemap của website.
- Crawl-delay: quy định thời gian các crawler phải chờ để thu thập dữ liệu (cú pháp này ít được sử dụng).
Thêm file Robots.txt cho blog
Bước 1: Vào trang quản lí blog của bạn > Cài đặt
User-agent: Media partners-Google
User-agent: Googlebot User-agent: Bingbot
User-agent: *
Allow: /
Allow: /search/label
Disallow: /search
Disallow: *archive.html
Sitemap: https://www.hungkutin.xyz/atom.xml?redirect=false&start-index=1&max-results=500
Thay hungkutin.xyz thành địa chỉ website của bạn và nếu blog bạn có trên 500 bài viết thì hãy thay cuối link sitemap thành con số cao hơn nha!.
Mình sẽ giải thích thêm về cấu hình này:
User-agent: Media partners-Google
User-agent: Googlebot
User-agent: Bingbot
User-agent: *
Cách dùng trên tức là cho phép các bot vào thu nhập dữ liệu như bot của
Google, Bing ( công cụ này cũng khá phổ biến nên cũng cần thiết) và xác định
các công cụ tìm kiếm mà quy tắc được áp dụng trong tệp.
Allow: /
Allow: /search/label
Dòng này nghĩa là cho phép index các tiền tố url, ví dụ ở đây mình cho phép
index nhãn và các trang khác
Disallow: /search
Disallow: *archive.html
Ở đây mình sẽ chặn index các trang tìm kiếm để tránh người dùng click vào mà
không có nội dung và cả trang lưu trữ.
Sitemap:
https://www.hungkutin.xyz/atom.xml?redirect=false&start-index=1&max-results=500
Đây là sơ đồ trang web.
Hướng dẫn tùy chỉnh file robots.txt
Nếu bạn muốn chặn index một trang nào đó hãy thêm cú pháp:
Disallow: "địa chỉ trang muốn chặn"
Ví dụ mình muốn chặn trang sau:
https://www.hungkutin.xyz/p/tao-hinh-trai-tim.html
thì mình sẽ thêm vào File robots.txt
Disallow: https://www.hungkutin.xyz/p/tao-hinh-trai-tim.html
Kiểm tra hoạt động của robots.txt
Sau khi đã chỉnh sửa robots.txt theo ý muốn rồi thì bạn hãy vào trình kiểm
tra của google để test xem mình đã chỉnh đúng hay chưa (có thể bỏ qua bước
này cũng được).
1 nhận xét
Love from mrlaboratory.info ❤❤
Read Our Article !!