Bước 1: Dùng Notepad tạo 1 file tên là Robots và lưu dưới dạng file txt nhé.
Bước 2: Tùy nhu cầu ý muốn copy đoạn text dưới đây dán vào file Robots.txt vừa tạo rồi lưu lại.
Bước 3: Upload file lên host, đặt ngang với index.html / index.php nhé.
Trường hợp hay sử dụng:
Ý nghĩa:User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/
User-agent: * : Cho phép mọi bot của Google
Disallow: /wp-admin/ : Chặn bot vào thư mục /wp-admin/ (Chặn đi chứ cho Google index file liên quan đến thông tin đăng nhập làm gì)
Disallow: /wp-includes/ : Chặn bot vào thư mục /wp-includes/
a.Khóa toàn bộ website không cho bot đánh chỉ mục
User-agent: *==> có nghĩa là cấm tất cả các loại bot truy cập vào tất cả tài nguyên có trên website của bạn, như vậy có nghĩa là website bạn chả thèm chơi với các SE
Disallow: /
b.Không cho phép bot truy cập vào thư mục nào mà mình không muốn
Lấy lại ví dụ trên :==> Diều này có nghĩa là cho phép tất cả các loại bot thu thập chỉ trừ 2 thư mục wp-admin và wp-includesUser-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/
c.Chặn 1 trang
Disallow: /lien-he.html
d.Loại bỏ 1 hình từ Google Images
User-agent: Googlebot-Image
Disallow: /images/hinh.png
e.Chặn một bot nào đó
User-agent: SpamBot==> Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. Và bot SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác được truy cập tất cả trừ thư mục “wp-admin ” và "wp-includes"
Disallow: /
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
User-agent: SpamBot==> Không cho phép SpamBot truy cập các thư mục được liệt kê như: thư mục “admin”, “includes” và và file “config.php” . Còn các bot khác được truy cập mọi thứ trừ hai thư mục “admin” và “includes”.
Disallow: /admin/
Disallow: /includes/
Disallow: /config/config.php
User-agent: *
Disallow: /admin/
Disallow: /includes/
f.sử dụng đồng thời “Allow” và “Disallow” cùng nhau
== > có nghĩa là chặn Googlebot truy cập vào tài nguyên có trong thư mục "vidu" .Nhưng chỉ có thể truy cập được file "demo-thoi-nha.html"User-agent: Googlebot Disallow: /vidu/ Allow: /vidu/demo-thoi-nha.html
== > Chặn không cho Googlebot truy cập vào tài nguyên trên website, nhưng lại cho phép Googlebot-Mobile truy cập vào tài nguyên trên website bạnUser-agent: Googlebot Disallow: / User-agent: Googlebot-Mobile Allow: /
3.Nên tránh những sai sót sau
Khi các bạn sử dụng lại một robots.txt của ai đó hoặc tự mình tạo ra một robots.txt riêng cho website mình thì cũng không tránh khỏi những sai sót- Phân biệt chữ hoa chữ thường.
- Không được viết dư, thiếu khoảng trắng.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
- Mỗi một câu lệnh nên viết trên 1 dòng.
Đó là tất cả những gì mà kiến thức mình biết về robots.txt , nếu có góp ý gì comment phía dưới góp ý cho mình nhé.
0 nhận xét:
Post a Comment