Robots.txt là gì ? Tác dụng của file robots.txt và cách sử dụng

Robots.txt là gì ?

Robots.txt là dạng tập tin đặc biệt không phải là HTML hay một loại nào khác. Mục đích của việc có file robots.txt là khai báo cho công cụ tìm kiếm biết rằng những nội dung nào trên website của bạn được cho phép các bot tìm kiếm và lập chỉ mục.

robots.txt là gì

Khác với sitemap là dẫn hướng các bot tìm kiếm và chỉ mục các nội dung trên website. Thì đối với file robots.txt bạn có quyền cho phép hoặc ngăn chặn các bot của các công cụ tìm kiếm index một nội dung nào đó trên website của mình.

Một ví dụ đơn giản về file robots.txt:


User-agent:*

Disallow: /wp-admin/

Disallow: /wp-includes/

Trong đó:

User-agent:* /*Cho phép tất cả các loại bot tìm kiếm*/

Disallow: /wp-admin/, Disallow: /wp-includes/ : /*Ngăn không cho phép bot tìm kiếm trong 2 thư mục này*/

Tác dụng của file Robots.txt

Như mình có nêu ở phía trên, tác dụng của việc tạo file robots.txt cho website hay blog của mình. Nhằm mục đích cho phép và ngăn chặn bot của các công cụ tìm kiếm và index các nội dung trên website.

Bạn có thể chặn các bot tìm kiếm dữ liệu trong một thư mục nào đó trên website, hoặc chặn bot index một đường dẫn nào đó bằng cách Disallow: “….”

Có thể xét ví dụ bên trên: Chặn các bot của công cụ tìm kiếm index các nội dung trong thư mục /wp-admin/ và /wp-includes/.

Thì đó là tác dụng chính của file robots.txt này. Và điều này là rất cần thiết.

Cách tạo file robots.txt

Để tạo một file robots.txt bạn thực hiện các bước như sau:

Tạo file

Bạn tạo một file Text Document

robots.txt là gì

Sau đó save lại với tên là robots.txt

robots.txt là gì 2

Như vậy, việc tạo file hoàn tất. Tiếp theo ta cần thêm các lệnh vào trong file này.

Thêm các câu lệnh

Trong phần này, mình sẽ giải thích một số câu lệnh. Bạn có thêm bớt tùy nhu cầu của các bạn. Phía dưới cuối phần này mình sẽ nêu ra một file robots.txt hoàn chỉnh. Bạn có thể sử dụng nó cho website của mình.

Chặn bot không cho chỉ mục toàn bộ website

Bạn có câu lệnh như sau:


User-agent:*

Disallow: /

Lệnh này có ý nghĩa: “Không cho phép các bot của công cụ tìm kiếm truy cập và đánh chỉ mục trên toàn bộ tài nguyên có trên website của bạn.”

Chặn bot chỉ mục vào một thư mục nhất định


User-agent:*

Disallow: /wp-admin/

Disallow: /wp-includes/

Lệnh này có nghĩa: “Cho phép bot lập chỉ mục tất cả dữ liệu trừ 2 thư mục /wp-admin/ và /wp-includes/ là không cho phép.”

Chặn một trang hay đường dẫn đến bài viết nào đó


User-agent:*

Disallow: /gioi-thieu.html

Lệnh này có nghĩa: “Cho phép bot đánh chỉ mục tất cả các dữ liệu trừ đường dẫn /gioi-thieu.html”

Chặn một hình ảnh nào đó


User-agent:*

Disallow: /images/tenhinhanhcanchan.jpg

Lệnh này có nghĩa: “Chặn một hình ảnh nào đó từ website của bạn, ngăn không cho các bot tìm kiếm và lập chỉ mục cho hình ảnh đó.”

Chặn một loại bot nào đó

 User-agent:Spambot

Disallow: /

Lệnh này có nghĩa: “Chặn botspam truy cập tất cả dữ liệu trên website của bạn”. Trong khi đó các bot khác thì được quyền truy cập”

Chặn tất cả các dữ liệu trong một thư mục trừ một file nào đó

 User-agent:*

Disallow: /thumucbichan/

Allow: /thumucbichan/filekhongbichan.html

Lệnh này có nghĩa: “Chặn bot tìm kiếm tất cả dữ liệu trong thư mục /thumucbichan/ nhưng cho phép lập chỉ mục file /filekhongbichan.html”

Trên đây là một số lệnh cơ bản khi bạn cần thêm vào file robots.txt. Tùy theo nhu cầu của các bạn mà thêm vào những lệnh cần thiết.

Một số lưu ý

Để tránh xảy ra sai sót khi bạn sử dụng một file robots.txt của người khác hoặc tự tạo riêng cho website của mình. Bạn cần lưu ý một số điều như sau:

  • Phân biệt chữ hoa và chữ thường
  • Không được viết thừa, thiếu khoảng trắng
  • Chỉ nên thêm các lệnh, ngoài ra không nên chèn thêm kí tự nào khác trong file.
  • Nên sử dụng 1 dòng cho 1 câu lệnh. Muốn viết lệnh mới nên xuống dòng sau đó viết tiếp

File robots.txt mẫu

Các bạn có thể sử dụng file robots.txt như của VNTIEN đang dùng dưới đây.


User-agent:*

Disallow: /wp-admin/

Disallow: /search?q=*

Disallow: *?replytocom

Disallow: */attachment/*

Allow: /wp-admin/admin-ajax.php

Allow: /wp-admin/images/*

Sitemap: http://vntien.com/sitemap_index.xml

Như vậy thôi, chúc các bạn thành công.

Lời kết

Phía trên đây là khái niệm và một số lưu ý khi tạo file robots.txt cho website wordpress mà mình muốn nêu ra cho các bạn hiểu rõ hơn. Còn bạn thì sao, bạn đang dùng file robots.txt như thế nào cho website của mình. Bạn có thể chia sẻ với mọi người cùng biết bằng cách bình luận dưới đây. Cảm ơn các bạn đã theo dõi bài viết này.

Latest Comments

  1. Tịnh Nguyễn Blog Th12 23, 2018

Leave a Reply