robots.txt là gì?
Robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết các trang hoặc tệp mà trình thu thập dữ liệu có thể hoặc không thể yêu cầu từ trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web của bạn; tệp không phải là cơ chế để ẩn một trang web khỏi Google.
File robot.txt là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn web, quy định cách robot web (hoặc robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.
Nói một cách khác Robots.txt một tập tin văn bản đơn giản có dạng .txt, đặc biệt không phải là HTML hay một loại nào khác. Nó giúp cho các webmaster linh hoạt hơn trong việc cho phép hay không cho phép con bot của các công cụ tìm kiếm đánh chỉ mục index một link nào đó hay một khu vực nào đó trong website của bạn.
Tìm hiểu về Robots.txt
Robots Exclusion Protocol cũng bao gồm các lệnh như meta robots, page-subdirectory, site-wide instructions. Nó hướng dẫn các công cụ tìm kiếm xử lí các liên kết một cách chính xác nhất theo khai báo của người dùng. Ví dụ: follow hay nofollow link.
Đọc thêm: Marketing Research Là Gì? Tại Sao Cần Phải Nghiên Cứu Thị Trường?
Định dạng cơ bản:
User-agent: [User-agent Tên của search engine mà bạn muốn điều khiển]Disallow: [URL chuỗi không được thu thập dữ liệu]
Cú pháp của file robots.txt
Cú pháp Robots.txt có thể được xem là ngôn ngữ của các tập tin robot.txt. Có 5 thuật ngữ phổ biến mà bạn có thể gặp trong một file robot. Chúng bao gồm:
- User-agent: Khai báo tên của search engine mà bạn muốn điều khiển, ví dụ: Googlebot, Yahoo!, Bingbot,…)
- Disallow: Là khu vực mà bạn muốn khoanh vùng không cho phép search engine truy cập.
- Allow (chỉ áp dụng cho Googlebot): Lệnh này thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
- Crawl-delay: Thông số này xác định thời gian (tính bằng giây) bots phải đợi trước khi chuyển sang phần tiếp theo. Điều này sẽ có ích để ngăn chặn các search engine load server tùy tiện.
- Sitemap: Lệnh này được sử dụng để cung cấp các vị trí của bất kì XML sitemap nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi Google, Ask, Bing và Yahoo.
Vì sao nên sử dụng Robots.txt?
Sử dụng Robots.txt trên website wordpress giúp bạn kiểm soát được việc truy cập của các bot đến các khu vực nhất định trên trang của mình. Đồng thời, nó giúp ngăn chặn nội dung trùng lặp xuất hiện trên một website, giữ một số phần của website ở chế độ riêng tư, giữ các trang kết quả tìm kiếm nội bộ không hiển thị SERP, chỉ định vị trí sitemap, ngăn chặn các công cụ tìm kiếm lập chỉ mục (index) một số tệp và link nhất định trên website, ngăn chặn việc máy chủ bị quá tải khi các trình dữ liệu tải nhiều nội dung cùng một lúc.
Cách tạo file Robots.txt
File robots.txt là một dạng file rất đơn giản có thể được tảo bởi công cụ hoặc các trình soạn thảo như: Notepad, Notepad ++, Adobe Dreamweaver…
Dưới đây là ví dụ khai báo 1 file robots.txt cho những website sử dụng WordPress như sau:
- User-agent: *
- Disallow: /
- Disallow: /wp-admin/
- Disallow: /feed/
- Disallow: /images/ten-file-hinh.JPG
- Allow: /wp-admin/admin-ajax.php
Giải thích:
- User-agent: * : Cho tất các các loại bot truy cập vào website
- Disallow: / : Chặn không cho bot truy cập vào toàn bộ website
- Disallow: /wp-admin/ : Chặn không cho bot truy cập vào link /wp-admin
- Disallow: /feed/ : Chặn không cho bot truy cập vào link /feed
- Disallow: /images/ten-file-hinh.JPG: Chặn không cho bot truy cập vào file ảnh có tên ten-file-hinh.JPG
- Allow: /wp-admin/admin-ajax.php: cho phép bot truy cập vào link này /wp-admin/admin-ajax.php
Cách sử dụng file Robot.txt
1. Không cho phép con bot truy cập vào 1 thư mục nào đó mà mình không thích:
- User-agent: * : Cho tất các các loại bot truy cập vào website
- Disallow: /xa-hoi/ : Chặn không cho bot truy cập vào thư mục có link /xa-hoi
- Disallow: /the-gioi/ : Chặn không cho bot truy cập vào thư mục có link /the-gioi
2. Khóa toàn bộ website không cho con bot vào để index ( lập chỉ mục ) website:
- User-agent: * : Cho tất các các loại bot truy cập vào website
- Disallow: / : Chặn không cho bot truy cập vào tất cả tài nguyên có trên website của bạn.
3. Chặn 1 trang nào đó:
- User-agent: * : Cho tất các các loại bot truy cập vào website
- Disallow: /gioi-thieu.html : Chặn không cho bot truy cập vào trang gioithieu.html
4. Chặn một bot nào đó bất kỳ:
- User-agent: botABC
- Disallow: /
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-includes/
- Như các bạn thấy cách khai báo ở trên thì botABC bị cấp truy cập tất cả tài nguyên. Trong khi các bot khác được truy cập tất cả chỉ trừ 2 thư mục không được phép: “wp-admin và wp-includes”.
5. Chặn 1 link hình từ thư mục Images của Website và thư mục Upload của WordPress:
- User-agent: *
- Disallow: /images/huong-dan-seo-2020.jpg
- Disallow: /wp-content/uploads/2020/03/anh-gioi-thieu-dep.jpg
Như vậy các bạn thấy mình đã chặn 2 link bị cấm không cho bot truy cập vào như trên. Còn các link khác ngoài 2 link trên bot không bị cấm truy cập nhé.
6. Cách sử dụng đồng thời “Allow” và “Disallow” cùng nhau như thế nào?
- User-agent: *
- Disallow: /the-gioi-hinh-anh/
- Allow: /do-hoa-dep/
Các bạn thấy đó mình đã kết hợp đồng thời “Allow” và “Disallow” trong file robots.txt là gì. Chỉ cần bạn thêm như trên thì có thể kết hợp đồng thời “Allow” và “Disallow” với nhau rồi. Khai báo bao nhiêu dòng cũng được.
Những điều lưu ý khi tạo file Robot.txt
Khi các bạn tạo file robots.txt riêng cho website của mình thì cũng không tránh khỏi những sai sót và những lỗi cơ bản nhất. Để tránh mắc phải sai sót các bạn nên chú ý các điều sau đây:
- Tên khai báo trong nội dung file Robot.txt có phân biệt chữ hoa và chữ thường.
- Không nên chèn thêm những ký tự đặc biệt nào khác ngoài các cú pháp lệnh.
- Mỗi một câu lệnh trong file Robot.txt nên viết trên 1 dòng.
- Không được viết dư, thiếu khoảng trắng.
- Không được viết chữ có dấu, ký tự lạ
- Không chèn các mã code hoặc html vào file Robot.txt
- Để được các con bot tìm thấy file robots.txt bạn phải đặt file robots.txt trong thư mục root domain cấp cao nhất của trang web.( ví dụ: www.example.com/robots.txt )
- Tên file viết chữ thường như sau: robots.txt
Đọc thêm: Mass Market Là Gì? Thực Hiện Mass Market Hiệu Quả Bằng Cách Nào?
Cách phân biệt Robots.txt, meta robot và x-robot
Robots.txt, meta robot và x-robot, sự khác biệt giữa các loại robot này là gì? Hãy xem mô tả bên dưới nhé:
robots.txt là một tệp văn bản trong khi meta robot và x-robot là các meta directives. Ngoài ra, chức năng của 3 loại robot này cũng hoàn toàn khác nhau. Robots.txt ra lệnh cho hành vi thu thập dữ liệu trên toàn bộ trang web hoặc thư mục, trong khi đó, meta robot và x-robot có thể ra lệnh cho hành vi lập chỉ mục (index) ở cấp độ trang (hoặc phần tử trang) riêng lẻ.
Những thông tin trên đã phần nào giúp cho bạn biết được cách tạo file robots.txt và hiểu được các thông số cũng như những cú pháp lệnh và ý nghĩa của từng câu lệnh. Bạn hãy kiểm tra lại thử website của mình đã có file robots.txt hay chưa. Nếu chưa các bạn hãy tiến hành tạo và bổ sung file robots.txt cho website của mình nhé. Các bạn có quan tâm đến các khóa học Digital Marketing thì hãy vào trang chủ tham khảo nhé. Chúng tôi cập nhật thường xuyên các bài viết về Digital Marketing hàng tuần.
Rất mong nhận được sự đóng góp thêm của các bạn. Chân thành cảm ơn các bạn đã quan tâm theo dõi.
Tham khảo: moz