Muốn website xuất hiện trên Search Engine Result Pages thì bạn cần để con Bots di chuyển đến những trang quan trọng trên website. File robots.txt có khả năng kiểm soát truy cập của những con bots này tới trang cần thiết. Trong bài viết này, chúng tôi sẽ giúp bạn hiểu rõ file robots.txt là gì và tại sao phải sử dụng nó nhé!
File robots.txt là gì?
Robots.txt là một file văn bản dùng để hỗ trợ hoạt động SEO website. Nó khai báo cho phép hay không cho phép các bots của Search Engine thu thập dữ liệu trong tài nguyên của website.
Việc tạo file robots.txt giúp Search Engine Bots chỉ truy cập vào những trang quan trọng trên website. Ngay cả khi bạn không cài file robots.txt thì trình tìm kiếm sẽ vẫn quét website của bạn. Nhưng hiệu quả sẽ không cao, vì Bots sẽ index toàn bộ nội dung bao gồm cả những nội dung bạn không mong muốn.
Nếu không có file robots.txt thì sẽ có rất nhiều loại bots đến để quét website của bạn. Điều đó ảnh hưởng không tốt đến năng suất hoạt động của website. Nó khiến tốc độ tải trang bị chậm hơn bình thường. Do đó, tạo file robots.txt thực sự cần thiết nếu muốn website của bạn hoạt động một cách hiệu quả.
Tại sao bạn cần robot.txt?
Các tệp robots.txt giúp kiểm soát truy cập trình thu thập thông tin đến các khu vực nhất định trên trang web của bạn. Mặc dù điều này có thể rất nguy hiểm nếu bạn vô tình không cho phép Google bots thu thập dữ liệu trên toàn bộ trang web của bạn. Tuy nhiên, trong một số tình huống thì tệp robot.txt lại trở nên rất hữu ích như:
Ngăn chặn nội dung trùng lặp xuất hiện trong SERPs
Giữ toàn bộ các phần của trang web ở chế độ riêng tư
Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP công khai
Hỗ trợ chỉ định vị trí của sơ đồ trang web
Ngăn công cụ tìm kiếm lập chỉ mục các tệp nhất định trên trang web của bạn (hình ảnh, PDF, v.v.)
Ngăn máy chủ của bạn bị quá tải khi trình thu thập dữ liệu tải nhiều nội dung cùng một lúc
File robots.txt nằm ở đâu trên trang web?
File robots.txt được tạo ra ngay tại thư mục gốc của máy chủ khi bạn tạo website WordPress. File robots.txt là một file ảo do WordPress tự tạo nên và nó mặc định khi cài đặt. Thông thường, file robots.txt sẽ được đặt ở thư mục gốc. Nếu bạn muốn tạo thêm file robots.txt thì cần phải tạo một file mới để thay thế file cũ trong thư mục gốc đó.
Quy tắc thêm vào file robots.txt
Sau khi tạo file robots.txt, bạn cần mở một trình soạn thảo văn bản và lưu một file trống có tên robots.txt. Bạn cũng cần thêm một số quy tắc vào tập tin đó. Sau đó, lưu lại và upload lên thư mục gốc của Domain.
Search Engine sẽ tiến hành kiểm tra tập tin robots.txt khi chúng thu thập thông tin từ blog hay website bất kỳ. Mỗi Domain phụ và các giao thức khác nhau bạn nên tạo các file robots.txt riêng biệt.
Quy tắc cơ bản nên thêm vào một file robots.txt là:
User-agent: xác định công cụ tìm kiếm mà quy tắc được áp dụng
Allow: cho phép công cụ tìm kiếm thu thập các thông tin và lập chỉ mục
Disallow: không cho phép công cụ tìm kiếm thu thập các thông tin và lập chỉ mục
Mẫu file robots.txt chuẩn cho wordpress
Dưới đây là mẫu file robots.txt chuẩn cho WordPress được sử dụng rất nhiều. Bạn hoàn toàn có thể dùng mẫu này cho website hay blog WordPress của mình. Tuy nhiên, bạn cũng nên chú ý tùy biến nó sao cho phù hợp với từng hoàn cảnh khác nhau.
Mẫu file robots.txt chuẩn dành cho WordPress:
User-agent”: *
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /?s=*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: http://bkns.com/sitemap_index.xml
Đến đây chắc hẳn bạn đã hiểu được file robots.txt là gì và những điều cơ bản về nó rồi. Hy vọng rằng những thông tin này sẽ giúp ích trong việc xây dựng website của bạn. Để được tư vấn chi tiết về file robots.txt, các dịch vụ về marketing, SEO,… Xin liên hệ hotline hoặc tham khảo tại website: https://ondigitals.com/.