Cách ngăn Google lập chỉ mục nguồn cấp dữ liệu ở WordPress

toi-uu-file-robots-txt

Tôi thích tối ưu hóa blog dựa trên WordPress của tôi. Vấn đề duy nhất là, tôi hiếm khi có đủ thời gian để làm điều đó – và vẫn còn, có một số cải tiến nhỏ, có thể mất ít hơn 5 phút thời gian của bạn, và vẫn có một tác động hữu hình đến việc tối ưu hóa blog tổng thể của bạn.
Một trong những điều này là cách chúng tôi có thể ngăn Google (và các công cụ tìm kiếm khác) lập chỉ mục (tìm kiếm) các nguồn cấp dữ liệu WordPress RSS.
Một vài dòng tiếp theo sẽ được dành cho vấn đề này (và chúng ta có thể giải quyết nó như thế nào).

Bắt đầu từ đâu?

Tôi nhớ rằng một thời gian trước đây tôi đã được kiểm tra những trang của optimiced.com được lập chỉ mục trong Google.
Tôi đã bối rối vì thực tế là, bên cạnh bài đăng blog, tôi đã tìm thấy rất nhiều nguồn cấp dữ liệu RSS, cũng đã được lập chỉ mục.

Tại sao bạn không cần Google để lập chỉ mục / nhện RSS feeds?

Trước hết, nội dung được đánh chỉ mục (đã tìm kiếm) được nhân đôi – 10 bài đăng cuối cùng hoặc nhận xét cuối cùng, có sẵn qua RSS, có thể được đọc trên blog. Điểm thứ hai, RSS được sử dụng với trình đọc RSS, không được đọc trong cửa sổ trình duyệt (ví dụ: văn bản và hình ảnh) Cuối cùng, nhưng không kém phần quan trọng, ai muốn sau khi một tìm kiếm trên Internet được thực hiện để đưa vào một trang RSS chưa được định dạng với ý kiến, ví dụ, thay vì trên chính bài viết blog, mà các ý kiến ​​có liên quan? Và điều này đã xảy ra với tôi, và hơn một lần …

(Ví dụ: bạn có thể sử dụng liên kết này để đăng ký nguồn cấp dữ liệu RSS của blog của tôi, hoặc chỉ để kiểm tra mười bài đăng blog mới nhất từ ​​tối ưu hóa ở định dạng RSS).

Chúng ta có thể ngăn ngừa điều này xảy ra không?

Tôi đã tìm kiếm trên Internet một thời gian, cho đến khi cuối cùng tôi đã bỏ qua diễn đàn WordPress Support, nơi giải pháp được tìm thấy, và chính chủ đề, có tiêu đề “Ngăn chặn lập chỉ mục các trang nguồn cấp dữ liệu”, được đánh dấu là ‘đã giải quyết’.

Đây là cách để làm điều đó – bạn phải sử dụng tệp robots.txt.

Robots.txt là gì?

robots.txt graphic: Như bản thân tên cho thấy, robots.txt * là một tệp văn bản ở định dạng văn bản chuẩn (.TXT), được sử dụng bởi các robot 🙂

Tuy nhiên, không phải tất cả các robot, tất nhiên (ví dụ: Roomba không đếm ;-), nhưng chỉ bằng các máy tìm kiếm (nhện), như Google, Live Search (cho đến gần đây MSN Search), Yahoo !, Alta Vista và tất cả các tìm kiếm (ro) bots.

Với mục đích đó, bạn phải tạo một tệp tin trống mới và lưu nó dưới dạng một tệp văn bản đơn giản với tên robot và phần mở rộng .txt (tệp tin phải được đặt trong thư mục chính của trang web / blog

– ví dụ: để tối ưu hóa đây là https://rssletter.com/robots.txt).

toi-uu-file-robots-txt

Sau khi bạn đã tạo tệp tin văn bản, bạn phải sao chép & dán vào hai dòng sau:
Đại lý người dùng: *
Không cho phép: * / thức ăn /
Dòng đầu tiên với dấu hoa thị có nghĩa là quy tắc ở dòng kế tiếp sẽ được áp dụng cho tất cả các công cụ tìm kiếm; và thứ hai, Disallow: * / feed /, means, rằng tất cả URL, kết thúc bằng / feed /, không được lập chỉ mục (tìm kiếm).

Bởi vì trong trường hợp của tôi tôi sử dụng WordPress permalinks (liên kết vĩnh viễn) của kiểu Ngày & Tên dựa:
https://rssletter.com/bg/%year%/%monthnum%/%day%/%postname%/

… các nguồn cấp dữ liệu RSS cho blog của tôi là như sau:

https://rssletter.com/en/feed/

https://rssletter.com/en/name-of-category/feed/

https://rssletter.com/en/2018/03/16/title-of-post/feed/

(cuối cùng là một ví dụ về nguồn cấp dữ liệu RSS cho các nhận xét cho một bài đăng blog cụ thể).

Nếu blog của bạn sử dụng cấu trúc khác cho URL – ví dụ như phiên bản ‘ngắn’ (https://rssletter.com/en/?p=1234), các nguồn cấp dữ liệu RSS cho blog sẽ ở định dạng URL này :
https://rssletter.com/en/?feed=rss2
https://rssletter.com/en/?feed=comments-rss2
https://rssletter.com/en/?feed=rss2&cat=123
https://rssletter.com/en/?feed=rss2&p=1234.
Trong trường hợp này, tôi đoán, bạn nên thay đổi quy tắc trong tệp robots.txt thành:
Đại lý người dùng: *
Không cho phép: *? Thức ăn *
(Lưu ý: Kịch bản này không được tôi kiểm tra!)
Sau khi bạn thực hiện các thay đổi bắt buộc và đặt tệp robots.txt trên máy chủ, bạn sẽ phải đợi một vài ngày để xem hiệu quả dự định.

wp-rss-only-content

Đó là nó:
Phương pháp mô tả rất đơn giản và hoạt động tốt. Bởi vì tôi sử dụng Google Webmaster Tools, tôi có thể kiểm tra danh sách tất cả các URL được lập chỉ mục cho optimiced.com. Ngay sau khi tôi đã thêm hai dòng mã vào robots.txt, trong danh sách “URL bị hạn chế bởi robots.txt” xuất hiện tất cả các nguồn cấp dữ liệu RSS của tôi, chính xác như mong đợi. Tôi đoán, các công cụ tìm kiếm khác tuân theo các quy tắc tương tự, vì vậy bạn nên sử dụng robots.txt khá an toàn để ‘lọc’ các nguồn cấp dữ liệu RSS từ tìm kiếm.

Các ứng dụng khác của robots.txt

Tất nhiên, việc sử dụng robots.txt không giới hạn ở việc chỉ định nguồn cấp dữ liệu RSS – bạn có thể hạn chế, ví dụ như tìm kiếm trong một thể loại nhất định trong blog của bạn, và trong trường hợp này, danh mục này sẽ trở thành ‘ vô hình “cho các công cụ tìm kiếm. Bạn có thể hạn chế các phần khác của trang web của bạn (không nhất thiết phải là blog), chỉ bằng cách liệt kê chúng trong tệp robots.txt và thêm nhiều quy tắc vào tệp tin.

Robots.txt tìm thấy nhiều ứng dụng hơn trong thực tế, nhưng trong trường hợp này tôi chỉ muốn viết về chủ đề làm thế nào để làm cho blog WordPress của bạn gần hơn với sự hoàn hảo.

Chú thích cuối
Trong khi nghiên cứu nhỏ về đề tài này, tôi nghĩ về một cách khác để đạt được hiệu quả tương tự – bạn có thể đặt thuộc tính rel = “nofollow” trong liên kết nguồn cấp dữ liệu RSS. Nhưng điều này sẽ đòi hỏi phải chỉnh sửa mã của chủ đề WordPress của bạn và ở nhiều nơi.
Vì vậy, chắc chắn, cách robots.txt dễ dàng hơn nhiều.

Nguồn: optimiced

Trả lời