Cách loại trừ nội dung WordPress khỏi Google Tìm kiếm

0 394
Đôi khi bạn cần loại trừ nội dung hoặc tệp WordPress cụ thể không được lập chỉ mục trong kết quả tìm kiếm của Google. Index, hay “lập chỉ mục” trước khi xuất hiện Google và các công cụ tìm kiếm khác là một từ chủ yếu được liên kết với sách. Nó thường nằm ở cuối hầu hết các cuốn sách, và đây là lý do tại sao từ điển Cambridge định nghĩa nó trong ngữ cảnh này là:
  • Chỉ mục: danh sách theo thứ tự bảng chữ cái, chẳng hạn như danh sách được in ở cuối sách hiển thị chủ đề, tên, v.v. ở trang nào.
Cách loại trừ nội dung WordPress khỏi Google Tìm kiếm
Cách loại trừ nội dung WordPress khỏi Google Tìm kiếm

Nhanh chóng đến năm 1995, trong thời kỳ bùng nổ internet, chúng ta có các dịch vụ như công cụ tìm kiếm Yahoo, và đến năm 1997, tìm kiếm của Google đã thay đổi đáng kể cách chúng ta tìm kiếm và truy cập thông tin trên internet.

Theo một cuộc khảo sát được thực hiện vào tháng 1 năm 2018, có 1.805.260.010 (hơn 1,8 tỷ) trang web trên internet, và nhiều trang web trong số này không có người truy cập.

Lập chỉ mục của Google là gì?

Có nhiều công cụ tìm kiếm khác nhau với định dạng lập chỉ mục khác nhau, nhưng các công cụ tìm kiếm phổ biến bao gồm Google, Bing và cho những cá nhân quan tâm đến quyền riêng tư, duckduckgo.

Lập chỉ mục của Google thường đề cập đến quá trình thêm các trang web mới, bao gồm nội dung kỹ thuật số như tài liệu, video và hình ảnh và lưu trữ chúng trong cơ sở dữ liệu của nó. Nói cách khác, để nội dung trang web của bạn xuất hiện trên kết quả tìm kiếm của Google, trước tiên chúng cần được lưu trữ trong chỉ mục của Google.

Cách loại trừ nội dung WordPress khỏi Google Tìm kiếm
Cách loại trừ nội dung WordPress khỏi Google Tìm kiếm

Google có thể lập chỉ mục tất cả các trang và nội dung kỹ thuật số này bằng cách sử dụng trình thu thập thông tin, trình thu thập thông tin hoặc bot liên tục thu thập dữ liệu các trang web khác nhau trên Internet. Các bot và trình thu thập thông tin này làm theo hướng dẫn của chủ sở hữu trang web về những gì cần thu thập thông tin và những gì nên bỏ qua trong quá trình thu thập thông tin.

Tại sao trang web cần được lập chỉ mục?

Trong thời đại kỹ thuật số này, gần như không thể điều hướng qua hàng tỷ trang web để tìm một chủ đề và nội dung cụ thể. Sẽ dễ dàng hơn nhiều nếu có một công cụ cho chúng ta thấy những trang nào đáng tin cậy, nội dung nào hữu ích và phù hợp với chúng ta. Đó là lý do tại sao Google tồn tại và xếp hạng các trang web trong kết quả tìm kiếm của họ.

Lập chỉ mục trở thành một phần không thể thiếu trong cách hoạt động của các công cụ tìm kiếm nói chung và Google nói riêng. Nó giúp xác định các từ và cách diễn đạt mô tả tốt nhất một trang và góp phần tổng thể vào xếp hạng trang và trang web. Để xuất hiện trên trang đầu tiên của Google, trang web của bạn, bao gồm các trang web và các tệp kỹ thuật số như video, hình ảnh và tài liệu, trước tiên cần phải được lập chỉ mục.

Lập chỉ mục là bước tiên quyết để website có thứ hạng tốt trên các công cụ tìm kiếm nói chung và Google nói riêng. Sử dụng từ khóa, các trang web có thể được nhìn thấy và khám phá tốt hơn sau khi được lập chỉ mục và xếp hạng bởi các công cụ tìm kiếm. Điều này sau đó sẽ mở ra cánh cửa cho nhiều khách truy cập, người đăng ký và khách hàng tiềm năng hơn cho trang web và doanh nghiệp của bạn.

Mặc dù có nhiều trang được lập chỉ mục không tự động làm cho trang web của bạn xếp hạng cao hơn, nhưng nếu nội dung của những trang đó có chất lượng cao thì bạn cũng có thể nhận được sự gia tăng về mặt SEO.

Tại sao & Cách chặn Công cụ Tìm kiếm Lập chỉ mục Nội dung

Mặc dù lập chỉ mục rất tốt cho chủ sở hữu trang web và doanh nghiệp, nhưng có những trang bạn có thể không muốn hiển thị trong kết quả tìm kiếm. bạn cũng có thể có nguy cơ để lộ các tệp và nội dung nhạy cảm trên Internet. Nếu không có mật khẩu hoặc xác thực, nội dung riêng tư có nguy cơ bị lộ và truy cập trái phép nếu bot được cấp quyền kiểm soát miễn phí các thư mục và tệp trên trang web của bạn.

Vào đầu những năm 2000, tin tặc đã sử dụng tìm kiếm của Google để hiển thị thông tin thẻ tín dụng từ các trang web với các truy vấn tìm kiếm đơn giản. Lỗ hổng bảo mật này đã được nhiều hacker lợi dụng để đánh cắp thông tin thẻ từ các trang web thương mại điện tử.

Một lỗi bảo mật gần đây khác đã xảy ra vào năm ngoái với box.com , một hệ thống lưu trữ đám mây phổ biến. Lỗ hổng bảo mật được Markus Neis, giám đốc tình báo mối đe dọa của Swisscom, vạch trần. Ông báo cáo rằng việc khai thác đơn giản của các công cụ tìm kiếm bao gồm Google và Bing có thể làm lộ các tệp và thông tin bí mật của nhiều khách hàng doanh nghiệp và cá nhân.

Những trường hợp như thế này xảy ra trực tuyến và có thể gây mất doanh thu và doanh thu cho chủ doanh nghiệp. Đối với các trang web công ty, thương mại điện tử và thành viên, điều cực kỳ quan trọng là phải chặn lập chỉ mục tìm kiếm nội dung nhạy cảm và tệp riêng tư, sau đó có thể đặt chúng sau một hệ thống xác thực người dùng tốt.

Hãy xem cách bạn có thể kiểm soát nội dung và tệp nào có thể được Google và các công cụ tìm kiếm khác thu thập thông tin và lập chỉ mục.

1. Sử dụng Robots.txt cho Hình ảnh

Robots.txt là một tệp nằm ở thư mục gốc của trang web của bạn, cung cấp cho các bot của Google, Bing và các công cụ tìm kiếm khác hướng dẫn về những gì cần thu thập thông tin và những gì không. Mặc dù robots.txt thường được sử dụng để kiểm soát lưu lượng thu thập thông tin và trình thu thập dữ liệu web (thiết bị di động và máy tính để bàn), nó cũng có thể được sử dụng để ngăn hình ảnh xuất hiện trong kết quả tìm kiếm của Google.

Tệp robots.txt của các trang web WordPress thông thường sẽ trông như thế này:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Tệp robots.txt chuẩn bắt đầu bằng hướng dẫn cho tác nhân người dùng và biểu tượng dấu hoa thị. Dấu hoa thị là một hướng dẫn cho tất cả các bot đến trang web để làm theo tất cả các hướng dẫn được cung cấp bên dưới nó.

Tránh xa các tệp kỹ thuật số cụ thể bằng cách sử dụng Robot.txt

Robots.txt cũng có thể được sử dụng để ngăn công cụ tìm kiếm thu thập dữ liệu các tệp kỹ thuật số như PDF, JPEG hoặc MP4. Để chặn thu thập thông tin tìm kiếm của tệp PDF và JPEG, tệp này phải được thêm vào tệp robots.txt:

Tệp PDF

User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf$  # Block pdf files from all bots. Albeit non-standard, it works for major search engines.

Hình ảnh

User-agent: Googlebot-Image
Disallow: /images/cats.jpg #Block cats.jpg image for Googlebot specifically.

Trong trường hợp bạn muốn chặn tất cả các hình ảnh .GIF được lập chỉ mục và hiển thị trên tìm kiếm hình ảnh của google đồng thời cho phép các định dạng hình ảnh khác như JPEG và PNG, bạn nên sử dụng các quy tắc sau:

User-agent: Googlebot-Image
Disallow: /*.gif$

Quan trọng: Các đoạn mã trên sẽ chỉ loại trừ nội dung của bạn khỏi việc được lập chỉ mục bởi các trang web của bên thứ ba như Google. Chúng vẫn có thể truy cập được nếu ai đó biết tìm ở đâu. Để đặt tệp ở chế độ riêng tư để không ai có thể truy cập chúng, bạn cần sử dụng phương pháp khác, chẳng hạn như các plugin hạn chế nội dung.

Googlebot-Image có thể được sử dụng để chặn hình ảnh và một phần mở rộng hình ảnh cụ thể xuất hiện trên tìm kiếm hình ảnh của Google. Trong trường hợp bạn muốn loại trừ chúng khỏi tất cả các tìm kiếm của Google, ví dụ như tìm kiếm trên web và hình ảnh, bạn nên sử dụng tác nhân người dùng Googlebot để thay thế.

Các tác nhân người dùng khác của Google cho các phần tử khác nhau trên trang web bao gồm Googlebot-Video cho các video áp dụng trong phần video của Google trên web. Tương tự, việc sử dụng tác nhân người dùng Googlebot sẽ chặn tất cả các video hiển thị trong video của google, tìm kiếm trên web hoặc tìm kiếm trên web di động.

Cách loại trừ nội dung WordPress khỏi Google Tìm kiếm
Cách loại trừ nội dung WordPress khỏi Google Tìm kiếm

Xin lưu ý rằng việc sử dụng Robots.txt không phải là một phương pháp thích hợp để chặn các tệp và nội dung nhạy cảm hoặc bí mật do các hạn chế sau:

  • Robots.txt chỉ có thể hướng dẫn các trình thu thập thông tin hoạt động tốt; các công cụ tìm kiếm và bot không tuân thủ khác có thể đơn giản bỏ qua hướng dẫn của nó.
  • Robots.txt không ngăn máy chủ của bạn gửi các trang và tệp đó cho người dùng trái phép theo yêu cầu.
  • Các công cụ tìm kiếm vẫn có thể tìm và lập chỉ mục trang và nội dung bạn chặn trong trường hợp chúng được liên kết từ các trang web và nguồn khác.
  • Robots.txt có thể truy cập được cho bất kỳ ai sau đó có thể đọc tất cả các hướng dẫn do bạn cung cấp và truy cập trực tiếp vào nội dung và tệp đó

Để chặn lập chỉ mục tìm kiếm và bảo vệ thông tin cá nhân của bạn hiệu quả hơn, hãy sử dụng các phương pháp sau.

2. Sử dụng Thẻ Meta không có chỉ mục cho các trang

Sử dụng thẻ meta không lập chỉ mục là một phương pháp thích hợp và hiệu quả hơn để chặn lập chỉ mục tìm kiếm nội dung nhạy cảm trên trang web của bạn. Không giống như robots.txt, thẻ meta không có chỉ mục được đặt trong phần <head> của trang web với một thẻ HTML rất đơn giản:

<html>
<head>
<title>...</title>
<meta name="robots" content="noindex">
</head>

Bất kỳ trang nào có hướng dẫn này trên tiêu đề sẽ không xuất hiện trên kết quả tìm kiếm của Google. Các lệnh khác như nofollow và notranslate cũng có thể được sử dụng để yêu cầu trình thu thập thông tin web không thu thập thông tin các liên kết và cung cấp bản dịch của trang đó tương ứng.

Bạn có thể hướng dẫn nhiều trình thu thập thông tin bằng cách sử dụng nhiều thẻ meta trên một trang như sau:

<html>
<head>
<title>...</title>
<meta name="googlebot" content="nofollow">
<meta name="googlebot-news" content="nosnippet">
</head>

Có hai cách để thêm mã này vào trang web của bạn. Tùy chọn đầu tiên của bạn là tạo một chủ đề con WordPress , sau đó trong functions.php của bạn, bạn có thể sử dụng hook action wp_head của WordPress để chèn noindex hoặc bất kỳ thẻ meta nào khác. Dưới đây là một ví dụ về cách bạn sẽ ngăn lập chỉ mục vào trang đăng nhập của mình.

add_action( 'wp_head', function() {
    if ( is_page( 'login' ) ) {
        echo '<meta name="robots" content="noindex">';
    }
} );

Tùy chọn thứ hai của bạn là sử dụng plugin SEO của bạn để kiểm soát khả năng hiển thị của trang. Ví dụ: với Yoast SEO, bạn có thể chuyển đến phần cài đặt nâng cao trên một trang và chỉ cần chọn “Không” cho các tùy chọn cho phép công cụ tìm kiếm hiển thị trang:

3. Sử dụng tiêu đề X-Robots-Tag HTTP cho các tệp khác

Thẻ X-Robots-Tag cho phép bạn linh hoạt hơn để chặn lập chỉ mục tìm kiếm nội dung và tệp của bạn. Đặc biệt, khi so sánh với thẻ meta không có chỉ mục, nó có thể được sử dụng làm phản hồi tiêu đề HTTP cho bất kỳ URL nhất định nào. Ví dụ: bạn có thể sử dụng X-Robots-Tag cho các tệp hình ảnh, video và tài liệu mà không thể sử dụng thẻ meta rô bốt.

Bạn có thể đọc hướng dẫn thẻ meta rô bốt đầy đủ của Google , nhưng đây là cách bạn có thể hướng dẫn các trình thu thập thông tin không theo dõi và lập chỉ mục hình ảnh JPEG bằng X-Robots-Tag trên phản hồi HTTP của nó:

HTTP/1.1 200 OK
Content-type: image/jpeg
Date: Sat, 27 Nov 2018 01:02:09 GMT
()
X-Robots-Tag: noindex, nofollow
()

Bất kỳ lệnh nào có thể được sử dụng với thẻ meta rô bốt cũng có thể áp dụng cho Thẻ X-rô bốt. Tương tự, bạn cũng có thể hướng dẫn nhiều bot công cụ tìm kiếm:

HTTP/1.1 200 OK
Date: Tue, 21 Sep 2018 21:09:19 GMT
()
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: bingbot: noindex
X-Robots-Tag: otherbot: noindex, nofollow
()

Điều quan trọng cần lưu ý là các bot của công cụ tìm kiếm phát hiện ra các thẻ meta Robots và tiêu đề X-Robots-Tag HTTP trong quá trình thu thập thông tin. Vì vậy, nếu bạn muốn các bot này làm theo hướng dẫn của bạn là không theo dõi hoặc lập chỉ mục bất kỳ nội dung và tài liệu bí mật nào, bạn không được ngăn các URL của trang và tệp này thu thập thông tin.

Nếu chúng bị chặn thu thập thông tin bằng cách sử dụng tệp robots.txt, hướng dẫn của bạn về lập chỉ mục sẽ không được đọc và do đó, bị bỏ qua. Do đó, trong trường hợp các trang web khác liên kết đến nội dung và tài liệu của bạn, chúng vẫn sẽ được Google và các công cụ tìm kiếm khác lập chỉ mục.

4. Sử dụng quy tắc .htaccess cho máy chủ Apache

Bạn cũng có thể thêm tiêu đề X-Robots-Tag HTTP vào tệp .htaccess của mình để chặn trình thu thập thông tin lập chỉ mục các trang và nội dung kỹ thuật số của trang web được lưu trữ trên máy chủ Apache. Không giống như thẻ meta không có chỉ mục, quy tắc .htaccess có thể được áp dụng cho toàn bộ trang web hoặc một thư mục cụ thể. Việc hỗ trợ các biểu thức chính quy mang lại tính linh hoạt cao hơn nữa để bạn nhắm mục tiêu nhiều loại tệp cùng một lúc.

Để chặn Googlebot, Bing và Baidu thu thập thông tin một trang web hoặc thư mục đặc biệt, hãy sử dụng các quy tắc sau:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule .* - [R=403,L]

Để chặn lập chỉ mục tìm kiếm của tất cả các tệp .txt, .jpg, .jpeg, .pdf trên toàn bộ trang web của bạn, hãy thêm đoạn mã sau:

<Files ~ "\.(txt|jpg|jpeg|pdf)$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

5. Sử dụng xác thực trang bằng tên người dùng và mật khẩu

Các phương pháp trên sẽ ngăn nội dung và tài liệu riêng tư của bạn xuất hiện trong kết quả tìm kiếm của Google. Tuy nhiên, bất kỳ người dùng nào có liên kết đều có thể truy cập nội dung của bạn và truy cập trực tiếp vào tệp của bạn. Để bảo mật, bạn nên thiết lập xác thực phù hợp với tên người dùng và mật khẩu cũng như quyền truy cập vai trò.

Ví dụ: các trang bao gồm hồ sơ cá nhân của nhân viên và các tài liệu nhạy cảm mà người dùng ẩn danh không được phép truy cập sẽ được đẩy sau một cổng xác thực. Vì vậy, ngay cả khi người dùng bằng cách nào đó quản lý để tìm các trang, họ sẽ được yêu cầu cung cấp thông tin xác thực trước khi có thể xem nội dung.

Để làm điều này với WordPress, chỉ cần đặt khả năng hiển thị của một bài đăng thành được bảo vệ bằng mật khẩu . Bằng cách này, bạn có thể chọn một mật khẩu cần thiết để xem nội dung trên trang đó. Điều này khá dễ thực hiện trên cơ sở mỗi bài đăng / trang. Để bảo mật trang web toàn diện hơn, hãy thử thêm một trong các plugin thành viên WordPress này  vào trang web của bạn.

Để lại một bình luận