Back to Question Center
0

Semalt: Chặn truy cập vào nội dung trang web của bạn với thẻ meta và tập tin robots.txt

1 answers:
Jason Adler, Quản lý Khách hàng Thành Công Semalt cho biết, bạn có thể kiểm soát những gì đang được chia sẻ với Bing, Yahoo và Google khi bạn giữ an toàn dữ liệu và không chia sẻ nó trên internet . Dữ liệu bạn cần giữ bí mật bao gồm thông tin liên lạc, ID PayPal, chi tiết thẻ tín dụng, tên người dùng và mật khẩu. Bạn nên chặn loại thông tin này không được lập chỉ mục trong Google và các công cụ tìm kiếm khác. Khi nói đến việc chặn URL của trang web của bạn, bạn có thể ngăn Google và các công cụ tìm kiếm khác thu thập dữ liệu các trang hoặc bài báo nhất định. Điều này có nghĩa là khi mọi người đi qua kết quả tìm kiếm, họ sẽ không nhìn thấy và điều hướng tới các URL đã bị chặn. Ngoài ra, họ sẽ không thể truy cập vào nội dung của nó, và bạn có thể ngăn chặn rất nhiều bài báo không bị nhìn thấy trong kết quả tìm kiếm của Google. Đây là cách chặn truy cập nội dung trang web của bạn:

Ngăn chặn việc lập chỉ mục tìm kiếm bằng các thẻ meta: Bạn có thể dễ dàng chặn các trang xuất hiện trong công cụ tìm kiếm khi bạn sử dụng các thẻ meta không phải chỉ mục trên mã HTML của trang web của bạn. Googlebot thu thập thông tin các trang không có thẻ meta này và sẽ thả các trang cụ thể của bạn khỏi kết quả tìm kiếm do nó. Hãy cho chúng tôi ở đây để cho bạn biết rằng thẻ meta này sẽ chỉ hoạt động khi tệp robots.txt của bạn không bị thay đổi.

Chặn URL với tệp robots.txt: Tệp Robots.txt nằm trong thư mục gốc của trang web và chỉ ra phần của trang web mà bạn không muốn trình thu thập thông tin công cụ tìm kiếm và nhện để lập chỉ mục. Nó sử dụng Tiêu chuẩn Loại trừ Robots, là một giao thức với một tập lệnh cho biết nơi nào và như thế nào trình thu thập dữ liệu web sẽ truy cập vào trang web của bạn. Robot..txt cũng giúp ngăn không cho hình ảnh hiển thị trong kết quả tìm kiếm nhưng không cho phép người dùng liên kết trang web của bạn với các trang của họ. Bạn nên nhớ những hạn chế và hạn chế của các tệp robots.txt trước khi bạn chỉnh sửa. Một số cơ chế đảm bảo rằng URL đã bị chặn đúng cách. Hướng dẫn của robots.txt là các chỉ thị, có nghĩa là chúng không thể thực thi hành vi của trình thu thập dữ liệu web. Tất cả trình thu thập thông tin giải thích cú pháp theo cách riêng của họ, và các tệp robots.txt không thể ngăn các tài liệu tham khảo đến liên kết của bạn từ các trang web khác. Google thực hiện theo các chỉ thị của các tệp robots.txt nhưng có thể không cho công cụ tìm kiếm lập chỉ mục một trang web bị chặn vì chính sách của nó.

Chọn không tham gia Google Local và Thuộc tính của Google: Bạn có thể chặn nội dung của mình hiển thị trên các thuộc tính khác nhau của Google sau khi đã được lập chỉ mục. Điều này bao gồm Google Local, Google Flights, Google Shopping và Google Hotels. Khi bạn chọn không tham gia hiển thị trong tất cả các cửa hàng này, nội dung của bạn đã được thu thập thông tin sẽ không được liệt kê hoặc cập nhật. Bất kỳ bài báo nào được hiển thị trên bất kỳ nền tảng nào trong số này sẽ bị xóa trong 30 ngày sau khi không tham gia.

Kết luận:

Điều quan trọng là ẩn nội dung có giá trị và hữu ích từ khách truy cập của bạn. Nếu trang web của bạn có các chủ đề tương tự ở nhiều nơi, có thể để lại ấn tượng tiêu cực trên công cụ tìm kiếm và khách truy cập của bạn. Đó là lý do tại sao bạn nên ẩn tất cả các trang và không để cho các công cụ tìm kiếm chỉ mục cho họ. Loại bỏ nội dung khỏi bên thứ ba. Bạn phải loại bỏ các nội dung của bên thứ ba mà không có giá trị cho trang web của bạn ở bất kỳ chi phí. Đừng để Google thấy rằng bạn đang chia sẻ nội dung của bên thứ ba vì công cụ tìm kiếm sẽ thấy giá trị ít hơn trong trang web của bạn trong trường hợp đó. Khi bạn đã sao chép nội dung từ một số lượng lớn các trang web, Google có thể phạt bạn, và bạn có thể chặn các bài báo trùng lặp để cải thiện Google của bạn.

(số 8)(số 8)
November 30, 2017
Semalt: Chặn truy cập vào nội dung trang web của bạn với thẻ meta và tập tin robots.txt
Reply