Cách tùy chỉnh tập tin Robots.txt cho blogspot
Robots.txt trong blogspot là một tập tin văn bản, được lưu trên trang web hoặc máy chủ của blog, để thu thập web làm thế nào để chỉ mục, dữ liệu blog của bạn trong kết quả tìm kiếm. Điều đó có thể hạn chế bất kỳ trang web trên blog của bạn từ trình thu thập web để nó không thể được lập chỉ mục trong công cụ tìm kiếm như trang blog của bạn, trang giới thiệu hoặc bất kỳ trang nào mà không phải là quan trọng để có được lập chỉ mục. Luôn luôn nhớ rằng trình thu thập tìm kiếm quét các tập tin robots.txt trước khi thu thập dữ liệu bất kỳ trang web blog. Cùng thủ thuật blog web tìm hiểu nhé!
Cách tùy chỉnh tập tin Robots.txt cho blogspot |
Mỗi blog lưu trữ trên blogger có tập tin robots.txt mặc định của nó là một cái gì đó trông như thế này:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://thuthuatblogweb.blogspot.com/feeds/posts/default?orderby=UPDATED
Trong đó :
Mediapartners-Google: Mã này là dành cho robot Google Adsense mà giúp họ để phục vụ tốt hơn quảng cáo trên blog của bạn.
User-agent: Này là dành cho tất cả các robot có dấu hoa thị (*). Trong các thiết lập mặc định nhãn liên kết trên blog của chúng tôi bị hạn chế để lập chỉ mục bởi trình thu thập tìm kiếm đó có nghĩa là các trình thu thập web của chúng tôi liên kết trang nhãn vì mã dưới đây sẽ không chỉ mục.
Disallow: /search: Điều đó có nghĩa các liên kết có từ khóa tìm kiếm ngay sau khi tên miền sẽ bị bỏ qua. Xem dưới đây ví dụ đó là một liên kết của trang nhãn có tên là SEO
http://thuthuatblogweb.blogspot.com/search/label/SEO.
Và nếu chúng ta loại bỏ Disallow: / tìm kiếm từ đoạn code trên sau đó sẽ truy cập trình thu thập toàn bộ blog của chúng tôi để lập chỉ mục và thu thập thông tin tất cả các nội dung và các trang web của mình.
Allow: / :đề cập đến trang chủ đó có nghĩa là thu thập web có thể thu thập thông tin và trang chủ chỉ mục blog của chúng tôi.
Disallow Particular Post: Bây giờ giả sử nếu chúng ta muốn loại trừ một bài cụ thể từ lập chỉ mục sau đó chúng ta có thể thêm vào bên dưới dòng trong code.
Disallow: /yyyy/mm/post-url.html
Trong đó: yyyy và mm đề cập đến năm xuất bản và tháng của bài viết tương ứng. Ví dụ, nếu chúng tôi đã xuất bản một bài trong năm 2013 trong tháng Ba thì chúng ta phải sử dụng định dạng dưới đây.
Disallow: /2013/03/post-url.html
Để thực hiện nhiệm vụ này dễ dàng, bạn chỉ có thể sao chép URL bài và loại bỏ các tên blog từ đầu.
Disallow Particular Page
Nếu chúng ta không cho phép một trang cụ thể sau đó chúng ta có thể sử dụng phương pháp tương tự như trên. Đơn giản chỉ cần sao chép URL trang và loại bỏ các địa chỉ blog, điều đó sẽ một cái gì đó giống như thế này:
Disallow: /p/page-url.html
Sitemap: http://thuthuatblogweb.blogspot.com/feeds/posts/default?orderby=UPDATED
Mã này đề cập đến sitemap của blog của chúng tôi. Bằng cách thêm vào các đường dẫn sitemap ở đây chỉ đơn giản là tối ưu hóa tỷ lệ chậm của blog. Có nghĩa là bất cứ khi nào các trình thu thập web quét tập tin robots.txt của họ sẽ tìm thấy một con đường dẫn tới sitemap của bạn, nơi tất cả các liên kết của bài viết xuất bản của blog. Trình thu thập web sẽ tìm thấy nó dễ dàng để thu thập thông tin tất cả các bài viết của blog. Do đó, có những cơ hội tốt hơn mà trình thu thập web thu thập thông tin tất cả các bài đăng trên blog của chúng tôi mà không bỏ qua.
Lưu ý: Sơ đồ này sẽ chỉ cho các trình thu thập web về 25 bài viết gần đây. Nếu bạn muốn tăng số lượng các liên kết trong sitemap của bạn sau đó thay thế sơ đồ trang web mặc định dưới đây với một. Nó sẽ làm việc cho 500 bài viết gần đây đầu tiên
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Nếu bạn có nhiều hơn 500 bài viết được công bố trên blog của bạn thì bạn có thể sử dụng hai sơ đô web như dưới đây:
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=500&max-results=1000
Cách tùy chỉnh tập tin Robots.txt |
Cách tùy chỉnh tập tin Robots.txt cho blogspot:
Đi vào blog của blogger của bạn.
Tìm đến mục Settings >> Tùy chọn tìm kiếm >> Robots.txt tùy chỉnh >> Edit >> Yes
Bây giờ dán mã tập tin robots.txt của bạn trong hộp.
Click vào nút Save Changes.
Bạn đã làm xong!