kiểm tra trùng lặp nội dung

Duplicate content là gì và Cách kiểm tra nội dung trùng lặp

Mô tả ngắn gọn về duplicate content

Duplicate content đề cập đến nội dung rất giống nhau hoặc giống hệt nhau trên nhiều trang. Bạn luôn phải lưu lý rằng:

  • Duplicate content: ít hoặc không có giá trị cho khách truy cập của bạn và gây nhầm lẫn cho các công cụ tìm kiếm.
  • Tránh có nội dung trùng lặp vì nó có thể gây hại cho hiệu suất SEO của bạn .
  • Nội dung trùng lặp có thể do rủi ro kỹ thuật và nội dung được sao chép thủ công gây ra.
  • Có những cách hiệu quả để ngăn cả hai trường hợp duplicate content trở thành vấn đề mà chúng ta sẽ thảo luận trong bài viết này.

Duplicate content là gì?

Hiểu theo nghĩa hẹp, nội dung trùng lặp đề cập đến nội dung rất giống nhau, hoặc hoàn toàn giống nhau. Chúng nằm trên nhiều trang trong trang web của riêng bạn hoặc trên các trang web khác.

Nói một cách khái quát, nội dung trùng lặp là nội dung mang lại ít hoặc không có giá trị cho khách truy cập của bạn. Do đó, các trang có ít hoặc không có nội dung cơ thể cũng được coi là duplicate content.

Robot công cụ tìm kiếm bị nhầm lẫn bởi nội dung trùng lặp.
Robot công cụ tìm kiếm bị nhầm lẫn bởi nội dung trùng lặp.

Tại sao nội dung trùng lặp có hại cho SEO?

Duplicate content là không tốt vì hai lý do:

  1. Khi có một số phiên bản nội dung, công cụ tìm kiếm sẽ khó xác định phiên bản nào để index và sau đó hiển thị trong kết quả tìm kiếm của chúng. Điều này làm giảm hiệu suất cho tất cả các phiên bản nội dung , vì chúng đang cạnh tranh với nhau.
  2. Các công cụ tìm kiếm sẽ gặp khó khăn khi hợp nhất các số liệu liên kết (thẩm quyền authority, mức độ liên quan và trust) cho nội dung. Đặc biệt khi các trang web khác liên kết đến nhiều phiên bản của nội dung đó.

Mẹo chuyên gia:

Nội dung trùng lặp có thể gây ra các vấn đề nghiêm trọng về SEO và gửi các tín hiệu xung đột đến các công cụ tìm kiếm. Đưa ra các biện pháp phù hợp để đảm bảo nội dung có các URL duy nhất, có cơ hội tốt nhất để xếp hạng tốt và hướng lưu lượng truy cập đến trang web của bạn.

Tôi có thể bị phạt nội dung trùng lặp không?

Có nội dung trùng lặp có thể ảnh hưởng đến hiệu suất SEO nhưng nó sẽ không khiến bạn bị Google phạt miễn là bạn không cố ý sao chép trang web của người khác. Bạn không phải lo lắng về việc bị Google phạt khi bạn:

  • Là chủ sở hữu trang web trung thực với một số thách thức kỹ thuật của trang web
  • Không cố gắng lừa Google

Nếu bạn đã sao chép một lượng lớn nội dung của người khác, nhưng sau đó bạn đang đi đúng hướng. Đây là những gì Google nói về nó:

“Duplicate content trên một trang web không phải là căn cứ để hành động trên trang web đó. Trừ khi mục đích của nội dung trùng lặp là để lừa đảo và thao túng kết quả của công cụ tìm kiếm. Nếu trang web của bạn gặp vấn đề về nội dung trùng lặp và bạn không tuân theo lời khuyên được liệt kê ở trên. Chúng tôi sẽ thực hiện tốt việc chọn một phiên bản nội dung để hiển thị trong kết quả tìm kiếm của mình. ”

Mẹo thưởng:

Mọi người thường có nhận thức sai lầm về duplicate content. Nếu tôi có một phần tư mỗi lần tôi nghe một SEO nói rằng nội dung trùng lặp sẽ khiến bạn bị phạt Panda, thì tôi sẽ có ít nhất 50k. (Đó là một trò đùa)

Dù sao, nếu bạn có một hoặc hai trang, ít quan trọng hơn với nội dung trùng lặp, thì thực sự không có gì phải lo lắng. Các vấn đề thực sự xảy ra khi trang web của bạn đang tạo ra vô số duplicate content do phát triển web kém và các vấn đề kỹ thuật SEO. Điều này có thể dẫn đến các biến chứng thu thập dữ liệu và các vấn đề về traffic. Nội dung trùng lặp cũng có thể gây lo ngại nếu một miền khác đang cắt nội dung của bạn và những trang đó đang xếp thứ hạng của trang của bạn. Điều này hiếm khi xảy ra, nhưng nó vẫn xảy ra!

Cuối cùng, có lẽ là vấn đề lớn nhất với nội dung trùng lặp là liên quan đến sự suy giảm của các backlink xảy ra do nó. Nếu tôi có hai phiên bản của cùng một trang và người dùng không biết phiên bản nào là ‘chính’ thì nó có thể nhận được backlink và phiên bản kia có thể không. Bằng cách này, thay vì một trang có tất cả các backlink, nó được chia thành hai hoặc nhiều trang.

Bạn có biết rằng 25-30% web là duplicate content và điều đó không sao cả! Nó sẽ không khiến bạn bị phạt và mặc dù tôi tin chắc rằng bạn nên chỉ định cách bạn xử lý các bản sao. Nếu bạn không làm gì thì Google có nhiều cách để họ cố gắng giải quyết các vấn đề trùng lặp cho bạn. Tôi sẽ không nhấn mạnh về nó quá nhiều trừ khi bạn đang làm điều gì đó có thể gây ra các vấn đề lớn như lấy nội dung từ các trang web khác.

Cách khắc phục phổ biến nhất cho nội dung trùng lặp là gì?

Trong nhiều trường hợp, cách tốt nhất để sửa nội dung trùng lặp là triển khai redirect 301 từ các phiên bản URL không được ưu tiên sang các phiên bản ưu tiên.

redirect 301: nội dung được di chuyển vĩnh viễn

Khi khách truy cập cần tiếp tục truy cập URL, bạn không thể sử dụng redirect nhưng bạn có thể sử dụng canonical URL hoặc chuyển hướng ngăn index rô bốt. Canonical URL cho phép bạn hợp nhất một số tín hiệu, trong khi lệnh ngăn index của rô bốt thì không.

Chọn vũ khí của bạn để chiến đấu với duplicate content một cách cẩn thận vì tất cả chúng đều có ưu và nhược điểm. Không có cách tiếp cận “một kích thước phù hợp với tất cả” đối với nội dung trùng lặp.

Xem qua phần bên dưới để tìm hiểu về các nguyên nhân khác nhau của nội dung trùng lặp và xem phương pháp nào để giải quyết nội dung đó phù hợp nhất.

Nguyên nhân phổ biến của duplicate content

Nội dung trùng lặp thường do máy chủ web hoặc trang web được thiết lập không chính xác. Những sự cố này mang tính chất kỹ thuật và có thể sẽ không bao giờ dẫn đến hình phạt của Google. Tuy nhiên, chúng có thể gây hại nghiêm trọng đến thứ hạng của bạn, vì vậy điều quan trọng là bạn phải ưu tiên sửa chúng.

Nhưng bên cạnh nguyên nhân kỹ thuật, cũng có nguyên nhân do con người: nội dung cố tình được sao chép và xuất bản ở nơi khác. Như chúng tôi đã nói, những điều này có thể mang lại hình phạt nếu chúng có ý đồ xấu.

Nội dung trùng lặp vì lý do kỹ thuật

Không phải www so với www và HTTP với HTTPS

Giả sử bạn đang sử dụng miền phụ www và các HTTP. Sau đó, cách ưa thích của bạn để phục vụ nội dung của bạn là thông qua https://www.example.com. Đây là miền chuẩn của bạn.

Nếu máy chủ web của bạn được định cấu hình không tốt, nội dung của bạn cũng có thể truy cập được thông qua:

duplicate content do các miền chuẩn khác nhau.
duplicate content do các miền chuẩn khác nhau.

Chọn một cách ưa thích của phục vụ nội dung của bạn, và thực hiện 301 cách không ưu tiên dẫn đến phiên bản ưa thích: https://www.example.com.

Cấu trúc URL: cách viết hoa và dấu gạch chéo ở cuối

Đối với Google, URL có phân biệt chữ hoa chữ thường. Có nghĩa là https://example.com/url-a/ và https://example.com/url-A/ được xem như các URL khác nhau. Khi bạn đang tạo link, rất dễ mắc lỗi đánh máy, khiến cả hai phiên bản của URL được index. Xin lưu ý rằng các URL không phân biệt chữ hoa chữ thường đối với Bing.

Dấu gạch chéo phía trước ( /) ở cuối URL được gọi là dấu gạch chéo . Thường thì các URL có thể truy cập được thông qua cả hai biến thể tại đây: https://example.com/url-avà https://example.com/url-a/.

Nội dung trùng lặp do không nhất quán trong cách viết hoa URL và sử dụng dấu gạch chéo.
Nội dung trùng lặp do không nhất quán trong cách viết hoa URL và sử dụng dấu gạch chéo.

Chọn cấu trúc ưa thích cho các URL của bạn và đối với các phiên bản URL không ưa thích, hãy triển khai redirect 301 đến phiên bản URL ưa thích.

Đọc thêm:

Mẹo chuyên nghiệp:

Hợp nhất nội dung trùng lặp không phải là để tránh các hình phạt của Google. Đó là về việc xây dựng các backlink. Các link có giá trị đối với hiệu suất SEO, nhưng nếu các link kết thúc trong các trang trùng lặp thì chúng không giúp ích cho bạn. Chúng đi để lãng phí.

Các trang chỉ mục (index.html, index.php)

Nếu bạn không biết, trang chủ của bạn có thể truy cập được qua nhiều URL vì máy chủ web của bạn được định cấu hình sai. Bên cạnh https://www.example.com, trang chủ của bạn cũng có thể được truy cập thông qua:

  • https://www.example.com/index.html
  • https://www.example.com/index.asp
  • https://www.example.com/index.aspx
  • https://www.example.com/index.php

Chọn một cách ưa thích để phân phát trang chủ của bạn và triển khai redirect 301 từ các phiên bản không ưa thích sang phiên bản ưa thích.

Trong trường hợp trang web của bạn đang sử dụng bất kỳ URL nào trong số này để phân phát nội dung thì hãy đảm bảo canonical các trang này. Vì việc chuyển hướng chúng sẽ làm hỏng các trang.

Các thông số để lọc

Các trang web thường sử dụng các tham số trong URL để chúng có thể cung cấp chức năng lọc. Lấy URL này làm ví dụ:

https://www.example.com/toys/cars?colour=black

Trang này sẽ hiển thị tất cả các ô tô đồ chơi màu đen.

Mặc dù điều này tốt cho khách truy cập, nhưng nó có thể gây ra các vấn đề lớn cho các công cụ tìm kiếm. Các tùy chọn bộ lọc thường tạo ra số lượng kết hợp hầu như vô hạn khi có nhiều hơn một tùy chọn bộ lọc. Hơn thế nữa vì các thông số cũng có thể được sắp xếp lại.

Hai URL này sẽ hiển thị cùng một nội dung:

Nội dung trùng lặp do thứ tự thông số URL khác nhau.
Nội dung trùng lặp do thứ tự thông số URL khác nhau.

Triển khai các canonical URL — một URL cho mỗi trang chính, chưa được lọc — để ngăn nội dung trùng lặp và củng cố quyền của trang do bộ lọc phân phối. Xin lưu ý rằng điều này không ngăn chặn các vấn đề về crawl budget . Ngoài ra, bạn có thể sử dụng chức năng xử lý tham số trong Google Search Console và Bing Webmaster Tools để hướng dẫn trình thu thập thông tin của họ cách xử lý tham số.

Mẹo chuyên nghiệp:

Nội dung trùng lặp là vấn đề SEO phổ biến nhất và bị hiểu lầm. Có rất nhiều hình thức sao chép mà bạn phải đề phòng và một lỗi kỹ thuật nhỏ có thể dẫn đến hàng nghìn trang trùng lặp theo đúng nghĩa đen. Canonical không phải lúc nào cũng là giải pháp phù hợp và bài viết này từ HmgSearch thực hiện một công việc đáng kinh ngạc trong việc xác định vấn đề và giải pháp cho hàng tá vấn đề phổ biến có duplicate content.

Tôi đã thấy các trang web rất thành công bị ngăn cản bởi nội dung trùng lặp. Trong những trường hợp này, việc khắc phục các vấn đề dẫn đến nội dung trùng lặp một mình thường có thể giúp tăng Organic traffic lên 20% hoặc cao hơn. Khi bạn có hàng triệu khách truy cập, đó có thể là hàng trăm nghìn doanh thu bổ sung.

Phân loại

Phân loại là một cơ chế phân nhóm để phân loại nội dung. Chúng thường được sử dụng trong Hệ thống quản lý nội dung để hỗ trợ các danh mục và thẻ.

Giả sử bạn có một bài đăng trên blog thuộc ba loại. Bài đăng trên blog có thể được truy cập thông qua cả ba:

  • https://www.example.com/category-a/topic/
  • https://www.example.com/category-b/topic/
  • https://www.example.com/category-c/topic/
Nội dung trùng lặp do các trang thuộc nhiều danh mục.
Nội dung trùng lặp do các trang thuộc nhiều danh mục.

Đảm bảo chọn một trong các danh mục này làm danh mục chính và đặt các danh mục khác canonical cho danh mục đó bằng cách sử dụng canonical URL.

Trùng lặp là một vấn đề lớn đối với nhiều nền tảng cũ được thiết lập để dựa nhiều vào các tham số cho cấu trúc trang nội bộ. Nó cũng là một vấn đề đối với các nền tảng mới hơn như WordPress với /tag/các trang thường không được index tốt nhất ngay từ đầu.

Các trang dành riêng cho hình ảnh

Một số Hệ thống Quản lý Nội dung tạo một trang riêng cho mỗi hình ảnh. Trang này thường chỉ hiển thị hình ảnh trên một trang trống. Vì trang này không có nội dung nào khác, nó rất giống với tất cả các trang hình ảnh khác và do đó có nội dung trùng lặp.

Nếu có thể, hãy tắt tính năng cung cấp các trang dành riêng cho hình ảnh. Nếu không thể, điều tốt nhất tiếp theo là thêm thuộc tính ngăn index meta rô bốt vào trang.

Trang bình luận

Nếu bạn đã bật nhận xét trên trang web của mình, bạn có thể tự động phân trang chúng sau một khoảng thời gian nhất định. Các trang bình luận được phân trang sẽ hiển thị nội dung gốc; chỉ có những nhận xét ở dưới cùng sẽ khác nhau.

Ví dụ:

  • URL bài viết hiển thị nhận xét 1-20 có thể là https://www.example.com/category/topic/,
  • với https://www.example.com/category/topic/comments-2/nhận xét 21-40
  • https://www.example.com/category/topic/comments-3/nhận xét 41-60.

Sử dụng các mối quan hệ liên kết phân trang để báo hiệu rằng đây là một loạt các trang được phân trang.

Bản địa hóa và hreflang

Khi nói đến bản địa hóa, các vấn đề về nội dung trùng lặp có thể phát sinh khi bạn đang sử dụng cùng một nội dung để nhắm mục tiêu những người ở các khu vực khác nhau nói cùng một ngôn ngữ.

Ví dụ: khi bạn có một trang web dành riêng cho thị trường Australia và một trang cho thị trường Mỹ — cả hai đều bằng tiếng Anh — rất có thể có nhiều duplicate content.

Google rất giỏi trong việc phát hiện điều này và thường xếp các kết quả này lại với nhau. Các thuộc tính hreflang giúp ngăn chặn nội dung trùng lặp. Vì vậy, nếu bạn đang sử dụng cùng một nội dung cho các đối tượng khác nhau thì hãy đảm bảo triển khai hreflang như một phần của chiến lược SEO vững chắc .

Các trang kết quả tìm kiếm có thể index

Nhiều trang web cung cấp chức năng tìm kiếm, cho phép khách truy cập tìm kiếm thông qua nội dung của trang web. Các trang mà kết quả tìm kiếm được hiển thị trên đó đều rất giống nhau và trong hầu hết các trường hợp không cung cấp bất kỳ giá trị nào cho các công cụ tìm kiếm. Đó là lý do tại sao bạn không muốn chúng có thể index cho các công cụ tìm kiếm.

Ngăn các công cụ tìm kiếm index các trang kết quả tìm kiếm bằng cách sử dụng thuộc tính ngăn index meta rô bốt. Và nói chung, cách tốt nhất là không liên kết đến các trang kết quả tìm kiếm của bạn.

Trong trường hợp có một lượng lớn các trang kết quả tìm kiếm được các công cụ tìm kiếm thu thập thông tin. Bạn nên ngăn các công cụ tìm kiếm truy cập chúng ngay từ đầu bằng cách sử dụng file robots.txt.

Môi trường thử nghiệm / dàn dựng có thể index

Nó cũng là một phương pháp hay nhất để sử dụng môi trường dàn dựng để triển khai và thử nghiệm các tính năng mới trên các trang web. Nhưng chúng thường không được phép truy cập và index cho các công cụ tìm kiếm.

duplicate content do nhiều môi trường được cung cấp công khai
duplicate content do nhiều môi trường được cung cấp công khai

Sử dụng xác thực HTTP để ngăn truy cập vào các môi trường thử nghiệm / dàn dựng. Một lợi ích bổ sung của việc làm như vậy là bạn cũng ngăn không cho những người khác truy cập vào chúng.

Nếu môi trường thử nghiệm / giai đoạn của bạn được index tại một số điểm hãy làm theo các bước được nêu trong hướng dẫn xóa URL này để nhanh chóng xóa chúng.

Tránh xuất bản nội dung đang thực hiện

Khi bạn tạo một trang mới chứa ít nội dung, hãy lưu nó mà chưa xuất bản — thường thì nó sẽ cung cấp ít hoặc không có giá trị.

Lưu các trang chưa hoàn thành dưới dạng bản nháp. Nếu bạn cần xuất bản các trang có nội dung hạn chế, hãy ngăn các công cụ tìm kiếm index chúng: hãy sử dụng thuộc tính meta robots noindex.

Các thông số được sử dụng để theo dõi

Các thông số cũng thường được sử dụng cho mục đích theo dõi. Ví dụ: khi chia sẻ URL trên Twitter, nguồn được thêm vào URL. Đây là một nguồn khác của nội dung trùng lặp. Lấy ví dụ URL này đã được chia sẻ bằng facebook:

https://www.facebook.com/sharer/sharer.php?u=https%3A%2F%2Fhmgsearch.com%2Fgoogle-index%2F&t=Google%20index%20l%C3%A0%20g%C3%AC%20v%C3%A0%20(13%20c%C3%A1ch%20index%20google%20nhanh%20nh%C6%B0%20th%E1%BB%95i)&quote=

Đó là phương pháp hay nhất để triển khai các canonical URL tự tham chiếu trên các trang. Nếu bạn đã làm điều đó, điều này sẽ giải quyết được vấn đề. Tất cả các URL có các thông số theo dõi này đều được canonical theo mặc định cho phiên bản không có thông số.

ID phiên

Các phiên có thể lưu trữ thông tin về khách truy cập để phân tích trang web. Nếu mỗi URL mà khách truy cập yêu cầu được nối thêm ID phiên. Điều này sẽ tạo ra nhiều nội dung trùng lặp vì nội dung tại các URL này hoàn toàn giống nhau.

Một lần nữa — đó là phương pháp hay nhất để triển khai các canonical URL tự tham chiếu trên các trang. Nếu bạn đã làm điều đó, điều này sẽ giải quyết được vấn đề. Tất cả các URL có các thông số theo dõi này đều được canonical theo mặc định cho phiên bản không có thông số.

Phiên bản thân thiện với bản in

Khi các trang có phiên bản thân thiện với bản in tại một URL riêng, về cơ bản có hai phiên bản của cùng một nội dung. Hãy tưởng tượng điều này: https://www.example.com/some-page/ và https://www.example.com/print/some-page/.

Triển khai một canonical URL dẫn từ phiên bản thân thiện với bản in đến phiên bản bình thường của trang.

Duplicate content do nội dung sao chép gây ra

Trang đích cho tìm kiếm có trả tiền

Tìm kiếm có trả tiền yêu cầu các trang đích chuyên dụng nhắm mục tiêu các từ khóa cụ thể. Các trang đích thường là bản sao của các trang gốc, sau đó được điều chỉnh để nhắm mục tiêu các từ khóa cụ thể này. Vì các trang này rất giống nhau, chúng tạo ra nội dung trùng lặp nếu chúng được index bởi các công cụ tìm kiếm.

Nội dung trùng lặp do sự khác biệt nhỏ giữa các trang đích.
Nội dung trùng lặp do sự khác biệt nhỏ giữa các trang đích.

Ngăn các công cụ tìm kiếm index các trang đích bằng cách triển khai thuộc tính ngăn index của robot meta. Nói chung, cách tốt nhất là không liên kết đến các trang đích cũng như không đưa chúng vào sitemap XML của bạn.

Các bên khác sao chép nội dung của bạn

Duplicate content cũng có thể bắt nguồn từ việc người khác sao chép nội dung của bạn và xuất bản ở nơi khác. Đặc biệt đây là một vấn đề nếu trang web của bạn có Domain authority thấp và người sao chép nội dung của bạn có Domain authority cao hơn. Các trang web có Domain authority cao hơn thường được thu thập thông tin thường xuyên hơn. Khi đó, nội dung được sao chép sẽ được thu thập thông tin đầu tiên trên trang web của trang web đã sao chép nội dung. Bây giờ họ có thể được coi là tác giả gốc và xếp trên bạn.

Đảm bảo rằng các trang web khác ghi nhận bạn bằng cách triển khai cả canonical URL dẫn đến trang của bạn và liên kết đến trang của bạn. Nếu họ không sẵn sàng làm như vậy, bạn có thể gửi yêu cầu DMCA tới Google và / hoặc thực hiện hành động pháp lý.

Sao chép nội dung từ các trang web khác

Sao chép nội dung từ các trang web khác cũng là một dạng nội dung trùng lặp. Google đã viết lại cách xử lý tốt nhất điều này theo quan điểm SEO: Để lại đường link với nguồn gốc kết hợp với thẻ URL canonical hoặc a meta robots noindex.

Hãy nhớ rằng không phải tất cả chủ sở hữu trang web đều hài lòng với việc bạn sao chép nội dung của họ. Vì vậy, bạn nên xin phép sử dụng nội dung của họ. Đối với việc sao chép nội dung tại Hmgsearch, chúng tôi rất vui khi bạn để lại nguồn Url của bài viết được copy.

Cách tìm nội dung trùng lặp

Tìm duplicate content trong trang web của riêng bạn

Sử dụng công cụ kiểm tra trùng lặp nội dung siteliner hoặc cognitiveseo.com. Bạn có thể dễ dàng tìm thấy nội dung trùng lặp trong website của bạn. Bạn có thể kiểm tra xem các trang của bạn có tiêu đề trang, Meta descriptiontiêu đề H1, và nội dung trong bài viết. Bạn có thể thực hiện việc này bằng cách chuyển đến phần Vấn đề và mở thẻ “Thông tin meta” và “Tiêu đề nội dung”. Xem liệu có bất kỳ vấn đề mở nào liên quan đến:

Nhanh chóng kiểm tra trang web của bạn để tìm nội dung trùng lặp.

Sau khi bạn gõ tên miền trang web của mình thì ấn nút “go” như ảnh bên dưới. Bạn đợi ít phút để siteliner scan website. Đặc biệt, siteliner còn giúp bạn kiểm tra cả Broken Links.

Kiểm tra trùng lặp nội dung với Siteliner
Kiểm tra trùng lặp nội dung với Siteliner

Sau đó, kết quả trả về như hình bên dưới. Bạn  sẽ biết được tỷ lệ % trùng lặp nội dung trong trang web của mình. Để kiểm tra nội dung trùng lặp cụ thể, bạn nhấn vào “Duplicate content”

tỷ lệ % trùng lặp nội dung trong website
Tỷ lệ % trùng lặp nội dung trong website

Kết quả sẽ trả về cho bạn như hình bên dưới:

Kết quả kiểm tra trùng lặp nội dung với siteliner
Kết quả kiểm tra trùng lặp nội dung với siteliner

Bước tiếp theo, bạn click vào các url cụ thể bị trùng lặp và xem xét chi tiết hơn để tối ưu lại nội dung trong website của mình.

kết quả kiểm tra trùng lặp nội dung của cụ thể

Tương tự như vậy đối với công cụ kiểm tra nội dung trùng lặp của

Cụ thể như tôi check trùng lặp nội dung trong hmgsearch thì chưa thấy bị lỗi duplicate content

kiểm tra trùng lặp nội dung trên hmgsearch
kiểm tra trùng lặp nội dung trên hmgsearch

Báo cáo Phạm vi index của Google Search Console cũng hữu ích khi tìm thấy duplicate content trong trang web của bạn. Hãy chú ý đến các điều khoản sau:

  • Bản sao mà không có bản chuẩn do người dùng chọn: Các URL trùng lặp của Google không được canonical thành một phiên bản ưa thích.
  • Trùng lặp, Google đã chọn trang chuẩn khác với người dùng: Google đã chọn bỏ qua trang chuẩn của bạn trên các URL mà họ tự tìm thấy và thay vào đó chỉ định trang chuẩn do Google chọn.
  • URL trùng lặp, đã gửi không được chọn làm chuẩn: Google đã chọn bỏ qua các chuẩn mà bạn đã xác định cho các URL bạn đã gửi qua sitemap XML.

Tìm nội dung trùng lặp bên ngoài trang web của riêng bạn

Nếu bạn có một trang web nhỏ, bạn có thể thử tìm kiếm trong Google các cụm từ giữa các dấu ngoặc kép.

Ví dụ: nếu tôi muốn xem có bất kỳ phiên bản nào khác của bài viết này hay không, tôi có thể tìm kiếm “Sử dụng siteliner.com, bạn có thể dễ dàng tìm thấy nội dung trùng lặp bằng cách kiểm tra xem các trang của bạn có tiêu đề trang, Meta description và tiêu đề H1 duy nhất hay không. ”

Ngoài ra, đối với trang web lớn hơn, bạn có thể sử dụng một dịch vụ như Copyscape. Copyscape thu thập dữ liệu trên web để tìm kiếm nhiều lần xuất hiện của nội dung giống nhau hoặc gần giống nhau.

Câu hỏi thường gặp về duplicate content

Tôi có thể bị phạt nếu có nội dung trùng lặp không?

Nếu bạn không cố ý sao chép trang web của ai đó thì bạn rất khó bị phạt nội dung trùng lặp. Nếu bạn đã sao chép một lượng lớn nội dung của người khác thì đây là những gì Google nói về nó:

Duplicate content trên một trang web không phải là cơ sở để hành động trên trang web đó. Trừ khi có vẻ như mục đích của nội dung trùng lặp là để lừa đảo và thao túng kết quả của công cụ tìm kiếm. Nếu trang web của bạn gặp vấn đề về nội dung trùng lặp và bạn không tuân theo lời khuyên được liệt kê ở trên. Các công cụ tìm kiếm sẽ thực hiện tốt việc chọn phiên bản nội dung để hiển thị trong kết quả tìm kiếm của mình.

Việc khắc phục các vấn đề về duplicate content có làm tăng thứ hạng của tôi không?

Có, bởi vì bằng cách khắc phục các vấn đề về nội dung trùng lặp, bạn đang cho các công cụ tìm kiếm biết những trang mà chúng thực sự nên thu thập thông tin, index và xếp hạng.

Bạn cũng sẽ ngăn các công cụ tìm kiếm chi tiêu crawl budget của họ cho trang web của bạn trên các trang trùng lặp không liên quan. Họ có thể tập trung vào nội dung độc đáo trên trang web của bạn mà bạn muốn xếp hạng.

Bao nhiêu nội dung trùng lặp có thể chấp nhận được?

Không có câu trả lời hay cho câu hỏi này. Tuy nhiên:

Nếu bạn muốn xếp hạng với một trang, nó cần phải có giá trị đối với khách truy cập của bạn và có nội dung độc đáo.

Similar Posts

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *