Google: Thu thập dữ liệu, lập chỉ mục và xếp hạng

340 lượt xem 10/05/2024

Không phải gần đây, mà từ đợt Google update tháng 10 năm ngoái thì tình trạng thu thập dữ liệu và index đã là một trong những vấn đề nan giải của anh em SEO, và mình tin ngay cả với Google cũng vậy.

Bối cảnh

Từ 2016 tới 2023 (số liệu mình thống kể để thuyết trình trong 1 event SEO tổ chức hồi cuối năm ngoái tại Tp.HCM), cho thấy các bản update của Google bao gồm:

Content update: 16 lần
Core update: 12 lần
Technical: 3 lần
Offpage: 2 lần

Điều này cho thấy: trong những năm qua offpage dường như không có thay đổi tiêu chí gì, nhưng content là thứ mà Google tập trung nhiều nhất.

Tiếp theo, nói về tình trạng 2 năm nay thì có 4 vấn đề sau khiến cho cả Google và người dùng trở nên khó khăn trong việc đọc/ hiểu/ phân loại và đánh giá nội dung:

Cào bài: dù là dùng công cụ tự code, hay plugin có sẵn thì cào bài làm cho lượng content tăng đột biến + nội dung trùng lặp và thừa trên internet quá nhiều.
Auto-Generated Content: hệ thống tạo nội dung tự động cũng tương tự như cào bài, nhưng đây là hệ thống được hỗ trợ bởi AI và hoàn toàn tự động tạo ra bài viết dựa trên từ khóa hoặc chủ đề đầu vào của người sử dụng công cụ. (bạn có thể đọc thêm tại: Auto-Generated Content là gì?)
Spin content: đây là dạng xào bài, đa số hiện nay trên 80% nội dung trên internet là dạng xào qua nấu lại, 1 phần do nhiều nội dung đặc thù mang tính định nghĩa, công thức, khái niệm,… khó bổ sung tính sáng tạo, một phần do content writer lười sáng tạo nên chủ yếu lên Google tìm kiếm nội dung và viết lại (ngay cả hình ảnh cũng chỉ lên Google lấy và gắn thêm logo vào watermark)
AI Content: cái này tương tự phần số 2, tuy nhiên là do con người thực hiện thay vì hệ thống tự động. Đặc biệt từ khi ChatGPT, Gemini (Bard) và một số công cụ tương tự ra đời thì AI content càng ngày càng trở nên phổ biến.

Và cả 4 dạng content trên thì đều được anh em SEO nhiệt tình sử dụng tool để ép index, nói đúng hơn việc này làm cho áp lực lên bộ máy Google càng trở nên quá tải. Thậm chí là Google đang lỗi thật sự trong vấn đề thu nạp dữ liệu (bằng chứng mình nói phần cuối)

Xem thêm Điều kiện & Quy trình tham gia nhóm Làm SEO bằng AI

Tình trạng & Vấn đề

Quay lại vấn đề thu thập dữ liệu và index, đầu năm nay mình có bài viết đăng ở NGHIỆN SEO phân tích về vấn đề này, nhưng có vẻ suốt gần 6 tháng qua mọi thứ vẫn chưa thật sự ổn định.

Mình nhận thấy ở đây có 2 khía cạnh:

Là phía người dùng vẫn tiếp tục tạo ra số lượng lớn content “rác” và ép index bằng tool bất chấp có khả thi cho SEO hay không.
Là phía Google đã và đang cố gắng đưa ra những biện pháp/ giải pháp để xử lý tình huống.

Từ 2 khía cạnh trên mình bắt đầu theo dõi suốt 6 tháng qua, xem từng trường hợp (vì mình có hàng chục website tạo ra chỉ để test với đủ thể loại: cào bài, AI content, auto content, spin content, và cả tự viết,…)

Đánh giá chung

Đến nay mình đưa ra một số đánh giá như sau:

1. Hệ thống thu thập thông tin của Google đang thực sự quá tải, nếu như trước đây 1 website để có 1000 bài viết có thể mất đến 3 tháng hoặc hơn, nhưng bây giờ chỉ cần 2 ngày hoặc 1 tuần là đã đủ.

2. Để ứng phó tình trạng quá tải, Google buộc phải đưa ra giải pháp:

# Đưa AI vào sâu hơn trong việc áp dụng thu thập + đánh giá nội dung và lập chỉ mục
# Khắt khe hơn trong vấn đề đánh giá nội dung, dẫn đến xóa sạch hoặc 1 phần những nội dung được cho là spam, kém chất lượng.
# Chia dữ liệu làm 2-3 kho lưu trữ, mình hay ví dụ như việc số lượng bài tập học sinh nộp về thầy quá nhiều, khiến thầy sẽ duyệt sơ qua rồi ném những bài nghi ngờ kém, đạo văn hoặc của những học sinh kém (domain yếu) vào tủ, còn bài của học sinh giỏi (domain mạnh) thì ưu tiên chấm trước. Vấn đề này thì bạn Nguyễn Xuân Sơn có đăng ở NGHIỆN SEO một bài viết với nội dung tương tự và mình rất đồng tình.

Xem thêm Vì sao SEO lên TOP nhưng không ra đơn hàng?

Vế số 3 là vế mà mình nghĩ tới nhiều, đó cũng là tình trạng anh em đang thấy: khi search bằng site:url thì thấy bài viết nhưng khi tìm kiếm bằng cả tiêu đề, cụm từ, search cả url lẫn “url” cũng không thấy xuất hiện (vì mặc dù thầy đã nhận bài nhưng thầy bỏ vào tủ, giống Google đã thu thập, trong GSC cũng báo thu thập và index nhưng nó lại không show cho người dùng thấy)

Về giải pháp

Hiện nay mặc dù mình đã bỏ thời gian hơn 6 tháng nghiên cứu sâu về vấn đề trên, cũng có khắc phục được khá nhiều dự án và ổn định qua mấy đợt update, tuy nhiên mình nhận thấy cách làm của mỗi site lại có kết quả khác nhau (buộc phải áp dụng nhiều phương pháp) nên chưa có công thức hay giải pháp nào có thể áp dụng đại trà để chia sẻ cộng đồng vào lúc này. Nhưng mình có một vài gợi ý sau:

# Hình trước:

Google ghi nhận có thẻ “noindex” trong thẻ meta robots (có lúc nó ghi nhận bị chặn bởi file robots.txt mà mình có đăng lần trước). Nhưng đây hoàn toàn là lỗi của Google không phải của chúng ta (vì thực tế web chúng ta không hề chặn gì ở robots.txt hay có thể noindex), hôm qua bạn Ngô Phùng Khánh cũng có đăng bài vấn đề này. Trường hợp này đừng lo lắng, cứ chờ rồi submit lại sau, nhưng rõ ràng vì Google báo lỗi vậy nên làm gì còn việc được xếp hạng nữa.

# Hình 1: Một số trường hợp Url không được Google tìm nạp, mình sẽ tiến hành kiểm tra Url của phiên hoạt động, mục đích là để gọi BOT vào Url đó.

# Hình sau: Sau khi kiểm tra thì việc tìm nạp trang đã thành công, và hiển thị đúng ngày giờ như hình, mình stop tại đây (không bấm vào Yêu cầu lập chỉ mục (vì vốn dĩ đã lập chỉ mục rồi)

# Hình check đạo văn: hình này của bài cũ, nhưng mình minh họa để anh em thấy rằng: mặc dù Google đã thu thập url, có lập chỉ mục nhưng toàn bộ nội dung bên trong đã bị Google bỏ qua (check đạo văn thấy nó độc đáo, thì có nghĩa những đoạn văn đó chưa hề tồn tại trên Google, nếu có show domain của anh em ra thì nghĩa là đã có)

Xem thêm Hướng dẫn đặt internal link tự động với Link Whisper Pro

Lời khuyên

Như vậy, có 2 việc anh em nên làm:

Kiểm tra xem nội dung bài viết của mình có được Google thu thập hay chưa bằng cách check đạo văn. Nếu không thu thập thì việc anh em có xóa đi, sửa lại hay làm gì với nội dung cũ cứ thoải mái thử.
Kiểm tra xem Google bot có vào thu thập dữ liệu trên Url đó hay không bằng search sonsole (nếu Bot không vào (Tìm nạp trang: không áp dụng) hoặc nó báo lỗi “noindex'” hay chặn bởi “robots.txt” thì anh em có nghe theo ai sửa nội dung kiểu gì cũng bó tay.

Còn phía mình, mình đang thử nhiều giải pháp, mình gạch vài cái đầu dòng anh em có thể thử:

Tiếp tục viết bài mới, ưu tiên longtail keywords (áp dụng tìm kiếm Keyword Golden Ratio (KGR)) để kéo traffic + tín hiệu người dùng mới.
Đi internal link bài bị mất index, mất xếp hạng vào những bài có liên quan nhưng đang xếp hạng tốt (thậm chí là cố gắng để nó xuất hiện những vị trí tương tác tốt: sidebar, hompage, footer,…)
Chạy Ads: phương pháp này mình áp dụng nhiều năm nay, với những Url khó index hoặc mất xếp hạng (mất traffic) thì mình chạy Ads vào url đó với các từ khóa blog tương ứng nội dung (vì là hạy ads vào bài blog nên giá cực rẻ (có khi 38đ/ click) do blog thì có ai chạy đâu mà cạnh tranh)

Những phương pháp như đi backlink, traffic user,… mình không có dùng tới, anh em thích thì cứ thử.

P/s: Nay dậy sớm ngồi uống cà phê có ngẫu hứng nên viết, bài mình lúc nào cũng hơi dài 😆 nhưng quen rồi (vì muốn nói chi tiết và giải thích tường tận cho anh em dễ hiểu), và mình tin những bài của mình thì anh em mới làm SEO thích đọc hơn anh em SEO pro, nên mình vẫn luôn nhắm đến những anh em newbie này.

Xem bài viết trên: Facebook Trịnh Bảo

Ghi chú: Mình thành lập website cá nhân này nhằm thỏa mãn đam mê viết lách, bao gồm những bài blog mình tự viết và cả những nội dung sưu tầm. Nếu bạn yêu thích hãy cùng kết nối với mình qua Zalo: 0949.339.222 hoặc Facebook: Trịnh Bảo. Cảm ơn bạn đã ghé thăm!

Xem thêm: