Nếu bạn đang lăn tay lên xuống cộng đồng SEO và marketing Việt Nam nửa đầu tháng 6 năm 2026, chắc không thể không thấy mọi người liên tục nhắc cụm Empirical GEO study 250k page comparisons. Cứ ai nói về tối ưu tìm kiếm AI cũng dẫn nguồn, cứ bài nào dạy chiến lược nội dung cũng trích dẫn con số này. Nhưng rất ít người ngồi mổ xẻ thật kỹ bộ dữ liệu này: nó đo lường được gì, thiếu gì, và con số nào thực sự sẽ thay đổi cách bạn vận hành website năm nay.
Tại sao bộ dữ liệu 250 nghìn nguồn của XFunnel trở thành chuẩn mực ngành
Đây không phải nghiên cứu vừa ra mắt. XFunnel công bố công trình này từ tháng 2 năm 2025, nhưng đến nay vẫn là bộ dữ liệu thực nghiệm lớn nhất công khai trên thế giới về hành vi trích dẫn của AI search. Nhóm nghiên cứu đã quét 40.000 câu trả lời đầy đủ từ ChatGPT, Perplexity và Gemini, lọc ra tổng cộng 250.000 đường dẫn duy nhất được các mô hình này sử dụng làm nguồn chứng cứ.
Không ai trước đó làm được quy mô này. Trước đây mọi người chỉ đoán AI thích nội dung gì, bây giờ họ có danh sách thực tế 250 nghìn trang mà 3 engine lớn nhất thế giới thực sự đã dùng. Không phải thứ hạng trên Google, không phải ước tính traffic: đây là dữ liệu thật, được trích xuất thẳng từ câu trả lời mà người dùng cuối nhận được.
Và kết quả đầu tiên đã phá vỡ gần như toàn bộ những giả định phổ biến về GEO lúc đó:
- Nội dung hướng dẫn toàn diện, dạng “cách làm X từ A đến Z” – thứ mọi người vẫn dạy là chuẩn SEO suốt 10 năm qua – chỉ có tỉ lệ được trích dẫn 12%
- Bài phân tích xu hướng, tổng kết cuối năm, báo cáo nghiên cứu gốc: tỉ lệ trích dẫn dao động từ 61 đến 78%
- Trang công cụ, demo tương tác: cao hơn cả, đứng đầu mọi hạng mục được AI ưu tiên
Cái này không phải ý kiến. Đây là thống kê trên 250 nghìn mẫu. Và đây chính là lý do tại sao đến giữa năm 2026, mọi người vẫn còn quay lại với nghiên cứu này mỗi khi tranh cãi GEO có phải là thứ thật hay chỉ là trend marketing.
Con số Search Engine Land xác nhận giả thuyết của Empirical GEO study 250k page comparisons

Ngày 27 tháng 5 năm 2026, Search Engine Land công bố phân tích độc lập trên 150 nghìn trang từ 10 website ở các ngành khác nhau: y tế, an ninh mạng, bán lẻ, giáo dục, phát triển kinh tế. Và toàn bộ kết quả của họ hoàn toàn khớp với xu hướng mà XFunnel đã tìm thấy một năm trước đó.
Nhưng có một con số trong báo cáo này mà hầu hết mọi người bỏ lỡ. 49%. Tức là gần một nửa những trang đứng top 100 trên Google tìm kiếm truyền thống, không nhận được một lượt truy cập nào từ AI search. Không phải ít. Không phải thấp hơn. Là không có cái nào cả.
Và ngược lại: 14% những trang có lưu lượng truy cập từ AI, lại không hề nhận được một click organic nào trong suốt tháng khảo sát.
Hai kênh này không chỉ khác nhau. Chúng độc lập. Chúng gần như không có mối quan hệ nhân quả. Bạn có thể làm tốt trên Google và hoàn toàn vô hình đối với AI. Bạn cũng có thể là nguồn được AI trích dẫn hàng ngày, và chẳng ai tìm thấy bạn khi gõ vào ô tìm kiếm truyền thống.
Đây là điểm mà 90% các bài viết tổng hợp về GEO không dám nói thẳng. Nếu đến nay bạn vẫn đang viết nội dung theo quy tắc SEO cũ, và hy vọng nội dung đó sẽ tự động hoạt động tốt với AI, thì bạn đang đánh cược vào một điều mà dữ liệu quy mô hàng trăm nghìn trang đã chứng minh là sai.
Điểm mù lớn nhất mà không ai nói về các nghiên cứu quy mô lớn

Mọi người khen hai nghiên cứu này nhiều đến mức quên chỉ ra cái chúng không nói. Và cái thiếu đó lớn đến mức có thể làm vô hiệu toàn bộ chiến lược GEO bạn đang xây dựng.
Đầu tiên: không một nghiên cứu nào trong số này kiểm tra xem AI có trích dẫn nội dung đúng ý đồ tác giả hay không. Họ chỉ đếm xem link có xuất hiện trong câu trả lời không. Họ không kiểm tra AI đã dùng đoạn đó trong ngữ cảnh nào, nói đúng hay sai, hay đã bẻ cong ý nghĩa gốc của bài viết.
Josh Brentan, chuyên gia GEO trên LinkedIn vừa làm thử nghiệm nhỏ về chuyện này. Anh lấy bài so sánh Airtable vs Notion của đồng sáng lập Whalesync – bài viết được cả ngành khen là chuẩn tối ưu AI, cấu trúc rõ ràng, dữ liệu đầy đủ. Anh chạy bài này qua bộ phân tích ý định 4 lần. Không lần nào hệ thống thống nhất được mục đích thực sự của bài viết: lần thì nói đây là đánh giá trung lập, lần thì xác định đây là bài giới thiệu tích hợp sản phẩm, lần lại nghĩ tác giả chỉ muốn chứng minh uy tín cá nhân.
Tức là: bài của bạn có được AI trích dẫn không có nghĩa là nó được sử dụng đúng theo cái lý do bạn viết nó ra. Bạn có thể làm tốt mọi chỉ số GEO, và vẫn kết thúc với việc thương hiệu của bạn được nhắc đến trong một bối cảnh hoàn toàn không mong muốn. Và cho đến nay không có nghiên cứu quy mô nào đo lường được vấn đề này.
Thứ hai: cả hai nghiên cứu đều gộp chung tất cả các engine AI thành một. Họ không tách ra ChatGPT thích gì, Perplexity thích gì, Gemini có quy tắc riêng nào. Trong thực tế cùng một nội dung, trên ChatGPT có thể được ưu tiên nếu là bài dài trên domain uy tín, còn trên Perplexity lại chỉ lấy những đoạn trả lời đóng gói ngắn gọn. Không có dữ liệu công khai nào giải mã sự khác biệt này.
Điều này có ý nghĩa gì với chủ website ở Việt Nam
Bạn không cần phải đọc toàn bộ 100 trang báo cáo nghiên cứu để rút ra 3 điều hành động ngay hôm nay:
- Dừng bỏ tiền viết hàng chục bài hướng dẫn toàn diện. Dữ liệu 250 nghìn trang đã chứng minh AI gần như không bao giờ trích dẫn loại nội dung này. Thay vào đó đầu tư vào bài báo cáo dữ liệu gốc, tổng kết xu hướng, công cụ nhỏ hữu ích
- Bắt đầu theo dõi lưu lượng LLM referral trên GA4 riêng biệt, không so sánh hay gộp chung với organic. Hai kênh này hoạt động theo luật chơi hoàn toàn khác
- Nếu bạn đang xây dựng nội dung so sánh sản phẩm, hãy hiểu rõ: bạn không thể kiểm soát AI sẽ hiểu ý đồ bài viết của bạn như thế nào. Đừng đặt tất cả nguồn hy vọng vào dạng nội dung này
Đối với những doanh nghiệp muốn chủ động đón đầu làn sóng AI search thay vì bị động ngồi chờ, hiện nay đã có các giải pháp tối ưu chuyên biệt cho GEO. Ví dụ gói GEO của Backlink Cafe được xây dựng riêng cho sân chơi này, thay vì chỉ điều chỉnh nhẹ chiến lược SEO cũ: bao gồm 21 bài nội dung chuyên sâu chuẩn EEAT, cấu trúc dữ liệu JSON-LD dành cho AI, định vị thực thể thương hiệu trên 50 nền tảng và hệ thống backlink được chọn lọc theo tiêu chí ưu tiên của các mô hình ngôn ngữ lớn.
Bạn cũng có thể bắt đầu từ rất nhỏ: kiểm tra 10 trang có traffic cao nhất trên website của bạn, xem chúng có xuất hiện trong câu trả lời của ChatGPT hay Perplexity không. Rất có thể bạn sẽ ngạc nhiên với kết quả.
Thời điểm này rất giống năm 2008, khi mọi người vẫn đang tranh cãi SEO có phải là thứ thật hay không, và chỉ một số ít người bắt đầu xây dựng hệ thống trước khi đại bộ phận khác nhận ra cuộc chơi đã thay đổi. Giờ cũng vậy. Dữ liệu đã có. Người ta vẫn đang tranh cãi. Và những ai hành động dựa trên con số, chứ không phải dựa trên ý kiến, sẽ là người đứng đầu 2 năm tới.



Leave a Reply