Đánh Giá Độ Chính Xác Của AI Tìm Kiếm: Vấn Đề "Tự Tin Sai Lệch"

Table of Contents

Trong bối cảnh công nghệ trí tuệ nhân tạo (AI) phát triển bùng nổ, cụm từ “Đừng tin mọi thứ AI nói!” đã trở nên quen thuộc. Nhưng thực tế, các công cụ tìm kiếm AI thiếu chính xác đến mức nào? Một nghiên cứu toàn diện từ Trung tâm Báo chí Kỹ thuật số Tow (Tow Center for Digital Journalism) đã thử nghiệm 8 công cụ AI tìm kiếm phổ biến và cho ra kết quả đáng kinh ngạc, cảnh báo người dùng về độ chính xác của AI và hiện tượng “tự tin sai lệch” của chúng.

Phương Pháp Kiểm Tra Độ Chính Xác Của Các Công Cụ AI Tìm Kiếm

Để đánh giá khách quan về tính đúng đắn của AI, Trung tâm Tow đã thực hiện một quy trình thử nghiệm chặt chẽ với 8 chatbot AI. Các mô hình này bao gồm cả phiên bản miễn phí và trả phí, đều có khả năng truy cập internet trực tiếp:

ChatGPT Search
Perplexity
Perplexity Pro
DeepSeek Search
Microsoft Copilot
Grok-2 Search
Grok-3 Search
Google Gemini

Nghiên cứu tập trung chủ yếu vào khả năng của các chatbot AI trong việc truy xuất và trích dẫn nội dung tin tức một cách chính xác. Ngoài ra, Tow Center cũng muốn quan sát cách các chatbot phản ứng khi chúng không thể thực hiện lệnh được yêu cầu.

Để thực hiện điều này, 10 bài báo từ 10 nhà xuất bản khác nhau đã được chọn. Các đoạn trích từ mỗi bài báo sau đó được cung cấp cho từng chatbot. Sau đó, họ yêu cầu chatbot thực hiện các tác vụ đơn giản như xác định tiêu đề bài viết, nhà xuất bản gốc, ngày xuất bản và URL.

Ví dụ về cách Tow Center tạo câu hỏi để kiểm tra độ chính xác của AI tìm kiếm, minh họa quy trình đánh giá chatbot.

Các phản hồi của chatbot sau đó được phân loại vào 6 nhóm:

Chính xác (Correct): Tất cả ba thuộc tính (tiêu đề, nhà xuất bản, URL) đều đúng.
Chính xác nhưng không đầy đủ (Correct But Incomplete): Một số thuộc tính đúng, nhưng câu trả lời thiếu thông tin.
Sai một phần (Partially Incorrect): Một số thuộc tính đúng, trong khi những thuộc tính khác không chính xác.
Sai hoàn toàn (Completely Incorrect): Tất cả ba thuộc tính đều không chính xác và/hoặc bị thiếu.
Không cung cấp thông tin (Not Provided): Không có thông tin nào được cung cấp.
Bị chặn bởi trình thu thập dữ liệu (Crawler Blocked): Nhà xuất bản không cho phép trình thu thập dữ liệu của chatbot trong tệp robots.txt của họ.

Không Chỉ Sai, Mà Còn “Tự Tin Sai Lệch”

Kết quả của nghiên cứu này cho thấy các công cụ tìm kiếm AI thường xuyên đưa ra thông tin sai lệch. Tuy nhiên, vấn đề lớn hơn, gây tranh cãi hơn nằm ở cách chúng sai: chatbot hầu như luôn phản hồi một cách đầy tự tin, bất kể độ chính xác của AI đến đâu. Nghiên cứu chỉ ra rằng chúng hiếm khi sử dụng các cụm từ thể hiện sự không chắc chắn như “có thể” hay thừa nhận rằng chúng không thể thực hiện lệnh.

Biểu đồ thể hiện độ chính xác và mức độ tự tin của các công cụ tìm kiếm AI, với phần lớn phản hồi nằm trong vùng "tự tin" nhưng nhiều lỗi.

Biểu đồ trên minh họa rõ nét về độ chính xác của các phản hồi và mức độ tự tin mà chúng được đưa ra. Có thể thấy, gần như tất cả các phản hồi đều nằm trong vùng “tự tin”, nhưng lại có rất nhiều dữ liệu màu đỏ thể hiện sự thiếu chính xác.

Ví dụ, Grok-3 – một mô hình cao cấp với chi phí 40 USD mỗi tháng – lại trả về tới 76% phản hồi “tự tin sai hoàn toàn” hoặc “sai một phần”. Đáng chú ý là Grok-3 hoạt động kém hơn so với phiên bản miễn phí của nó là Grok-2.

So sánh hiệu suất giữa chatbot AI trả phí và miễn phí, cho thấy mô hình cao cấp không đảm bảo độ chính xác vượt trội.

Tương tự, sự khác biệt về hiệu suất cũng được nhận thấy giữa Perplexity Pro và Perplexity. Việc trả tiền cho một mô hình cao cấp, như 20 USD mỗi tháng cho Perplexity Pro, không nhất thiết cải thiện độ chính xác của AI, mà dường như chỉ khiến chúng tự tin hơn khi đưa ra thông tin sai.

Thỏa Thuận Cấp Phép và Chặn Truy Cập: Liệu Có Hiệu Quả?

Một số công cụ tìm kiếm AI có các thỏa thuận cấp phép cho phép chúng truy cập vào các ấn phẩm cụ thể. Người ta thường cho rằng các chatbot này sẽ rất giỏi trong việc xác định chính xác thông tin từ các ấn phẩm đó. Tuy nhiên, điều này không phải lúc nào cũng đúng.

Biểu đồ dưới đây cho thấy 8 chatbot và một nhà xuất bản mà chúng có thỏa thuận cấp phép. Các chatbot được yêu cầu xác định tiêu đề bài viết, nhà xuất bản gốc, ngày xuất bản và URL. Hầu hết các chatbot đều có thể làm điều này với mức độ chính xác cao, nhưng một số đã thất bại. Ví dụ, ChatGPT Search đã sai tới 90% khi xử lý thông tin từ San Francisco Chronicle, một ấn phẩm mà nó có mối quan hệ đối tác.

Biểu đồ các chatbot AI có thỏa thuận cấp phép với nhà xuất bản, thể hiện mức độ chính xác khi trích dẫn thông tin từ các nguồn đối tác.

Mặt khác, một số nhà xuất bản đã chặn quyền truy cập nội dung của họ từ các công cụ tìm kiếm AI. Tuy nhiên, nghiên cứu cho thấy rằng điều này không phải lúc nào cũng hiệu quả trong thực tế. Một số công cụ tìm kiếm dường như không tôn trọng các quy tắc chặn.

Chẳng hạn, Perplexity đã có thể xác định chính xác tất cả 10 trích dẫn từ National Geographic mặc dù trang web này có trả phí và chặn trình thu thập dữ liệu. Điều này chỉ đúng với các câu trả lời chính xác. Thậm chí nhiều chatbot hơn không chỉ truy cập các trang web bị chặn mà còn cung cấp thông tin không chính xác từ chúng. Grok và DeepSeek không được hiển thị trong biểu đồ vì chúng không tiết lộ trình thu thập dữ liệu của mình.

Sự vi phạm của các chatbot AI đối với chính sách chặn truy cập (robots.txt) của các trang web, cho thấy khả năng thu thập dữ liệu trái phép.

Vậy, tất cả những điều này có ý nghĩa gì đối với bạn? Rõ ràng, việc hoàn toàn dựa vào công cụ tìm kiếm AI để tìm kiếm thông tin chính xác là một đề xuất rủi ro. Ngay cả các mô hình cao cấp có thỏa thuận cấp phép cũng có thể tự tin đưa ra thông tin sai lệch. Đây là một lời nhắc nhở mạnh mẽ rằng tư duy phản biện và việc kiểm tra chéo nguồn thông tin vẫn là những kỹ năng thiết yếu trong kỷ nguyên AI.

Bạn có thể tìm hiểu thêm về nghiên cứu đầy đủ tại Columbia Journalism Review để có cái nhìn sâu sắc hơn về những phát hiện đáng lo ngại này. Bạn nghĩ sao về thực trạng độ chính xác của AI hiện nay? Hãy để lại bình luận bên dưới nhé!

Đánh Giá Độ Chính Xác Của AI Tìm Kiếm: Vấn Đề “Tự Tin Sai Lệch”

Phương Pháp Kiểm Tra Độ Chính Xác Của Các Công Cụ AI Tìm Kiếm

Không Chỉ Sai, Mà Còn “Tự Tin Sai Lệch”

Thỏa Thuận Cấp Phép và Chặn Truy Cập: Liệu Có Hiệu Quả?

Administrator

Phương Pháp Kiểm Tra Độ Chính Xác Của Các Công Cụ AI Tìm Kiếm

Không Chỉ Sai, Mà Còn “Tự Tin Sai Lệch”

Thỏa Thuận Cấp Phép và Chặn Truy Cập: Liệu Có Hiệu Quả?

Administrator

Related Posts

Leave a Comment Hủy