Lại nói về trị số P (trong khoa học)

Báo New York Times (Thời báo New York) mới đi một bài viết ngắn về trị số P trong mục Take a number. Trị số P, theo tôi thấy, là một con số có ảnh hưởng cực kì lớn trong khoa học và đời sống chúng ta. Thuốc chúng ta dùng, những khám phá khoa học quan trọng (kể cả hạt Higgs), những mối liên quan trong khoa học xã hội, v.v. tất cả đều dựa trên trị số P. Thế nhưng ít người hiểu ý nghĩa của nó là gì, và do đó thường bị hiểu sai. Tiêu biểu cho sự hiểu sai là bài viết trên tờ New York Times …

Nhưng trước khi giải thích tại sao bài báo trên NYT sai, tôi muốn có vài lời về báo chí phổ thông. Dù sống ở Úc, nhưng tôi lại thích đọc tờ New York Times (NYT) hơn là Sydney Morning Herald. Lí do đơn giản là vì NYT là tờ báo rất hay và phong phú. Tờ báo không chỉ đưa tin thời sự, chính trị, xã hội, kinh tế, mà còn tin tức khoa học và đặc biệt là y khoa. Không giống như những tờ báo làng nhàng, những bản tin và bình luận về khoa học và y khoa trên NYT được viết một cách chuyên sâu vừa đủ để người ngoài khoa học có thể hiểu được. Tôi chưa thấy báo phổ thông nào, kể cả báo Úc, có một vị trí đáng kính như NYT. Nếu nghĩ đến một tờ báo hay về khoa học, tôi chỉ nghĩ đến tờ The Guardian (Anh), chứ Úc thì không thể nào so sánh được.

NYT có khả năng làm việc đưa tin một cách hữu hiệu là vì họ có một đội phóng viên rất chuyên nghiệp. Một số phóng viên thật ra là bác sĩ và nhà khoa học chuyên nghiệp. Ngoài ra, họ còn có những nhà khoa học nổi tiếng cộng tác và viết bài. Một trong những bác sĩ viết văn cực kì hay mà tôi rất thích đọc là Atul Gawande, một bác sĩ phẫu thuật gốc Ấn Độ và giáo sư y khoa của Harvard. Nếu bạn nào (kể cả ngoài ngành y) chưa đọc Gawande, tôi đề nghị các bạn nên tìm đọc cuốn Complication để thấy văn tài của Gawande như thế nào, và cái nhân trong nhà khoa học đáng nể này.

Dĩ nhiên, là báo phổ thông, nên thỉnh thoảng những bản tin và bình luận trên NYT không hẳn chính xác hay hoàn đúng theo tinh thần khoa học. Chẳng hạn như bài dưới đây. Vì bài viết ngắn nên tôi lược dịch để dễ theo dõi:

Đặt một giá trị “thật” cho nghiên cứu y khoa

Khi các nhà nghiên cứu y khoa báo cáo kết quả nghiên cứu, họ cần phải biết những kết quả đó là tác động thật của những gì họ thử nghiệm, hay chỉ là một biến cố ngẫu nhiên. Để trả lời câu hỏi này, họ thường sử dụng trị số P.

Trị số P (viết tắt của chữ probability) là kết quả của một quá trình tính toán phức tạp nhằm định lượng xác suất mà kết quả của một thí nghiệm không phải do yếu tố ngẫu nhiên. Không thể nào loại bỏ khả năng một kết quả có được là do yếu tố ngẫu nhiên, nhưng đối với các nhà nghiên cứu y khoa, trị số P được chấp nhận như là một thước đo để đánh giá một thuốc hay liệu pháp điều trị đang được nghiên cứu có hiệu quả hay không. Theo qui ước, những kết quả với trị số P cao hơn 0.05 có thể xem là do yếu tố ngẫu nhiên, bất kể kết quả tốt hay xấu ra sao.

Hiểu đúng ý nghĩa của trị số P là một sự phức tạp. Cần có tinh tế để diễn giải trị số P. Có nhiều người chỉ trích cái qui ước 0.05 vì nhiều lí do khác nhau. Nhưng cũng đủ để nói rằng trị số P cung cấp một mức độ bảo kê, chứ không phải là sự chắc chắn. Sự chắc chắn rất khó đạt được trong nghiên cứu y khoa.

Trong khoa học thực nghiệm tôi nghĩ trị số P đóng vai trò cực kì quan trọng. Hầu như bất cứ một lĩnh vực nghiên cứu nào cũng sử dụng trị số P để suy luận. Trong nghiên cứu y khoa, trị số P càng quan trọng hơn nữa, vì nó như là một tờ giấy thông hành để công bố những phát hiện trong nghiên cứu. Làm sao chúng ta có thể biết thuốc nào có hiệu quả hơn thuốc nào, làm sao biết được ăn gạo trắng có lợi hay hại cho sức khoẻ, làm sao để biết gene nào có liên quan đến tử vong, v.v. tất cả đều có thể trả lời qua nghiên cứu thực nghiệm, và thước đo sau cùng của những nghiên cứu này chính là trị số P.

Một kết quả nghiên cứu với trị số P < 0.05 được xem như là có giấy thông hành để xuất bản

Thế nhưng trị số P rất dễ bị hiểu lầm. Sự hiểu lầm về ý nghĩa của trị số P cũng thể hiện qua bài báo trên NYT. Trong bài báo trên, tác giả giải thích rằng “Trị số P (viết tắt của chữ probability) là … xác suất mà kết quả của một thí nghiệm không phải do yếu tố ngẫu nhiên.” Nhưng rất tiếc, đó là một hiểu lầm.

Cứ mỗi lần giảng về y học thực chứng, tôi đều dành ra một bài để giải thích ý nghĩa của trị số P. Tôi sẽ giải thích qua một ví dụ như sau: giả dụ tôi so sánh 2 loại thuốc dùng cho điều trị loãng xương (tạm gọi là thuốc A và B). Sau 3 năm theo dõi, số bệnh nhân được điều trị bằng thuốc A có tỉ lệ gãy xương là 5%, và số bệnh nhân dùng thuốc B có tỉ lệ gãy xương 3%. Vấn đề đặt ra là sự khác biệt mà tôi quan sát trên có phải do ngẫu nhiên hay do ảnh hưởng của thuốc?

Câu hỏi ngẫu nhiên là có lí do. Lí do là vì tôi chọn bệnh nhân một cách ngẫu nhiên, và tôi cũng chia nhóm bệnh nhân một cách ngẫu nhiên. Nên rất có thể quá trình ngẫu nhiên hoá có vấn đề nên hai nhóm không tương đương nhau. Chẳng hạn như bệnh nhân nhóm A có thể có một yếu tố nào đó [mà tôi không biết] có liên quan đến hiệu quả của thuốc, và chính yếu tố này giải thích sự khác biệt giữa hai nhóm. Do đó, chỉ khi nào tôi loại bỏ yếu tố ngẫu nhiên thì tôi mới có đủ tin tưởng để kết luận rằng sự khác biệt giữa hai nhóm là có thể do thuốc, hay do yếu tố sinh học.

Thử nghiệm thuốc, hay nghiên cứu thực nghiệm và can thiệp nói chung, cũng giống như qui trình xét xử trong toà án. Tôi nói toà án phương Tây, chứ không phải toà án bên Việt Nam. Trong toà án, một cá nhân được xem là vô tội cho đến khi được chứng minh là có tội (innocent until proven guilty). Tương tự, khi tôi thử hai loại thuốc, tôi phải bắt đầu bằng một giả định (thật ra là giả thuyết trong trường hợp này) rằng hai loại thuốc này có hiệu quả như nhau, cho đến khi dữ liệu cho thấy chúng khác nhau.

Cũng như trong toà án, khái niệm chứng minh có khi rất ư là mù mờ. Nhưng bồi thẩm đoàn phải tin rằng họ đã có những chứng cứ không còn nghi ngờ gì nữa (beyond a reasonable doubt) để kết tội một cá nhân. Trong y khoa, trị số P là một tóm tắt cho chúng ta biết hiệu quả (hay sự khác biệt giữa hai thuốc) là thật, là không còn nghi ngờ gì nữa. Chúng ta không muốn kết luận rằng thuốc B có hiệu quả hơn thuốc A nếu trong thực tế hai loại thuốc này có hiệu quả như nhau.

Giả dụ rằng sau khi phân tích và so sánh hai nhóm bệnh nhân, tôi có được trị số P = 0.01. Câu hỏi đặt ra là ý nghĩa của con số này là gì? Theo giải thích của tác giả bài trên NYT, con số này có nghĩa là xác suất mà tôi có được kết quả trên một cách ngẫu nhiên là 1% (vì lấy P = 0.01 nhân cho 100). Xin nhắc lại rằng “kết quả trên” ở đây có nghĩa là khác biệt 2% (hay khác biệt giữa 5% và 3%). Nói cách khác, theo cách hiểu này, xác suất hai loại thuốc này có hiệu quả khác nhau là 99%. Nếu tôi gọi H0 là giả thuyết hai thuốc giống nhau thì cách hiểu trên có nghĩa là P(H0) = 0.01.

Nhưng cách hiểu này sai. Cách hiểu đúng thì phức tạp hơn một chút. Phức tạp hơn là vì chúng ta cần một vế khác nữa: đó là dữ liệu. Có thể xem độ khác biệt giữa hai nhóm là dữ liệu, và gọi kí hiệu là D. Trị số P có nghĩa là xác suất mà tôi quan sát D [hay lớn hơn D] nếu hai thuốc này không khác nhau là 1%. Nói cách khác, trị số P thật sự là một xác suất có điều kiện:

P(D | H0) = 0.01

Có lẽ tôi phải giải thích thêm để dễ hiểu hơn. Khởi đầu, tôi cho rằng hai loại thuốc A và B có hiệu quả như nhau. Nói theo ngôn ngữ khoa học, đó là giả thuyết vô hiệu hay H0. Giả dụ rằng tôi thực hiện 100 nghiên cứu, và mỗi nghiên cứu, tôi chọn bệnh nhân và phân nhóm bệnh nhân một cách ngẫu nhiên. Giá trị P = 0.01 có nghĩa là trong 100 nghiên cứu đó, có 1 nghiên cứu cho thấy thuốc B tốt hơn A. Nói cách khác, nếu thuốc A và B thật sự có hiệu quả như nhau, thì trong 100 nghiên cứu sẽ có 1 nghiên cứu cho thấy B > A.

Do đó, ý nghĩa của trị số P không phải dễ hiểu. Không dễ hiểu vì nó mang tính phản chứng (proof of contradiction) theo mô hình:

Nếu A và B như nhau thì dữ liệu D không thể xảy ra (dữ liệu D là tỉ lệ gãy xương nhóm A cao hơn nhóm B);

Nhưng D xảy ra;

Do đó, A và B không giống nhau.

Đây chính là mấu chốt của vấn đề về trị số P. Đó là cách diễn giải ngược với thực tế khoa học. Trong thực tế, chúng ta muốn biết với kết quả hay dữ liệu D mà tôi đang có, xác suất giả thuyết H0 đúng là bao nhiêu (chứ tôi không muốn biết nếu H0 là đúng thì xác suất mà tôi quan sát được D là bao nhiêu). Ngoài ra, trị số P còn có nhiều khiếm khuyết khác mà tôi đã bàn qua trước đây.

Tuy trị số P rất phổ biến trong khoa học, nhưng cũng có người nói rằng chính nó cũng là một cản trở cho khoa học. Trong vòng 50 năm qua, nhiều người đã muốn đánh đổ trị số P trong khoa học, nhưng cho đến nay chưa ai thành công được vì chưa có cách nào thay thế tốt hơn và khách quan hơn. Nhưng thế kỉ 21 sẽ có một phương pháp tốt hơn: đó là phương pháp suy luận Bayes. Nhưng đây là một đề tài khác mà tôi sẽ quay lại trong một lần sau.

Nguyễn Văn Tuấn