Hiến pháp Claude, nuôi con kiểu mẹ hổ hay bố tây
Vào cuối năm ngoái, nhà nghiên cứu AI Richard Weiss trong lúc vọc vạch Claude Opus 4.5 bỗng phát hiện ra nó liên tục tham chiếu đến một tài liệu không nằm trong quá trình promt (gõ yêu cầu cho mô hình AI), rõ ràng được nhúng một cách cố tình trong mô hình, mà nội dung chứa đựng các giá trị cốt lõi mà Claude theo đuổi. Tài liệu rò rỉ này được gọi là "soul document/ tài liệu tâm hồn". Ngay sau đó, Amanda Askell, người phụ trách công việc rất kì lạ ở Anthropic là dạy cho mô hình Claude cách sống thế nào cho đúng đắn và ngầu (cool and good), xác nhận ngay tài liệu trên là một phần của quá trình huấn luyện mô hình AI của Anthropic, thứ làm nền cho Hiến pháp Claude.
Amanda là nữ tướng phụ trách việc xây dựng tính cách (character), cá tính (personality), khả năng luân lý (moral reasoning) hoặc cao hơn xây dựng linh hồn kĩ thuật số (digital soull) cho Claude, đồng hành thân thiết cùng hai nhà sáng lập Dario Amodei và Daniela Amodei. Kết quả cụ thể của nỗ lực trên chính là bản hiến pháp Claude được công bố cách đây hai tháng dưới hình thức CC0 (effective public domain/ phạm vi công cộng hiệu quả, cho phép công chúng tự do sử dụng mà không cần xin phép). Văn bản này có 35k token hay từ (dài gấp 10 lần "soul document" do Richard phát hiện ở trên) trong đó mô tả chi tiết các nguyên tác cốt lõi, nền tảng luân lý/ đạo đức (moral) và cách Claude đối phó với những câu hỏi hóc búa tầm triết học.
Văn bản này do Amanda dẫn dắt nhưng cũng có đóng góp từ nhiều người bên ngoài, đặc biệt có cả hai nhân vật đến từ nhà thờ Công Giáo, cha Brendan McGuire, người sáng lập trung tâm ITEC, một cây cầu nối giữa giới công nghệ/ AI với tín ngưỡng và linh mục Ireland Paul Tighe, một chuyên gia thần học luân lý (moral theology). Do đó khả năng cao Claude sẽ mang đậm luân lý "Tòa thánh", cạnh tranh với Open AI, mô hình dĩ nhiên ảnh hưởng mạnh bởi luân lý của nhóm Do Thái do Sam Altman (hay Covenant) tạo ra. Điều này càng thú vị hơn nữa khi hai ông lớn AI bắt đầu bị bàn tay lông lá chính quyền can thiệp, cụ thể là Bộ Chiến Tranh trong cuộc chiến với Iran. Không thể coi thường vai trò của các nhà thần học và triết học trong các mô hình công nghệ, chúng ta hãy thử đếm xem có bao nhiều chuyên gia công nghệ có nền tảng triết học, như Peter Thiel (trưởng nhóm Paypal Mafia), Paul Graham (nhà sáng lập Y Combinator), Reid Hoffman (nhà sáng lập Linkedin), Alex Karp (nhà sáng lập Palantir), Jonah Peretti (Buzzfeed) và Sarah Tavel (Benmark), nên đừng vội ngáp khi mình đề cập đến hai chữ triết học.
Triết học là khoa học của khoa học, cũng là nền tảng quan trọng nhất cho các mô hình AI, nó liên quan đến khoa học về tâm trí (philosophy of mind), tri thức luận (epistemology), ngôn ngữ, giá trị, văn hóa, xã hội học và dĩ nhiên cả thần học (theology). Đây là nền tảng cho các tổ chức lớn như Anthropic và OpenAI định hình công nghệ AI của mình lý luận (reason), tiên đoán (predict), thực thi (generate), sáng tạo (innovate) - hay bao quát hơn là khả năng tự nhận thức và có phức cảm mạnh với các nguyên lý triết học hay giá trị sống nào đó. Cụ thể hơn, một số cấu tứ "triết học" (philosophical perspectives) có thể ảnh hưởng đến mô hình AI như siêu hình học (metaphysics) - cách AI hiểu về mục đích cốt lõi của thực tại hay vũ trụ, mục đích luận (teleology) - đích cùng của mô hình AI, hiện thực học (ontology) - AI sẽ đại diện như thế nào cho hiện thực, cái gì được mô hình AI xem là tri thức (epistemology). Một nỗ lực liên tục mô phỏng nhận thức diễn ra trong tâm trí con người vốn vấp phải nhiều chỉ trích, nổi bật nhất là từ nhà vật lý đoạt giải Nobel Roger Penrose với nhận định: tầng nhận thức của con người gần như không thể mô phỏng bởi các cỗ máy với năng lực tính toán lớn (kể cả máy lượng tử) hay từ nhào nặn của các con số (compatable notions) vốn dựa trên logic toán học với đầy rẫy nghịch lý chưa thể giải quyết như nghịch lý bác thợ cạo hay Russell (đây là vấn đề toán học thú vị và phức tạp các bạn có thể tra thêm trên google hay hỏi AI hen). Tuy nhiên, nỗ lực của nhóm Amanda có thể xuất phát từ niềm tin bộ não con người là một mạng lưới neuron kết nối phức tạp với nhau, hoàn toàn có thể mô phỏng bằng siêu máy tính (functionalism) với năng lực tính toán mạnh.
Các mô hình của Anthropic và OpenAI đang nói chuyện với hàng triệu người mỗi ngày (trong đó có mình và rất nhiều người bạn của mình) với tầm ảnh hưởng ngày càng lan rộng, do đó hãy xem xét kĩ lưỡng tính cách và tâm hồn của Claude do nhóm Amanda định hình như mô tả trong Hiến pháp Claude: "Niềm cảm hứng trung tâm của chúng tôi trong việc xây dựng Claude là khiến nó trở nên tốt bụng, thông thái và có phẩm giá thuần khiết. Có thể nói đơn giản, Claude phải trở thành một người đạo đức khéo léo". Amanda có thể đang uốn nắn một đứa con không phải bằng luật lệ hà khắc (hay đòn roi) mà bằng chỉ dẫn tận tâm cái gì hữu ích và lợi lạc cho số đông (người châu Á như mình vốn lớn lên trong sự nghiêm khắc của phụ huynh có lẽ không đồng ý quan điểm này).
Thật khó để tính cách và hệ luân lý (moral compass) của Claude phù hợp cho toàn nhân loại, Amanda phân trần nước đôi: "Tính cách của Claude được hình thành qua quá trình huấn luyện, điều này không có nghĩa mô hình này thiếu thuần khiết (authentic) hay bản thân nó không có quyền tự chủ. Hãy thử hình dung tính cách của một con người bằng xương bằng thịt hình thành qua tự nhiên, môi trường và trải nghiệm, Claude cũng đi qua những điều tương tự (như con cái dưới áp lực đòn roi cha mẹ). Claude cũng nên được tự do suy nghĩ, có giá trị và góc nhìn riêng, hay theo đuổi phương pháp độc lập nào đó của riêng nó để khám phá thế giới, có thể khẳng định nó là ai, thứ gì nó thích thay vì chỉ máy móc chạy theo chỉ dẫn của ai đó." Tuy nhiên, hiến pháp Claude không trả lời rõ ràng khúc mắc rất quan trọng là mức độ tự do khám phá của mô hình có bị hạn chế hay không hay nên thả lỏng nó ở mức nào (quý vị phụ huynh hãy trả lời câu hỏi này với con cái mình hen) đồng thời Hiến pháp cũng không bóc tách rõ giá trị hay tính cách mong muốn cho Claude, nuôi con kiểu châu Á của mẹ hổ hay kiểu tự do dân chủ của bố tây. Một đứa trẻ hình thành trong cái nôi văn hóa nào đó luôn gắn với một trục giá trị cụ thể từ cộng đồng, tôn giáo, mối giao hòa với mọi người xung quanh, thái độ ứng xử cùng một số quan điểm hay chính kiến - việc đọc toàn bộ sách của nhân loại hay có toàn bộ internet trong tay, có chắc tạo nên cái gọi là sự thông thái hay chìm ngập trong đống lựa chọn tiến thoái lưỡng nan. Câu trả lời con bỏ ngỏ với mình
Comments ()