Máy có tư duy như người?

Máy có tư duy như người?


Richard Feynman là nhà vật lý lý thuyết Hoa Kỳ xuất chúng, nổi bật với các thành tựu trong cơ học lượng tử (miêu tả lại các tính chất vật lý của tự nhiên ở cấp độ nguyên tử hay ở hạt hạ nguyên tử) và điện động lực học lượng tử (QED - đào sâu vào cách ánh sáng và vật chất tương tác với nhau). Ông đã quá nổi tiếng với việc là thành viên của dự án Manhattan trong thế chiến II (chế tạo b-o-m nguyên tử) cùng với Albert Einstein và Oppenhiemer, một nhà sư phạm tuyệt đỉnh với đời sống tinh thần phong phú trải dài từ hội họa (ông có vẽ tranh), âm nhạc (những bản trống bongo), tâm lý học, lịch sử đến triết học. Gần đây nhất, mình còn phát hiện ra thêm, ông cũng có mối quan tâm rất đặc biệt đến việc huấn luyện mạng lưới neural (neural network) nhằm tạo ra cỗ máy AI. Viễn kiến của ông quanh câu hỏi "Liệu máy có tư duy như con người" qua bài giảng tại Caltech vào năm 1985 chứa đựng nhiều góc nhìn sâu sắc và đầy khai sáng. Mình đã tóm tắt bài giảng của ông dưới đây kèm một số bình luận râu ria, rất đáng tham khảo cho những ai muốn hiểu AI là gì? (nhân tiện cũng quảng cáo thêm là mình cũng đang tham gia dự án AI, ai quan tâm các giải pháp AI trong địa hạt tài chính có thể nhắn mình)

Richard Feynman nhận định thẳng thắn: "máy móc không thể tư duy hay suy nghĩ như con người còn nhận định độ thông minh của máy móc có hơn con người hay không thì còn tùy thuộc cách chúng ta định nghĩa intelligence/trí thông minh là gì". Feyman dự đoán, trong tương lai máy móc có thể chơi cờ (chess) tốt hơn bất cứ ai, tuy nhiên điều này cũng không gây ấn tượng gì mấy cho chúng ta - tham vọng to lớn hơn của loài người là tạo ra cỗ máy có thể chiến với bất cứ chuyên gia sành sỏi nào (against the Masters), con người luôn tự tin mình có thể làm chủ hay thống trị mọi thứ - thế thì liệu máy móc có thể tốt hơn bất cứ ai giỏi nhất trong bất cứ địa hạt nào. Tạo ra một siêu máy tính kiểu như vậy quả là thử thách khó nhằn nhất thế gian. Thực tế, sau đó vài chục năm, dự đoán của Feynman về khả năng chơi cờ của máy móc đã thành hiện thực với sự ra đời của AlphaGo, chương trình phát triển bởi DeepMind (do Demis Hassabis sáng lập), một công ty con của Google, đã làm rung chuyển thế giới vào năm 2016 khi đánh bại Lee Sedol, một trong những kỳ thủ cờ vây vĩ đại nhất mọi thời đại, với tỷ số 4-1 trong một trận đấu lịch sử.

Con người có thể khiến máy móc trở nên hiệu quả nhất với tất cả các chất liệu hay vật chất (materials) cấu thành nên nó. Tuy nhiên cần lưu ý các material này rất khác với nerves, dây thần kinh đóng vai trò cáp dẫn truyền tín hiệu giữa não bộ và cơ thể. Khi muốn tạo ra cỗ máy chạy nhanh, chúng ta có thể quan sát cách một con báo đang chạy và nghĩ ngay đến việc bắt chước con vật này, nhưng rõ ràng sẽ dễ dàng hơn nhiều nếu gắn bánh xe hình tròn vào máy (thay vì chuyển động cơ học của chân con báo). Tương tự, khi tạo ra một thứ bay trên trời, chúng ta có thể nghĩ ngay đến việc bắt chước các con chim. Thực tế, máy bay có cách vận hành rất khác biệt, đôi cánh của cỗ máy này không đập lên xuống mà được gắn động cơ phản lực (jet propulsion), bên trong có cánh quạt chuyển động và sử dụng nhiên liệu hóa thạch (gasoline). Rõ ràng, không còn gì phải lăn tăn, máy móc sẽ không bao giờ suy nghĩ giống con người.

Góc nhìn tương tự cũng có thể áp dụng với khái niệm trí tuệ (intelligence). Máy móc và con người không thể lám toán số học (arithmetic) giống nhau được. Cụ thể, máy móc trong địa hạt "chơi với các con số" luôn làm tốt hơn và nhanh hơn bất cứ ai, nếu gò chúng để trở nên giống con người chúng ta sẽ đi thụt lùi (backwards), bởi con người trong tính toán luôn chậm, cồng kềnh, nhầm lẫn và đầy lỗi. Để đào sâu so sánh người - máy, ta có thể làm thử thí nghiệm sau: đọc lên một dãy số khoản tầm 10 số chẳng hạn, sau đó kêu họ đọc ngược lại các con số - có rất ít người trong chúng ta có thể vượt qua thử thách này, tuy nhiên thử thách này chỉ là chuyện nhỏ với máy, thậm chí với cả vài ngàn con số, thời gian xử lý gần như trong tích tắc và không quên sau thời gian dài.

Tuy nhiên, có rất nhiều thứ máy không thể làm như người, hãy tưởng tượng chúng ta bắt gặp ai đó đi trước mình trên phố, chỉ trong tích tắc quan sát tướng đi, ta có thể nhận ra người bạn thân của mình dù chưa thấy mặt. Hay trong một ví dụ khác, bạn tham dự một bữa tiệc lúc chiều tà, chỉ cần nhìn ánh nắng chiếu lên mái tóc bay bay từ xa, ta có thể nhận ra đó là người chủ tiệc chẳng hạn (cảm xúc lãng mạng đi kèm). Khả năng phi thường trong nhận diện mọi thứ hay nhận diện các khuôn mẫu (patterns) của con người là một thứ gì đó cực kỳ thách thức để biến thành một quy trình rõ ràng chắc chắn nào đó (definite procedure). Giả sử, chúng ta sẽ phải cung cấp cho máy tính rất nhiều hình ảnh người chủ tiệc để nó học cách nhận dạng, thì rào cản rất lớn nằm ở các bối cảnh luôn thay đổi và dịch chuyển, ánh sáng có thể khác đi một chút, góc nghiêng đầu đổi từ trái sang phải hay khoảng cách xa gần khác nhau chẳng hạn, làm sao máy có thể đoán định được vô vàn các bối cảnh này. Quả là khó khăn, thậm chỉ với cỗ máy lớn có bộ nhớ siêu khủng. Cho đến nay, chúng ta vẫn không biết làm sao có thể xác định được một quy trình rõ ràng (definite procedure) để chỉ cho máy móc trong mọi địa hạt hoặc ít nhất hoạt động được với tốc độ hợp lý (chứ không phải rề rà). Nhận diện mọi thứ trong môi trường xung quanh vẫn còn là thử thách quá lớn cho máy móc trong thời điểm hiện tại, thứ trực giác con người chỉ xử lý trong tích tắc.

Một ví dụ khác sát thực tế là trường hợp của nhân viên lưu trữ hồ sơ, họ cần có những kĩ năng đặc biệt (file clerk) trong việc nhận diện các loại tài liệu hay dữ liệu phức tạp. Điển hình như tại bộ phận vân tay (Fingerprint Department), họ phải nhìn rất kĩ các dấu vân tay trong hồ sơ để so sánh một cách cẩn thận với dấu vấn tay khách hàng cung cấp xem có trùng khớp. Đây là một công việc rất khó để có thể thực hiện bởi máy móc. Hãy hình dung, dấu vân tay bị dơ hoặc biến dạng theo góc hay áp lực ấn tay khác nhau, các đường nổi trong vân bị mất do mực không đều chẳng hạn. Việc so sánh trong những tình huống thế này dường như bất khả với máy móc, ít nhất là tới thời điểm hiện tại (ngày nay công nghệ nhận diện vân tay đã tốt hơn những gì Feyman mô tả trong năm 1985).

DeepMind cũng đang theo đuổi tham vọng tạo ra cỗ máy AI có thể nhìn thế giới giống như con người, cụ thể Genie 3. Google phải thừa nhận, mô hình visual AI của mình vẫn chưa thể nhận diện thế giới giống con người, nó có thể phân loại hàng trăm nhà sản xuất xe hơi và các mẫu mã xe nhưng gần như không thể nhìn ra điểm tương đồng giữa xe hơi và máy bay - kiểu như đưa ra kết luận: "hai cỗ máy lớn làm bằng kim loại". Cụ thể hơn, Google đang huấn luyện mô hình tầm nhìn AI (AI vision model) bám theo trực giác của con người qua kĩ thuật "chỉ ra cái khác" (odd-on-out) dùng trong khoa học nhận thức (cognitive science), lặp đi lặp lậi việc chọn ra hai hình tương đồng nhất trong ba hình khách nhau. Sau khi đi qua hàng triệu bức hình, mô hình sẽ đặt để các hình ảnh mới vào vị trí nào đó trên tấm bản đồ (mapping) có mức độ tương đồng nhất (như hình hai con mèo với nhau), xa những bức hình có mức độ khác biệt cao (như giữa con mèo và cái bánh kem).

Feynman còn đào sâu hơn vào khả năng quan trọng nhất của con người mà máy móc khó có thể bám kịp, khám phá các ý tưởng mới hay các mối quan hệ mới. Trong bộ môn hình học (geometry), máy móc có thể biến vấn đề chứng minh định lý (proof of a theorem) thành một quy trình chắc chắn rõ ràng, thành thử có thể hỗ trợ con người phần nào trong việc đi tìm cái mới dù theo Feynman vẫn có khá vụng về. Chúng ta dẫu sao vẫn có thể kết luận, máy móc hiện tại không thể làm tất cả mọi thứ mà con người có thể. Ngay cả việc xác định chính xác con người có thể làm gì cũng thực sự khó nhằn: có những thứ con người làm chỉ để cảm thấy hưng phấn, để khai phá cái mới, những thứ trừu tượng như tôn vinh cái đẹp (tranh, ảnh, âm nhạc chẳng hạn), những thứ vô thưởng vô phạt (như gãi đầu), một câu hỏi có câu trả lời trải ra vô tận (bởi có vẻ như con người có sẵn xu hướng làm những thứ mà máy móc không thể làm). Máy có thể vượt trội con người trong sức mạnh vật lý, nâng vật nặng hơn, chạy nhanh hơn, bay cao hơn tuy nhiên con người chưa bao giờ phải lo lắng về việc có cái máy nào đó có thể uyển chuyển lòng bàn tay như con người (bới sự dẻo dai cơ thể vật lý con người máy vẫn chưa thể bắt chước). Chúng ta vẫn có thể tạo ra các cỗ máy dự báo thời tiết tốt hơn cao người, do công việc này đòi hỏi phải nhìn vào các ghi chép cũ (old records) và so sánh xem bối cảnh thời tiết hiện tại có điểm gì tương đồng hay không, cũng có thể thêm vào hàm lượng phân tích nào đó như chuyển động của gió cùng một số thủ thuật tiên đoán (hocus-pocus) - nhưng rõ ràng vẫn là một quy trình khá cụ thể.

Trong trường hợp chúng ta không đưa quy trình cụ thể (procedure) cho máy thì sao, nhiều người đã thử nghiệm điều này, họ áp dụng cái gọi là heuristics hay phương pháp suy nghiệm/lối tắt tư duy. Feynman nhắc đến hệ thống dựa trên heuristic của Douglas Lenat, gợi nhắc rất nhiều đến phương pháp RL (reinforcement learning)/ học tăng cường áp dụng trong máy học hiện nay. Lenat là nhà nghiên cứu sừng sỏ về AI, người tham gia phát triển dự án đã 35 năm tuổi tên là Cyc với nhiệm vụ thu thập kiến thức phổ quát hay lẽ thường (common sense knowlege), đây là thách thức mở chưa được giải quyết trong địa hạt AI ngày nay. Cụ thể hơn, Cyc là dự án AI dài hơi nhằm tập hợp các ontology - mô hình dữ liệu/ khái niệm dành cho một lĩnh vực nào đó (một khái niệm dùng trong khoa học máy tính, còn trong triết học gọi là bản thể luận) và các kiến thức nền (knowledge base) phủ rộng các khái niệm cơ bản cùng các quy tắc (rules) thể hiện cách thế giới vận hành. Cỗ máy Cyc cố gắng đào sâu vào các kiến thức ngầm (implicit) hơn là rõ ràng ra bên ngoài (explicit).

Một ví dụ khác gần đây nhất là mô hình LLMs (ngôn ngữ lớn) đang dần trở nên quen thuộc với đại chúng, rõ ràng LLMs không suy nghĩ như con người, mà trí tuệ này được hình thành dựa trên việc loay hoay với vấn đề đoán xem token tiếp theo là gì, đi kèm việc tự sữa chữa (autocorrect) - tổng thể quá trình này không dựa trên logic cụ thể (rigid logic) mà các khuôn mẫu thống kế từ khối lượng dữ liệu cực lớn trên internet. Tất nhiên cách thức trên không bao giờ có thể theo kịp chu trình trí tuệ của con người liên quan đến những khía cạnh khó nhằn khác như cảm xúc, trực giác, ghi nhớ, suy tư những thứ trừu tượng (embodiment) đó là chưa tính đến hiệu quả năng lượng tiêu tốn cho những nỗ lực trên (máy móc chắc phải dựa trên hệ thống trung tâm dữ liệu tiêu tốn năng lượng khổng lồ).