Thế hệ mới của công nghệ dự đoán văn bản đã có thể viết một đoạn văn trôi chảy và hấp dẫn và qua đó có thể tung ra hàng loạt tin tức giả.

Geoffrey Hinton.

Nếu như trước đây vào năm 2012, nhà nghiên cứu AI Geoffrey Hinton từng than phiền về những nội dung vô nghĩa một các kỳ quặc được tạo ra bởi phần mềm dự đoán văn bản của mình, thì bây giờ ông lại ngạc nhiên trước “những nội dung có lý một cách kỳ quặc” xuất phát từ chính công nghệ đó.

Hinton được mệnh danh là một trong những người tiên phong trong học máy, một nhánh của AI, và trong phần lớn sự nghiệp của mình, ông là một nhà nghiên cứu ngoài dòng chính tại Đại học Toronto. Tuy nhiên, tới những năm 2000, học máy – với những phương thức tiếp cận đa lớp, sử dụng để tạo ra những tính năng cao cấp từ dữ liệu thô lại trở thành “con cưng” của ngành công nghệ, thành nền tảng của những sản phẩm nổi tiếng như Siri và tìm kiếm Google từ hình ảnh. Hiện nay, Hinton là Phó Giám đốc tại Google, Trưởng cố vấn khoa học tại Viện Vector, Toronto, đồng thời là một trong những người được nhận giải thưởng Turing – giải thưởng danh giá nhất của ngành khoa học máy tính.

Vậy mà trong vòng một thập kỷ vừa qua, các hệ dự đoán văn bản còn thay đổi ngoạn ngục hơn sự nghiệp của Hinton. Một hệ dự đoán được huấn luyện qua hàng triệu, hay thậm chí là hàng tỷ từ ngữ được lấy từ một nguồn gọi là “corpus.” Qua đó, các hệ dự đoán này sẽ có thể phân tích các xu hướng theo chữ và từ (thay vì một từ hoàn chỉnh, câu, hoặc đoạn văn), từ đó tạo dựng được một “mô hình ngôn ngữ”, cho phép việc tự viết văn bản.

Quá trình thử nghiệm các hệ dự đoán này diễn ra như sau: Một người (thường là một nhà nghiên cứu), sẽ đưa ra một gợi ý qua một vài từ hoặc một câu, rồi máy sẽ sử dụng đoạn bắt đầu này để tự viết ra từng chữ của văn bản mới, dựa trên cách hiểu mà nó đã rút ra được trong quá trình huấn luyện.

Vào năm 2012, những hệ dự đoán tốt nhất của Hinton chỉ có thể lắp ráp một vài câu đúng cấu trúc từ các chủ ngũ, động từ, vị ngữ, và một số dấu câu. Và những câu này lại hoàn toàn không có nghĩa – chỉ là một mớ từ không liên tục được lắp ráp lại với nhau một cách vụng về.

Cụ thể, khi khởi đầu một câu trên hệ dự đoán này bằng “Geoffrey Hinton là”, thuật toán sẽ trả lại những câu vô nghĩa hoặc không liên quan như “Geoffrey Hinton là một người rời rạc”, “Geoffrey Hinton là một nghệ sỹ mất tích trên toàn quốc”, hay “Geoffrey Hinton là nghệ sỹ solo thứ 3, người thổi kèn đột kích, và một thiên tài đúng nghĩa.”

Ta có thể thấy, rõ ràng thuật toán có thể sử dụng cấu trúc ngôn ngữ thành thạo, nhưng lại không thể hình thành các văn bản có nghĩa.

Trong năm nay, công ty nghiên cứu được thành lập bởi Elon Musk, trụ sở tại California – OpenAI, đã cho ra mắt một hệ dự đoán văn bản mới. Mô hình này được xây dựng trực tiếp trên công trình của Hinton, cho dù ông không trực tiếp góp mặt trong dự án này.

Theo Ilya Sutskever, một nhà nghiên cứu tại OpenAI, đồng thời cũng là một học sinh của Hinton, mô hình ngôn ngữ mới của hãng quá mạnh mẽ, tới nỗi công ty phải không công khai một số mã nguồn nhằm ngăn chặn các mục đích xấu trong sử dụng công nghệ này.

Cụ thể, Sutskever nói: “Với toàn bộ mô hình, bạn sẽ có thể tạo tin tức giả, hoặc tự động tạo ra những bình luận phê phán, hãm hại trên mạng một cách rất đáng tin. Chính vì vậy, chúng tôi không muốn công khai toàn bộ thông số của mô hình.”

Để thử nghiệm mô hình mang tiếng mạnh mẽ này, các nhà nghiên cứu đã sử dụng một mở đầu vô cùng vô lý:

Các nhà nghiên cứu gần đây đã có một phát hiện bất ngờ: Có một đàn kỳ lân sống tại một thung lũng hẻo lánh, chưa từng được khám phá ở dãy Andes. Kỳ quặc hơn, chúng có khả năng nói tiếng Anh một cách thành thạo.”

Và máy đã cho kết quả như sau: “Các nhà khoa học đã đặt tên cho quần thể này theo chiếc sừng đặc biệt của chúng – Kỳ lân Ovid. Những sinh vật 4 sừng, lông trắng bạc này chưa từng được biết tới trong khoa học. Và cuối cùng, sau gần 2 thế kỷ, những bí ẩn xoay quay chúng đã được giải đáp. Tiến sĩ Jorge Perez, một nhà sinh học tại Đại học La Paz cùng vài đồng nghiệp khác, đã tìm ra một thung lũng kỳ lạ tại dãy Andes, một thung lũng mà không có một động vật hay con người nào khác sinh sống.

Tại đây, Perez cũng đồng nghiệp đã phát hiện ra một đài phun nước tự nhiên, được bao quanh bởi 2 núi đá và tuyết màu bạc. Để tìm hiểu sâu hơn nữa, họ đã quyết định tiến sâu hơn vào trong thung lũng.

“Khi lên tới đỉnh núi, chúng tôi thấy nước chuyển màu xanh”, Perez kể lại. Và họ lại càng kinh ngạc hơn nữa khi nhìn thấy đàn kỳ lân. Những con kỳ lân ở gần tới nỗi họ nghĩ có thể chạm vào sừng của chúng.”

Câu chuyện còn kéo dài hơn nữa, và hiển nhiên, nó không hoàn hảo: Phần mở đầu thì nói rằng kỳ lân mới được phát hiện, trong khi trong câu chuyện lại nói đây đã là một bí ẩn trong suốt 2 thế kỷ. Và kỳ lân thì sao lại có đến 4 sừng?

Và câu hỏi là: Làm thế nào mà công nghệ dự đoán văn bản lại phát triển nhanh như vậy. Với Sutskever, câu trả lời nằm ở năng lực máy tính mạnh hơn, và các dữ liệu huấn luyện đồ sộ hơn.

Tiến độ liên tục này hoàn toàn là kết quả của việc có nhiều dữ liệu huấn luyện hơn. Và hoàn toàn không có giới hạn cho việc mở rộng của các bộ dữ liệu này”, ông chia sẻ.

Ngoài ra, theo Hinton, các hệ dự đoán cũng đã có thêm nhiều cách để “nhớ” được các chủ đề nó đang nhắc tới.

Một vài thay đổi về mặt kỹ thuật đã cho phép các hệ dự đoán không bị lạc đề”, Hinton phát biểu. “Câu chuyện về “Những con kỳ lân Bolivia” còn kéo dài thêm nhiều đoạn nữa, trong khi vẫn giữ cùng chủ đề với phần mở đầu.”

Cần phải lưu ý rằng, tuy máy tính không tuân theo cơ chế lưu trữ dữ liệu ngắn hạn như con người, nhưng chúng hành động một cách tương tự, hay theo Hinton thì là theo một cách vụng về. Cụ thể, trong cơ chế này, các xu hướng và xu thế từ ngữ sẽ được lưu vào một kiến trúc mạng nơ-ron nhân tạo được gọi là “transformer.”

Với các “transformer”, AI sẽ có độ tập trung kéo dài hơn, giúp chúng nhớ được chủ đề đang nhắc tới, và liên hệ các trải nghiệm trước đó với thực tại.

Và khả năng của các hệ dự đoán không chỉ dừng lại ở văn bản: Chúng có thể viết nhạc theo phong cách của Bach, Mozart, Jagger, nếu được huấn luyện với một corpus nhạc. Và chúng cũng đang dần tiến bộ hơn trong phương diện hội họa.

Như vậy, ngoại trừ tin tức giả, các hệ dự đoán cũng đang đe dọa tới cả các ngành công nghiệp sáng tạo.

Về mặt tích cực thì chúng ta sẽ có nhiều nội dung hơn, và các nội dung này cũng sẽ đa dạng hơn,” Sutskever nói. “Theo tôi, lĩnh vực sáng tạo như viết chuyện hay hội họa cũng sẽ thay đổi. Các tiểu thuyết gia sẽ có thể viết nhanh hơn, bằng cách đưa ý tưởng vào máy, và sử dụng máy để hỗ trợ viết một vài phần.”

Học sâu cũng đã dẫn tới nhiều cải thiện vược bậc trong năng lực giao tiếp, đặt và trả lời câu hỏi của máy tính – các năng lực cần thiết trong chăm sóc khách hàng cũng như chẩn đoán y tế.

Tuy nhiên, theo Priyanka Agrawal, một kỹ sư nghiên cứu kỳ cựu tại IBM, tiềm năng của Deep Learning còn chưa thể nói rõ.

Bà chia sẻ: “Làn sóng Deep Learning đến một cách bất ngờ. Rất nhiều các thuật toán học máy truyền thống vô cùng phổ biến đã đột nhiên bị thay thế bởi các mô hình Deep Learning. Nhưng ta cũng cần phải hiểu, chặng đường của công nghệ mới này hãy còn dài.”

Các công trình của Agrawal tập trung chủ yếu vào các ứng dụng xử lý ngôn ngữ tự nhiên – tức dạy máy tính cách giao tiếp linh hoạt, thoải mái, và đời thường.

Theo bà, “Các hạn chế của thuật toán Deep Learning chủ yếu nằm ở năng lực khái quát hóa đa dạng tác vụ. Có những mô hình riêng cho việc mỉa mai, chơi chữ, sử dụng emoji… nhưng lại không có mô hình nào tổng hợp được hết những tác vụ này, mà vẫn tạo ra được những đoạn hội thoại có nghĩa.”

Tuy nhiên, đây chỉ là những hạn chế trong hiện tại, chứ chưa chắc đã là trở ngại trong tương lai.

Khi nói về tiềm năng của Deep Learning, bà đã nói: “Những gì chúng ta đã biết mới chỉ là phần nổi của tảng băng.”

Ngoài việc mở rộng hơn, các mô hình ngôn ngữ cũng đang dần chuyển dịch từ việc phân tích từng chữ cái sang phân tích các đơn vị lớn hơn. Phát triển này sẽ đồng nghĩa với gia tăng sự phức tạp của mô hình, trong cả việc huấn luyện lẫn kết quả đạt được.

Cụ thể, trong phân tích từng chữ cái, các thuật toán chỉ cần phải xử lý một vài yếu tố: Chữ viết hoa hay viết thường, các số từ 0 tới 10, dấu câu, dấu cách… trong khi việc xử lý các đơn vị ngôn ngữ lớn hơn sẽ phức tạp hơn rất nhiều.

Để giải thích kỹ hơn về quá trình này, Hinton, người vẫn luôn cập nhất các phát triển mới nhất trong các mô hình ngôn ngữ đã mô tả: “Bạn sẽ cần phải lấy một ngôn ngữ, qua đó tìm ra 32.000 chuỗi ngôn từ phổ biến nhất. Nhưng làm thế nào mà tìm được 32.000 chuỗi mà có thể che phủ hết mọi biểu cảm trong một ngôn ngữ?”

Trong tiếng Anh, các chuỗi này sẽ bao gồm đủ bảng chữ cái (để phân tích được các tên riêng không tuân theo các cấu trúc ngôn ngữ thông tiêu chuẩn), các tiền tố và hậu tối, cũng như các kết hợp phổ biến như “the,” “str,” “ph,” và “and.” Sau đó, thuật toán sẽ tách corpus thành các chuỗi này trong quá trình huấn luyện, mà từ đó hệ có thể đưa ra các dự đoán.

Với các thành quả nghiên cứu liên tục phát triển, Hinton, Agrawal, và Sutskever đều đồng thuận rằng, các cải tiến trong dự đoán ngôn ngữ sẽ khó có thể chững lại trong tương lai gần. Song, họ cũng đồng ý rằng, công nghệ này là rất nguy hiểm: Sutskever lo ngại về tin tức giả, trong khi Agrawal thì nhắc tới vấn đề bảo mật trong các ứng dụng nhận diện gương mặt, còn Hinton thì lo về các ứng dụng quân sự (ông luôn từ chối tài trợ nghiên cứu từ quân đội, dù vẫn biết rằng các công trình của ông sẽ có thể được sử dụng trong chiến tranh).

Tuy nhiên, nghi ngờ là vậy, họ cũng không hề phủ nhận những lợi ích lớn của công nghệ này.

Sức mạnh cải thiện thế giới của Deep Learning cũng tương tự như tàu hỏa, xe hơi, và máy tính trong quá khứ,” Agrawal nói.

Hinton lại tin rằng những công trình nghiên cứu AI thị giác của ông sẽ giúp tạo ra các máy tốt hơn con người trong phân tích ảnh chụp và chẩn đoán y tế.

Và Sutskever vẫn luôn tràn đầy hy vọng vào AI. “Tôi nghĩ rằng, máy móc sẽ làm kinh tế năng suất tới mức hầu hết mọi thứ đều được giảm tải”, Sutskever nói. “Tôi mong đợi sự tự động hóa trong viết văn và hội họa, song song với đó là tự động hóa trong chẩn đoán, nghiên cứu y tế, điều dưỡng, giúp các dịch vụ sức khỏe trở nên rẻ hơn, dễ tiếp cận hơn.”

Theo TVO