A16Z: 4 bước đột phá trong AI sáng tạo

Các mô hình ngôn ngữ lớn (LLM) đã trở thành một chủ đề nóng trong ngành công nghệ, mang lại cho chúng tôi một số trải nghiệm tuyệt vời — từ việc viết mã trị giá một tuần trong vài giây, đến tạo ra các cuộc trò chuyện đồng cảm hơn chúng ta có với con người. Được đào tạo trên hàng nghìn tỷ mã thông báo dữ liệu bằng cách sử dụng hàng chục nghìn GPU, LLM thể hiện khả năng hiểu ngôn ngữ tự nhiên đáng chú ý và biến đổi các lĩnh vực như viết quảng cáo và mã hóa, đưa chúng ta vào kỷ nguyên AI mới và thú vị. Giống như bất kỳ công nghệ mới nổi nào, AI tổng quát cũng bị chỉ trích khá nhiều. Mặc dù những lời chỉ trích này phần nào phản ánh những hạn chế về khả năng hiện tại của LLM, nhưng chúng tôi coi những trở ngại này là cơ hội để đổi mới hơn nữa chứ không phải là những thiếu sót cơ bản của công nghệ.

Để hiểu rõ hơn về những đột phá công nghệ ngắn hạn trong LLM và chuẩn bị cho những người sáng lập và điều hành trong tương lai, chúng tôi đã nói chuyện với một số nhà nghiên cứu AI hàng đầu, những người đang tích cực xây dựng và đào tạo một số mô hình lớn nhất và tiên tiến nhất, bao gồm Dario Amodei , Giám đốc điều hành của Anthropic, Aidan Gomez, Giám đốc điều hành của Cohere, Noam Shazeer, Giám đốc điều hành của Character.AI và Yoav Shoham của AI21 Labs. Những cuộc trò chuyện này đã xác định 4 hướng đổi mới chính cho tương lai: hướng dẫn, trí nhớ, "tay chân" và đa phương thức. Trong bài viết này, chúng tôi thảo luận về cách những cải tiến quan trọng này sẽ phát triển trong vòng 6 đến 12 tháng tới và cách những người sáng lập quan tâm đến việc tích hợp AI vào doanh nghiệp của họ có thể tận dụng những phát triển mới này như thế nào. **

hướng dẫn

Nhiều người sáng lập bày tỏ lo ngại về việc sử dụng LLM trong các sản phẩm và quy trình công việc của họ do khả năng gây ảo giác và sai lệch tái tạo từ các mô hình này. Để giải quyết những vấn đề này, một số công ty lập mô hình hàng đầu đang nghiên cứu cải tiến các kỹ thuật chỉ đạo—một phương pháp để kiểm soát tốt hơn các kết quả của mô hình trong đầu ra của LLM, cho phép các mô hình hiểu rõ hơn và thực hiện các yêu cầu phức tạp của người dùng. Noam Shazeer đã đề cập đến những điểm tương đồng giữa LLM và trẻ em về vấn đề này: "Vấn đề là làm thế nào để khởi động [mô hình] tốt hơn... Vấn đề chúng tôi gặp phải với LLM là chúng tôi cần có cách phù hợp để nói cho họ biết cách tuân theo Hành động của chúng tôi. đòi hỏi. Trẻ nhỏ cũng vậy - chúng đôi khi bịa ra mọi thứ và không hiểu rõ ràng về tưởng tượng và thực tế." Mặc dù sau sự xuất hiện của các nhà cung cấp mô hình và công cụ như Guardrails và LMQL, về khả năng định hướng [1] Tiến bộ đáng chú ý đã được thực hiện và các nhà nghiên cứu vẫn đang đạt được tiến bộ, điều mà chúng tôi tin là rất quan trọng để sản xuất LLM tốt hơn cho người dùng cuối.

Cải thiện định hướng đặc biệt quan trọng trong các công ty doanh nghiệp, nơi hậu quả của hành vi không thể đoán trước có thể tốn kém. Amodei chỉ ra rằng tính không thể đoán trước của LLM có thể khiến mọi người khó chịu và với tư cách là nhà cung cấp API, anh ấy muốn có thể "nói với khách hàng là 'không, các mô hình không làm điều này' hoặc ít nhất là hiếm khi làm." đầu ra, những người sáng lập có thể tự tin hơn để đảm bảo rằng hiệu suất của mô hình phù hợp với nhu cầu của khách hàng. Định hướng được cải thiện cũng sẽ mở đường cho việc áp dụng rộng rãi trong các ngành khác đòi hỏi độ chính xác và độ tin cậy cao hơn, chẳng hạn như ngành quảng cáo, nơi đặt cược cao cho vị trí đặt quảng cáo. Amodei cũng tin rằng định hướng được cải thiện có thể áp dụng cho "các trường hợp sử dụng hợp pháp, trường hợp sử dụng y tế, lưu trữ thông tin tài chính và quản lý các cược tài chính và các tình huống mà bạn cần bảo vệ thương hiệu của công ty mình. Bạn không muốn công nghệ mà bạn đang tích hợp trở thành không thể đoán trước hoặc khó dự đoán hoặc mô tả đặc điểm."Bằng cách định hướng tốt hơn, LLM cũng sẽ có thể hoàn thành các nhiệm vụ phức tạp hơn với một lượng nhỏ kỹ thuật gợi ý, bởi vì họ sẽ có thể hiểu rõ hơn về ý định tổng thể."

Những tiến bộ trong định hướng của LLM cũng có khả năng mở ra những khả năng mới trong các ứng dụng tiêu dùng nhạy cảm, nơi người dùng mong đợi các phản hồi tùy chỉnh và chính xác. Mặc dù người dùng có thể chấp nhận đầu ra kém chính xác hơn khi tham gia vào các tương tác đàm thoại hoặc sáng tạo với LLM, nhưng khi người dùng sử dụng LLM để hỗ trợ các công việc hàng ngày, hướng dẫn các quyết định quan trọng hoặc hỗ trợ các chuyên gia như huấn luyện viên cuộc sống, nhà trị liệu và bác sĩ, thì họ muốn đầu ra chính xác hơn. Người ta đã chỉ ra rằng LLM dự kiến sẽ thay thế các ứng dụng tiêu dùng lâu đời như tìm kiếm, nhưng trước khi điều này trở thành khả năng thực tế, chúng tôi có thể cần hướng dẫn tốt hơn để cải thiện đầu ra của mô hình và xây dựng lòng tin của người dùng.

  • Điểm đột phá chính: người dùng có thể tùy chỉnh tốt hơn đầu ra của LLMS. *

ký ức

Các ứng dụng tạo quảng cáo và viết quảng cáo do LLM thúc đẩy đã đạt được thành công lớn, nhanh chóng trở nên phổ biến đối với các nhà tiếp thị, nhà quảng cáo và doanh nhân. Tuy nhiên, đầu ra của hầu hết các LLM hiện tại tương đối khái quát, điều này gây khó khăn cho việc sử dụng chúng cho các trường hợp sử dụng yêu cầu cá nhân hóa và hiểu biết theo ngữ cảnh. Mặc dù kỹ thuật gợi ý và tinh chỉnh có thể cung cấp một mức độ cá nhân hóa, nhưng kỹ thuật gợi ý ít có khả năng mở rộng hơn và việc tinh chỉnh thường tốn kém vì nó yêu cầu đào tạo lại ở một mức độ nào đó và thường yêu cầu hợp tác chặt chẽ với hầu hết các LLM nguồn đóng. Việc tinh chỉnh một mô hình cho từng người dùng riêng lẻ thường không khả thi hoặc không mong muốn.

Học theo ngữ cảnh là chén thánh để biến điều này thành hiện thực, trong đó các LLM lấy thông tin từ nội dung do công ty bạn tạo, biệt ngữ dành riêng cho công ty của bạn và ngữ cảnh cụ thể để tạo ra đầu ra cụ thể hơn, chi tiết hơn cho từng trường hợp sử dụng. Để đạt được mục tiêu này, các LLM cần tăng cường khả năng ghi nhớ. Bộ nhớ LLM có hai thành phần chính: cửa sổ ngữ cảnh và truy xuất. Cửa sổ ngữ cảnh là văn bản mà một mô hình có thể xử lý và sử dụng để định hướng đầu ra của nó, bên cạnh kho dữ liệu mà mô hình đã được huấn luyện. Truy xuất đề cập đến việc truy xuất và tham chiếu các thông tin và tài liệu có liên quan (“dữ liệu theo ngữ cảnh”) từ một phần dữ liệu không phải là kho dữ liệu đào tạo của mô hình. Hiện tại, hầu hết các LLM đều có cửa sổ ngữ cảnh hạn chế và không thể truy xuất thông tin bổ sung một cách tự nhiên, do đó tạo ra đầu ra thiếu khả năng cá nhân hóa. Tuy nhiên, với cửa sổ ngữ cảnh lớn hơn và khả năng truy xuất được cải thiện, LLM có thể trực tiếp cung cấp các kết quả đầu ra cụ thể hơn, chi tiết hơn cho từng trường hợp sử dụng.

Đặc biệt, bằng cách mở rộng cửa sổ ngữ cảnh, mô hình sẽ có thể xử lý khối lượng văn bản lớn hơn và bảo toàn ngữ cảnh tốt hơn, bao gồm cả việc duy trì sự mạch lạc trong đối thoại. Điều này sẽ cải thiện đáng kể hơn nữa khả năng của mô hình trong các tác vụ đòi hỏi sự hiểu biết sâu sắc hơn về các dữ liệu đầu vào dài hơn, chẳng hạn như tóm tắt các văn bản dài hoặc tạo ra các câu trả lời mạch lạc và chính xác theo ngữ cảnh trong các cuộc hội thoại dài. Xét về cửa sổ ngữ cảnh, chúng tôi đã thấy những cải tiến đáng kể - GPT-4 có cửa sổ ngữ cảnh gồm 8k và 32k mã thông báo, so với 4k và 16k mã thông báo cho GPT-3.5 và ChatGPT, đồng thời Claude gần đây đã chuyển cửa sổ ngữ cảnh của nó mở rộng lên 100k đáng kinh ngạc mã thông báo [2] 。

Chỉ riêng việc mở rộng cửa sổ ngữ cảnh sẽ không đủ cải thiện bộ nhớ, vì chi phí và thời gian suy luận quy mô gần như tuyến tính hoặc thậm chí bậc hai với độ dài của gợi ý. [3] Cơ chế truy xuất tăng cường và tinh chỉnh kho dữ liệu đào tạo ban đầu của LLM với dữ liệu theo ngữ cảnh liên quan đến gợi ý. Vì các LLM được đào tạo trên một khối thông tin và thường khó cập nhật, nên việc truy xuất có hai lợi ích chính, theo Shoham: "Thứ nhất, nó cho phép bạn truy cập các nguồn thông tin mà bạn không có tại thời điểm đào tạo. Thứ hai, nó cho phép bạn Tập trung mô hình ngôn ngữ vào thông tin bạn cho là có liên quan đến nhiệm vụ." Cơ sở dữ liệu vectơ như Pinecone đã trở thành tiêu chuẩn thực tế để truy xuất thông tin liên quan một cách hiệu quả và đóng vai trò là lớp bộ nhớ cho LLM, giúp mô hình dễ dàng hơn để tìm kiếm và tham chiếu một lượng lớn thông tin một cách nhanh chóng và chính xác, dữ liệu chính xác trong .

Các cửa sổ ngữ cảnh tăng lên và khả năng truy xuất sẽ đặc biệt quan trọng trong các trường hợp sử dụng của doanh nghiệp, chẳng hạn như điều hướng các cơ sở tri thức lớn hoặc cơ sở dữ liệu phức tạp. Các công ty sẽ có thể tận dụng tốt hơn dữ liệu độc quyền của họ, chẳng hạn như kiến thức nội bộ, vé hỗ trợ khách hàng trước đây hoặc kết quả tài chính, làm đầu vào cho LLM mà không cần tinh chỉnh. Cải thiện bộ nhớ của LLM sẽ mang lại những cải tiến và khả năng tùy chỉnh sâu trong các lĩnh vực như đào tạo, báo cáo, tìm kiếm nội bộ, phân tích dữ liệu và kinh doanh thông minh cũng như hỗ trợ khách hàng.

Trong không gian của người tiêu dùng, các cửa sổ theo ngữ cảnh được cải thiện và khả năng truy xuất sẽ cho phép các khả năng cá nhân hóa mạnh mẽ sẽ cách mạng hóa trải nghiệm người dùng. Theo Noam Shazeer, "Một trong những bước đột phá lớn sẽ là phát triển một mô hình có dung lượng bộ nhớ rất cao, có thể tùy chỉnh cho từng người dùng trong khi vẫn tiết kiệm chi phí trên quy mô lớn. Bạn muốn nhà trị liệu của mình biết mọi khía cạnh của bạn cuộc sống; bạn muốn giáo viên của mình biết những gì bạn đã biết; bạn muốn huấn luyện viên cuộc sống có thể tư vấn cho bạn về những gì đang diễn ra. Tất cả họ đều cần bối cảnh.” Aidan Gomez cũng rất hào hứng với sự phát triển này. Ông nói: “Bằng cách cấp cho mô hình quyền truy cập vào dữ liệu chỉ liên quan đến bạn, như email, lịch hoặc tin nhắn trực tiếp, mô hình sẽ tìm hiểu về mối quan hệ của bạn với những người khác để giúp bạn theo cách tốt nhất có thể trong các trường hợp. ."

*Bước đột phá chính: LLM sẽ có thể xem xét một lượng lớn thông tin liên quan và cung cấp đầu ra hữu ích, tùy chỉnh và cá nhân hơn. *

** "Tay và Chân": Cung cấp cho người mẫu khả năng sử dụng các công cụ**

Sức mạnh thực sự của LLM nằm ở việc biến ngôn ngữ tự nhiên thành phương tiện cho hành động. Các LLM có hiểu biết tinh vi về các hệ thống phổ biến và được ghi chép đầy đủ, nhưng họ không thể thực thi bất kỳ thông tin nào được trích xuất từ các hệ thống này. Ví dụ: ChatGPT của OpenAI, Claude của Anthropic và Lily của Character AI có thể mô tả chi tiết cách đặt chuyến bay, nhưng chúng không thể tự đặt chuyến bay một mình (mặc dù những tiến bộ công nghệ như plugin của ChatGPT đang vượt qua ranh giới này). Amodei cho biết: "Về mặt lý thuyết, bộ não này có tất cả kiến thức này, nó chỉ thiếu khả năng ánh xạ từ tên đến các nút. Không cần phải đào tạo nhiều để kết nối các dây cáp này. Bạn có một bộ não quái gở biết cách di chuyển, nhưng nó vẫn chưa gắn liền với tay và chân."

Theo thời gian, chúng tôi đã thấy các công ty cải thiện khả năng sử dụng các công cụ của các LLM. Các công ty lâu đời như Bing và Google cũng như các công ty khởi nghiệp như Perplexity và You.com đã tung ra các API tìm kiếm. AI21 Labs đã giới thiệu Jurassic-X, giải quyết nhiều thiếu sót của LLM độc lập bằng cách kết hợp các mô hình với một bộ công cụ định trước, bao gồm máy tính, API thời tiết, API Wikipedia và cơ sở dữ liệu. OpenAI đã tung ra phiên bản beta của plugin cho ChatGPT cho phép ChatGPT tương tác với các công cụ như Expedia, OpenTable, Wolfram, Instacart, Speak, trình duyệt web và trình thông dịch mã, một bước đột phá được cho là giống với thời điểm "App Store" của Apple. Gần đây, OpenAI đã giới thiệu các lệnh gọi hàm trong GPT-3.5 và GPT-4 [4] , cho phép các nhà phát triển liên kết các khả năng của GPT với bất kỳ công cụ bên ngoài nào.

Khả năng thêm cánh tay và chân hứa hẹn sẽ cho phép một loạt các trường hợp sử dụng trên nhiều loại công ty và người dùng khác nhau bằng cách chuyển từ khai thác kiến thức sang định hướng hành động. Đối với người tiêu dùng, các LLM có thể sớm đề xuất các công thức nấu ăn và sau đó đặt các nguyên liệu bạn cần hoặc đề xuất một địa điểm ăn nửa buổi và đặt bàn cho bạn. Trong không gian doanh nghiệp, những người sáng lập có thể làm cho ứng dụng của họ dễ sử dụng hơn bằng cách kết hợp LLM. Như Amodei chỉ ra: "Đối với các chức năng rất khó sử dụng từ góc độ giao diện người dùng, chúng tôi có thể chỉ cần mô tả chúng bằng ngôn ngữ tự nhiên để đạt được các hoạt động phức tạp." Ví dụ: đối với các ứng dụng như Salesforce, tích hợp LLM nên cho phép người dùng để sử dụng Ngôn ngữ tự nhiên để thực hiện cập nhật và để mô hình tự động thực hiện những thay đổi đó, giúp giảm đáng kể thời gian cần thiết để duy trì CRM của bạn. như mạch lạc [5] và lão luyện [6] Những công ty khởi nghiệp như vậy đang nghiên cứu tích hợp LLM vào các công cụ phức tạp như vậy.

Gomez tin rằng mặc dù ngày càng có nhiều khả năng các LLM sẽ có thể sử dụng các ứng dụng như Excel trong vòng 2 năm, nhưng "vẫn cần phải hoàn thiện rất nhiều. Chúng tôi sẽ có thế hệ mô hình đầu tiên có thể sử dụng các công cụ, và điều đó sẽ hấp dẫn". có thể sử dụng nó...một khi chúng tôi có thể cung cấp cho các LLM các công cụ chung và cụ thể, khả năng tự động hóa mà nó mang lại sẽ là đỉnh cao trong lĩnh vực của chúng tôi."

*Bước đột phá quan trọng: LLM sẽ có thể tương tác hiệu quả hơn với các công cụ chúng ta sử dụng ngày nay. *

đa phương thức

Mặc dù giao diện trò chuyện thú vị và trực quan đối với nhiều người dùng, con người có thể nghe và nói ngôn ngữ thường xuyên khi họ viết hoặc đọc ngôn ngữ đó, hoặc hơn thế nữa. Như Amodei đã chỉ ra: “Có một giới hạn đối với những gì hệ thống AI có thể làm vì không phải mọi thứ đều là văn bản.” Một mô hình có khả năng đa phương thức có thể xử lý và tạo nội dung ở nhiều định dạng âm thanh hoặc hình ảnh một cách liền mạch , mở rộng sự tương tác này ngoài ngôn ngữ. Các mô hình như GPT-4, Character.AI và Meta's ImageBind đã có khả năng xử lý và tạo hình ảnh, âm thanh và các phương thức khác, nhưng khả năng của chúng trong lĩnh vực này là tương đối cơ bản, mặc dù tiến độ rất nhanh. Theo cách nói của Gomez, các mô hình của chúng ta ngày nay thực sự mù quáng và điều đó cần phải thay đổi. Chúng tôi đã xây dựng rất nhiều giao diện người dùng đồ họa (GUI) mà người dùng phải nhìn thấy.

Khi các LLM phát triển để hiểu rõ hơn và tương tác với nhiều phương thức, họ sẽ có thể sử dụng các ứng dụng hiện có dựa trên GUI, chẳng hạn như trình duyệt. Họ cũng có thể cung cấp cho người tiêu dùng trải nghiệm hấp dẫn, mạch lạc và toàn diện hơn, cho phép tương tác của người dùng vượt ra ngoài giao diện trò chuyện. Shazeer lưu ý: "Rất nhiều sự tích hợp tuyệt vời của các mô hình đa phương thức có thể khiến mọi thứ trở nên hấp dẫn hơn và kết nối nhiều hơn với người dùng. Ông cũng cho biết, "Tôi nghĩ hầu hết trí thông minh cốt lõi hiện nay đều đến từ văn bản, nhưng âm thanh và video có thể tạo ra những Điều này thú vị hơn.” Từ trò chuyện video với người dạy kèm AI cho đến lặp lại và viết kịch bản phim truyền hình với sự cộng tác của AI, tính đa phương thức có tiềm năng chuyển đổi hoạt động giải trí, học tập và phát triển cũng như tạo nội dung trên nhiều trường hợp sử dụng của người tiêu dùng và doanh nghiệp.

Đa phương thức có liên quan chặt chẽ đến việc sử dụng công cụ. Mặc dù các LLM ban đầu có thể giao tiếp với phần mềm bên ngoài thông qua API, tính đa phương thức sẽ cho phép các LLM sử dụng các công cụ được thiết kế cho con người mà không cần tích hợp tùy chỉnh, chẳng hạn như hệ thống hoạch định nguồn lực doanh nghiệp (ERP) truyền thống, ứng dụng máy tính để bàn, thiết bị y tế hoặc máy móc sản xuất. Chúng tôi đã thấy những tiến bộ thú vị về vấn đề này: ví dụ: mẫu Med-PaLM-2 của Google có thể tổng hợp hình ảnh chụp X-quang và chụp X-quang tuyến vú. Và về lâu dài, tính đa phương thức (đặc biệt là tích hợp với thị giác máy tính) có thể mở rộng LLM đến thực tế vật lý của chính chúng ta thông qua rô bốt, xe tự hành và các ứng dụng khác yêu cầu tương tác thời gian thực với thế giới vật lý.

*Bước đột phá chính: Các mô hình đa phương thức có thể suy luận về hình ảnh, video và thậm chí cả môi trường vật lý mà không cần tùy chỉnh đáng kể. *

Mặc dù có một số hạn chế thực tế của LLM, các nhà nghiên cứu đã thực hiện những cải tiến đáng kinh ngạc đối với các mô hình này trong một khoảng thời gian ngắn. Việc chúng tôi đã cập nhật nó nhiều lần khi viết bài này là một minh chứng cho sự phát triển nhanh chóng của công nghệ trong lĩnh vực này. Gomez đồng ý: "Có một lần trong số 20 LLM bịa ra thực tế là nó rõ ràng vẫn còn quá cao. Nhưng tôi thực sự, thực sự tự tin rằng đây là lần đầu tiên chúng tôi xây dựng một hệ thống như thế này. Kỳ vọng của mọi người khá cao , vì vậy mục tiêu là Từ 'Máy tính thật ngu ngốc, chúng chỉ có thể làm toán' thành 'Con người có lẽ có thể làm tốt hơn'. Chúng tôi đã thu hẹp khoảng cách đủ để bài phê bình tập trung vào những gì con người có thể làm."

Chúng tôi đặc biệt vui mừng về bốn đổi mới sau đây đang ở điểm mấu chốt trong việc thay đổi cách các doanh nhân xây dựng sản phẩm và điều hành công ty. Về lâu dài, tiềm năng thậm chí còn lớn hơn. Amodei dự đoán: "Đến một lúc nào đó, chúng ta có thể có một mô hình có thể đọc tất cả dữ liệu sinh học và tìm ra cách chữa trị bệnh ung thư." Thực tế là những ứng dụng mới tốt nhất có thể vẫn chưa được biết đến. Tại Character.AI, Shazeer cho phép người dùng phát triển các trường hợp sử dụng này: "Chúng ta sẽ thấy rất nhiều ứng dụng mới được mở khóa. Thật khó để tôi nói những ứng dụng đó là gì. Sẽ có hàng triệu ứng dụng và người dùng sẽ đông hơn một số ít." Các kỹ sư giỏi hơn trong việc tìm ra cách sử dụng công nghệ." Chúng ta nóng lòng muốn xem những tiến bộ này sẽ tác động như thế nào đến cách chúng ta sống và làm việc với tư cách là các doanh nhân và công ty, vì những công cụ và khả năng mới này trao quyền cho chúng ta.

*Xin cảm ơn Matt Bornstein, Guido Appenzeller và Rajko Radovanović vì những nhận xét và phản hồi của họ trong quá trình viết. *

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 1
  • Chia sẻ
Bình luận
0/400
GateUser-b2fd1107vip
· 03-18 19:31
1000x Vibes 🤑
Trả lời0
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)