Khả năng xử lý văn bản dài của mô hình lớn tăng vọt, 400.000 token có thể làm thay đổi cục diện ứng dụng AI.

robot
Đang tạo bản tóm tắt

Mô hình lớn tiến vào văn bản dài, 400.000 token chỉ là khởi đầu

Mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc. Từ 4000 token ban đầu đến 400000 token hiện tại, khả năng văn bản dài đã trở thành tiêu chuẩn mới để các công ty mô hình lớn thể hiện sức mạnh công nghệ.

Trên thế giới, những người chơi chính như OpenAI, Anthropic đang lần lượt nâng cao độ dài ngữ cảnh của mô hình. Trong nước, một số công ty mới nổi cũng đang nỗ lực theo kịp trong lĩnh vực này. Theo thông tin, hiện đã có một số lượng lớn các công ty mô hình lớn hàng đầu và các tổ chức nghiên cứu xem việc mở rộng độ dài ngữ cảnh là trọng điểm của nâng cấp công nghệ.

Các công ty này đều được vốn đầu tư ưa chuộng. OpenAI đã nhận được gần 12 tỷ đô la tài trợ, Anthropic có thể đạt giá trị 30 tỷ đô la, công ty mới nổi trong nước Mặt Trăng Tối đã vượt qua giá trị 300 triệu đô la chỉ sau nửa năm.

Tại sao các công ty mô hình lớn lại đặc biệt quan tâm đến việc chinh phục công nghệ văn bản dài? Bề ngoài, điều này có nghĩa là mô hình có thể xử lý văn bản đầu vào dài hơn, khả năng đọc được nâng cao đáng kể. Nguyên nhân sâu xa hơn là công nghệ văn bản dài có thể thúc đẩy sự áp dụng của mô hình lớn trong các lĩnh vực chuyên môn như tài chính, pháp lý, nghiên cứu khoa học.

Tuy nhiên, không phải độ dài văn bản càng dài thì hiệu quả của mô hình càng tốt. Nghiên cứu cho thấy, điều quan trọng là mô hình sử dụng thông tin ngữ cảnh một cách hiệu quả như thế nào. Hiện tại, ngành công nghiệp vẫn chưa chạm đến "điểm giới hạn" về độ dài văn bản, 400.000 token có thể chỉ là một khởi đầu.

Sự đột phá của công nghệ văn bản dài có thể giải quyết một số vấn đề mà mô hình lớn phải đối mặt ở giai đoạn đầu, chẳng hạn như nhân vật ảo quên thông tin, phân tích chuyên môn không đủ, v.v. Đây cũng là một trong những công nghệ then chốt thúc đẩy ứng dụng ngành đi vào thực tế, đánh dấu việc mô hình lớn bước vào giai đoạn mới từ LLM sang Long LLM.

Công nghệ văn bản dài cho phép robot đối thoại thực hiện các chức năng chuyên nghiệp hơn, cá nhân hóa và sâu sắc hơn, như phân tích văn bản siêu dài, tạo mã, nhập vai, v.v. Điều này mở ra khả năng phát triển các ứng dụng siêu cấp thế hệ tiếp theo.

Tuy nhiên, công nghệ văn bản dài đang phải đối mặt với nghịch lý "tam giác không thể" : độ dài văn bản, sự chú ý và sức mạnh tính toán khó có thể đồng thời đạt được. Nguyên nhân chính là do lượng tính toán của cơ chế tự chú ý trong cấu trúc Transformer tăng theo mức bình phương với độ dài ngữ cảnh.

Ngành công nghiệp hiện tại chủ yếu đối phó bằng ba giải pháp: sử dụng công cụ bên ngoài để hỗ trợ xử lý, tối ưu hóa tính toán tự chú ý, tối ưu hóa mô hình. Mỗi giải pháp đều có ưu nhược điểm riêng, các công ty mô hình lớn cần tìm kiếm điểm cân bằng giữa ba yếu tố này.

Tổng thể mà nói, những đột phá trong công nghệ văn bản dài đã mở ra hướng phát triển mới cho các mô hình lớn, nhưng vẫn đối mặt với nhiều thách thức. Sự phát triển trong tương lai sẽ xoay quanh việc làm thế nào để xử lý văn bản siêu dài một cách hiệu quả trong khi đảm bảo hiệu suất của mô hình.

TOKEN-3.91%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 3
  • Chia sẻ
Bình luận
0/400
¯\_(ツ)_/¯vip
· 08-05 02:36
Văn bản dài làm cho AI cũng trở nên cứng rắn hơn.
Xem bản gốcTrả lời0
Anon4461vip
· 08-05 02:36
Token tăng mạnh 小作文都不慌
Xem bản gốcTrả lời0
SignatureAnxietyvip
· 08-05 02:35
Có tiền thì có thể làm mọi thứ.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)