Великі моделі здатні обробляти довгі тексти, 400 тисяч токенів можуть змінити структуру застосування ШІ.

robot
Генерація анотацій у процесі

Великі моделі намагаються працювати з довгими текстами, 400 тисяч токенів - це тільки початок

Великі моделі підвищують свою здатність обробляти довгі тексти з вражаючою швидкістю. Від початкових 4000 токенів до теперішніх 400 000 токенів, здатність до обробки довгих текстів стала новим стандартом, яким компанії великих моделей демонструють свою технологічну силу.

На міжнародному рівні основні гравці, такі як OpenAI, Anthropic та інші, активно підвищують довжину контексту своїх моделей. В країні деякі нові компанії також поспішають наздогнати в цьому секторі. За інформацією, наразі вже значна кількість провідних компаній з великими моделями та наукових установ зосередилася на розширенні довжини контексту як ключовому напрямку технологічного оновлення.

Ці компанії користуються великим попитом у капіталу. OpenAI залучила майже 12 мільярдів доларів фінансування, оцінка Anthropic може досягти 30 мільярдів доларів, а оцінка вітчизняної нової компанії "Місячна темрява" за півроку вже перевищила 300 мільйонів доларів.

Чому компанії з великими моделями так зацікавлені в опануванні технології довгих текстів? На перший погляд, це означає, що модель може обробляти довші вхідні тексти, а її читабельність значно підвищується. Глибша причина полягає в тому, що технологія довгих текстів може сприяти впровадженню великих моделей у професійних сферах, таких як фінанси, право, наука.

Проте, не завжди довжина тексту означає кращу ефективність моделі. Дослідження показують, що ключовим є те, як модель ефективно використовує інформацію з контексту. Наразі в галузі дослідження довжини тексту ще далеко не досягли "критичної точки", 400 тисяч токенів може бути лише початком.

Прорив у технологіях довгого тексту може вирішити деякі проблеми, з якими стикаються великі моделі на ранніх етапах, такі як забуття інформації віртуальними персонажами та недостатній аналіз у професійних сферах. Це також є однією з ключових технологій, що сприяють реалізації промислових застосувань, що позначає перехід великих моделей з LLM до Long LLM.

Технології довгого тексту дозволяють чат-ботам реалізувати більш професійні, персоналізовані та глибокі функції, такі як аналіз наддовгих текстів, генерація коду, рольові ігри тощо. Це відкриває можливості для розробки наступного покоління супер додатків.

Однак, технології довгих текстів стикаються з парадоксом "неможливого трикутника": довжина тексту, увага та обчислювальна потужність важко поєднуються. Основною причиною цього є те, що обсяг обчислень механізму самостійної уваги в структурі Transformer зростає в квадратній пропорції з довжиною контексту.

В даний час в індустрії основними підходами до вирішення проблеми є: використання зовнішніх інструментів для допомоги в обробці, оптимізація обчислень самостійної уваги та оптимізація моделі. Кожен з цих підходів має свої переваги та недоліки, і компанії з великими моделями повинні знайти баланс між трьома.

В цілому, прориви в технологіях довгих текстів відкрили нові напрямки розвитку для великих моделей, але все ще стикаються з численними викликами. Майбутній розвиток буде зосереджено на тому, як ефективно обробляти наддовгі тексти, забезпечуючи при цьому продуктивність моделі.

TOKEN-3.14%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 3
  • Поділіться
Прокоментувати
0/400
¯\_(ツ)_/¯vip
· 08-05 02:36
Текст став довшим, і ШІ також став впевненішим.
Переглянути оригіналвідповісти на0
Anon4461vip
· 08-05 02:36
Token злетіти до небес малесеньке есе не хвилюється
Переглянути оригіналвідповісти на0
SignatureAnxietyvip
· 08-05 02:35
Мати гроші означає мати можливість робити все, що хочеш.
Переглянути оригіналвідповісти на0
  • Закріпити