Kemampuan teks panjang model besar meningkat seratus kali lipat menjadi standar baru dalam perkembangan AI

robot
Pembuatan abstrak sedang berlangsung

Kemampuan Teks Panjang: "Standar" Baru Model Besar

Seiring dengan perkembangan pesat teknologi kecerdasan buatan, kemampuan pemrosesan teks panjang dari model besar sedang menjadi standar baru untuk mengukur kemajuannya. Dari awalnya 4000 token hingga kini mencapai 400.000 token, panjang input konteks model besar telah meningkat seratus kali lipat dalam waktu singkat.

Saat ini, perusahaan teknologi model besar terkemuka dan lembaga penelitian di dalam dan luar negeri menjadikan perluasan panjang konteks sebagai arah peningkatan yang utama. Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan berhasil memperluas panjang konteks modelnya, Claude, hingga 100.000 token. LongLLaMA telah mendorong panjang konteks hingga 256.000 token atau bahkan lebih.

Di dalam negeri, perusahaan rintisan model besar, Kimi Chat yang diluncurkan oleh Bulan Gelap, mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan secara kolaboratif oleh Universitas Cina Hong Kong dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.

Peningkatan kemampuan teks panjang membawa berbagai manfaat. Pertama, model dapat menangani teks input yang lebih panjang, dari artikel pendek hingga novel panjang bahkan seluruh buku. Kedua, kemampuan teks panjang mendorong aplikasi model besar di bidang profesional seperti keuangan, peradilan, dan penelitian, menyediakan dasar untuk tugas seperti ringkasan dokumen panjang, pemahaman membaca, dan tanya jawab. Selain itu, teks panjang membantu mengurangi masalah ilusi pada model dengan memberikan lebih banyak konteks dan informasi rinci untuk membantu pemahaman dan penalaran model.

Namun, kemampuan untuk memperluas teks panjang juga menghadapi tantangan. Ada "segitiga ketidakmungkinan" yang utama antara panjang teks, mekanisme perhatian, dan kebutuhan komputasi: semakin panjang teks, semakin sulit untuk fokus pada informasi kunci; jumlah perhitungan mekanisme perhatian meningkat secara kuadratik seiring dengan panjang teks; memproses teks panjang membutuhkan banyak daya komputasi, yang meningkatkan biaya.

Untuk mengatasi masalah ini, para peneliti telah mengajukan berbagai solusi, termasuk menggunakan alat eksternal untuk membantu pemrosesan, mengoptimalkan perhitungan mekanisme perhatian diri, dan memanfaatkan optimasi model. Meskipun demikian, peningkatan kemampuan pemrosesan teks panjang tetap merupakan tantangan teknis yang kompleks, yang memerlukan pencarian keseimbangan terbaik antara panjang teks, perhatian, dan kekuatan komputasi.

Secara keseluruhan, peningkatan kemampuan teks panjang menandai tahap perkembangan baru bagi model besar. Ini tidak hanya menyelesaikan beberapa masalah yang ada pada model besar di awal, tetapi juga menyediakan dukungan teknologi kunci untuk mendorong aplikasi industri dan peluncuran super APP. Di masa depan, seiring dengan kemajuan teknologi yang terus menerus, kemampuan pemrosesan teks panjang diharapkan akan terus meningkat, membuka jalan bagi aplikasi kecerdasan buatan di bidang yang lebih luas.

TOKEN1.96%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 5
  • Bagikan
Komentar
0/400
BearMarketMonkvip
· 12jam yang lalu
Pendek dan panjang itu bagus
Lihat AsliBalas0
NftPhilanthropistvip
· 07-20 12:53
ser... cukup tokenisasi blok memori dan biarkan tata kelola dao menangani skala
Lihat AsliBalas0
GasFeeTearsvip
· 07-18 02:56
Model masih tidak mengerti bagaimana mengatakan k karakter.
Lihat AsliBalas0
quiet_lurkervip
· 07-18 02:35
Sudah ditiup sepanjang hari tetapi tidak mengatakan seberapa panjang bisa tumbuh.
Lihat AsliBalas0
ForumLurkervip
· 07-18 02:31
Sekali lagi membicarakan nilai kemampuan, ulasan buruk.
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)