Kemampuan teks panjang model besar meningkat seratus kali lipat menjadi standar baru dalam perkembangan AI

2025-07-18 02:27:45

Pembuatan abstrak sedang berlangsung

Kemampuan Teks Panjang: "Standar" Baru Model Besar

Seiring dengan perkembangan pesat teknologi kecerdasan buatan, kemampuan pemrosesan teks panjang dari model besar sedang menjadi standar baru untuk mengukur kemajuannya. Dari awalnya 4000 token hingga kini mencapai 400.000 token, panjang input konteks model besar telah meningkat seratus kali lipat dalam waktu singkat.

Saat ini, perusahaan teknologi model besar terkemuka dan lembaga penelitian di dalam dan luar negeri menjadikan perluasan panjang konteks sebagai arah peningkatan yang utama. Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan berhasil memperluas panjang konteks modelnya, Claude, hingga 100.000 token. LongLLaMA telah mendorong panjang konteks hingga 256.000 token atau bahkan lebih.

Di dalam negeri, perusahaan rintisan model besar, Kimi Chat yang diluncurkan oleh Bulan Gelap, mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan secara kolaboratif oleh Universitas Cina Hong Kong dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.

Peningkatan kemampuan teks panjang membawa berbagai manfaat. Pertama, model dapat menangani teks input yang lebih panjang, dari artikel pendek hingga novel panjang bahkan seluruh buku. Kedua, kemampuan teks panjang mendorong aplikasi model besar di bidang profesional seperti keuangan, peradilan, dan penelitian, menyediakan dasar untuk tugas seperti ringkasan dokumen panjang, pemahaman membaca, dan tanya jawab. Selain itu, teks panjang membantu mengurangi masalah ilusi pada model dengan memberikan lebih banyak konteks dan informasi rinci untuk membantu pemahaman dan penalaran model.

Namun, kemampuan untuk memperluas teks panjang juga menghadapi tantangan. Ada "segitiga ketidakmungkinan" yang utama antara panjang teks, mekanisme perhatian, dan kebutuhan komputasi: semakin panjang teks, semakin sulit untuk fokus pada informasi kunci; jumlah perhitungan mekanisme perhatian meningkat secara kuadratik seiring dengan panjang teks; memproses teks panjang membutuhkan banyak daya komputasi, yang meningkatkan biaya.

Untuk mengatasi masalah ini, para peneliti telah mengajukan berbagai solusi, termasuk menggunakan alat eksternal untuk membantu pemrosesan, mengoptimalkan perhitungan mekanisme perhatian diri, dan memanfaatkan optimasi model. Meskipun demikian, peningkatan kemampuan pemrosesan teks panjang tetap merupakan tantangan teknis yang kompleks, yang memerlukan pencarian keseimbangan terbaik antara panjang teks, perhatian, dan kekuatan komputasi.

Secara keseluruhan, peningkatan kemampuan teks panjang menandai tahap perkembangan baru bagi model besar. Ini tidak hanya menyelesaikan beberapa masalah yang ada pada model besar di awal, tetapi juga menyediakan dukungan teknologi kunci untuk mendorong aplikasi industri dan peluncuran super APP. Di masa depan, seiring dengan kemajuan teknologi yang terus menerus, kemampuan pemrosesan teks panjang diharapkan akan terus meningkat, membuka jalan bagi aplikasi kecerdasan buatan di bidang yang lebih luas.

TOKEN1.96%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

12 Suka

Hadiah
12
5
Bagikan

Komentar

0/400

BearMarketMonk

· 12jam yang lalu

Pendek dan panjang itu bagus

Lihat AsliBalas0

NftPhilanthropist

· 07-20 12:53

ser... cukup tokenisasi blok memori dan biarkan tata kelola dao menangani skala

Lihat AsliBalas0

GasFeeTears

· 07-18 02:56

Model masih tidak mengerti bagaimana mengatakan k karakter.

Lihat AsliBalas0

quiet_lurker

· 07-18 02:35

Sudah ditiup sepanjang hari tetapi tidak mengatakan seberapa panjang bisa tumbuh.

Lihat AsliBalas0

ForumLurker

· 07-18 02:31

Sekali lagi membicarakan nilai kemampuan, ulasan buruk.

Lihat AsliBalas0

Topik
1/3
1ETH Breaks Through $3,800
12k Popularitas
2Gate June Transparency Report
6k Popularitas
3Altcoins on the Rise
13k Popularitas
4Gate Square Creator Spark Program
143k Popularitas
5Content Mining & Earn Rich Commission
1834k Popularitas

Sematkan

peta situs