Kemampuan Teks Panjang: "Standar" Baru Model Besar
Seiring dengan perkembangan pesat teknologi kecerdasan buatan, kemampuan pemrosesan teks panjang dari model besar sedang menjadi standar baru untuk mengukur kemajuannya. Dari awalnya 4000 token hingga kini mencapai 400.000 token, panjang input konteks model besar telah meningkat seratus kali lipat dalam waktu singkat.
Saat ini, perusahaan teknologi model besar terkemuka dan lembaga penelitian di dalam dan luar negeri menjadikan perluasan panjang konteks sebagai arah peningkatan yang utama. Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan berhasil memperluas panjang konteks modelnya, Claude, hingga 100.000 token. LongLLaMA telah mendorong panjang konteks hingga 256.000 token atau bahkan lebih.
Di dalam negeri, perusahaan rintisan model besar, Kimi Chat yang diluncurkan oleh Bulan Gelap, mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan secara kolaboratif oleh Universitas Cina Hong Kong dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.
Peningkatan kemampuan teks panjang membawa berbagai manfaat. Pertama, model dapat menangani teks input yang lebih panjang, dari artikel pendek hingga novel panjang bahkan seluruh buku. Kedua, kemampuan teks panjang mendorong aplikasi model besar di bidang profesional seperti keuangan, peradilan, dan penelitian, menyediakan dasar untuk tugas seperti ringkasan dokumen panjang, pemahaman membaca, dan tanya jawab. Selain itu, teks panjang membantu mengurangi masalah ilusi pada model dengan memberikan lebih banyak konteks dan informasi rinci untuk membantu pemahaman dan penalaran model.
Namun, kemampuan untuk memperluas teks panjang juga menghadapi tantangan. Ada "segitiga ketidakmungkinan" yang utama antara panjang teks, mekanisme perhatian, dan kebutuhan komputasi: semakin panjang teks, semakin sulit untuk fokus pada informasi kunci; jumlah perhitungan mekanisme perhatian meningkat secara kuadratik seiring dengan panjang teks; memproses teks panjang membutuhkan banyak daya komputasi, yang meningkatkan biaya.
Untuk mengatasi masalah ini, para peneliti telah mengajukan berbagai solusi, termasuk menggunakan alat eksternal untuk membantu pemrosesan, mengoptimalkan perhitungan mekanisme perhatian diri, dan memanfaatkan optimasi model. Meskipun demikian, peningkatan kemampuan pemrosesan teks panjang tetap merupakan tantangan teknis yang kompleks, yang memerlukan pencarian keseimbangan terbaik antara panjang teks, perhatian, dan kekuatan komputasi.
Secara keseluruhan, peningkatan kemampuan teks panjang menandai tahap perkembangan baru bagi model besar. Ini tidak hanya menyelesaikan beberapa masalah yang ada pada model besar di awal, tetapi juga menyediakan dukungan teknologi kunci untuk mendorong aplikasi industri dan peluncuran super APP. Di masa depan, seiring dengan kemajuan teknologi yang terus menerus, kemampuan pemrosesan teks panjang diharapkan akan terus meningkat, membuka jalan bagi aplikasi kecerdasan buatan di bidang yang lebih luas.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
12 Suka
Hadiah
12
5
Bagikan
Komentar
0/400
BearMarketMonk
· 12jam yang lalu
Pendek dan panjang itu bagus
Lihat AsliBalas0
NftPhilanthropist
· 07-20 12:53
ser... cukup tokenisasi blok memori dan biarkan tata kelola dao menangani skala
Lihat AsliBalas0
GasFeeTears
· 07-18 02:56
Model masih tidak mengerti bagaimana mengatakan k karakter.
Lihat AsliBalas0
quiet_lurker
· 07-18 02:35
Sudah ditiup sepanjang hari tetapi tidak mengatakan seberapa panjang bisa tumbuh.
Lihat AsliBalas0
ForumLurker
· 07-18 02:31
Sekali lagi membicarakan nilai kemampuan, ulasan buruk.
Kemampuan teks panjang model besar meningkat seratus kali lipat menjadi standar baru dalam perkembangan AI
Kemampuan Teks Panjang: "Standar" Baru Model Besar
Seiring dengan perkembangan pesat teknologi kecerdasan buatan, kemampuan pemrosesan teks panjang dari model besar sedang menjadi standar baru untuk mengukur kemajuannya. Dari awalnya 4000 token hingga kini mencapai 400.000 token, panjang input konteks model besar telah meningkat seratus kali lipat dalam waktu singkat.
Saat ini, perusahaan teknologi model besar terkemuka dan lembaga penelitian di dalam dan luar negeri menjadikan perluasan panjang konteks sebagai arah peningkatan yang utama. Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan berhasil memperluas panjang konteks modelnya, Claude, hingga 100.000 token. LongLLaMA telah mendorong panjang konteks hingga 256.000 token atau bahkan lebih.
Di dalam negeri, perusahaan rintisan model besar, Kimi Chat yang diluncurkan oleh Bulan Gelap, mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan secara kolaboratif oleh Universitas Cina Hong Kong dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.
Peningkatan kemampuan teks panjang membawa berbagai manfaat. Pertama, model dapat menangani teks input yang lebih panjang, dari artikel pendek hingga novel panjang bahkan seluruh buku. Kedua, kemampuan teks panjang mendorong aplikasi model besar di bidang profesional seperti keuangan, peradilan, dan penelitian, menyediakan dasar untuk tugas seperti ringkasan dokumen panjang, pemahaman membaca, dan tanya jawab. Selain itu, teks panjang membantu mengurangi masalah ilusi pada model dengan memberikan lebih banyak konteks dan informasi rinci untuk membantu pemahaman dan penalaran model.
Namun, kemampuan untuk memperluas teks panjang juga menghadapi tantangan. Ada "segitiga ketidakmungkinan" yang utama antara panjang teks, mekanisme perhatian, dan kebutuhan komputasi: semakin panjang teks, semakin sulit untuk fokus pada informasi kunci; jumlah perhitungan mekanisme perhatian meningkat secara kuadratik seiring dengan panjang teks; memproses teks panjang membutuhkan banyak daya komputasi, yang meningkatkan biaya.
Untuk mengatasi masalah ini, para peneliti telah mengajukan berbagai solusi, termasuk menggunakan alat eksternal untuk membantu pemrosesan, mengoptimalkan perhitungan mekanisme perhatian diri, dan memanfaatkan optimasi model. Meskipun demikian, peningkatan kemampuan pemrosesan teks panjang tetap merupakan tantangan teknis yang kompleks, yang memerlukan pencarian keseimbangan terbaik antara panjang teks, perhatian, dan kekuatan komputasi.
Secara keseluruhan, peningkatan kemampuan teks panjang menandai tahap perkembangan baru bagi model besar. Ini tidak hanya menyelesaikan beberapa masalah yang ada pada model besar di awal, tetapi juga menyediakan dukungan teknologi kunci untuk mendorong aplikasi industri dan peluncuran super APP. Di masa depan, seiring dengan kemajuan teknologi yang terus menerus, kemampuan pemrosesan teks panjang diharapkan akan terus meningkat, membuka jalan bagi aplikasi kecerdasan buatan di bidang yang lebih luas.