📢 #Gate广场征文活动第二期# 正式启动!
分享你对 $ERA 项目的独特观点,推广ERA上线活动, 700 $ERA 等你来赢!
💰 奖励:
一等奖(1名): 100枚 $ERA
二等奖(5名): 每人 60 枚 $ERA
三等奖(10名): 每人 30 枚 $ERA
👉 参与方式:
1.在 Gate广场发布你对 ERA 项目的独到见解贴文
2.在贴文中添加标签: #Gate广场征文活动第二期# ,贴文字数不低于300字
3.将你的文章或观点同步到X,加上标签:Gate Square 和 ERA
4.征文内容涵盖但不限于以下创作方向:
ERA 项目亮点:作为区块链基础设施公司,ERA 拥有哪些核心优势?
ERA 代币经济模型:如何保障代币的长期价值及生态可持续发展?
参与并推广 Gate x Caldera (ERA) 生态周活动。点击查看活动详情:https://www.gate.com/announcements/article/46169。
欢迎围绕上述主题,或从其他独特视角提出您的见解与建议。
⚠️ 活动要求:
原创内容,至少 300 字, 重复或抄袭内容将被淘汰。
不得使用 #Gate广场征文活动第二期# 和 #ERA# 以外的任何标签。
每篇文章必须获得 至少3个互动,否则无法获得奖励
鼓励图文并茂、深度分析,观点独到。
⏰ 活动时间:2025年7月20日 17
大模型长文本能力百倍增长 成AI发展新标配
长文本能力: 大模型新的"标配"
随着人工智能技术的迅速发展,大模型的长文本处理能力正在成为衡量其先进性的新标准。从最初的4000 token到如今的40万token,大模型的上下文输入长度在短时间内实现了百倍增长。
目前,国内外顶级的大模型技术公司和研究机构都将扩展上下文长度作为重点升级方向。国外方面,OpenAI通过多次升级将GPT-3.5和GPT-4的上下文长度分别提升至1.6万和3.2万token。Anthropic更是一举将其模型Claude的上下文长度扩展到10万token。LongLLaMA则将上下文长度推至25.6万token甚至更多。
国内方面,大模型初创公司月之暗面推出的Kimi Chat支持输入20万汉字,约合40万token。港中文和MIT联合开发的LongLoRA技术可将7B模型的文本长度扩展到10万token,70B模型扩展到3.2万token。
长文本能力的提升带来了多方面的益处。首先,模型可以处理更长的输入文本,从短文扩展到长篇小说乃至整本书籍。其次,长文本能力推动大模型在金融、司法、科研等专业领域的应用,为长文档摘要、阅读理解、问答等任务提供了基础。此外,长文本有助于减少模型的幻觉问题,通过提供更多上下文和细节信息来辅助模型理解和推理。
然而,扩展长文本能力也面临着挑战。主要存在文本长度、注意力机制和算力需求之间的"不可能三角"困境:文本越长,越难聚焦关键信息;注意力机制的计算量随文本长度呈平方级增长;处理长文本需要大量算力,提高了成本。
为解决这些问题,研究人员提出了多种方案,包括借助外部工具辅助处理、优化自注意力机制计算、利用模型优化等方法。尽管如此,长文本处理能力的提升仍然是一个复杂的技术挑战,需要在文本长度、注意力和算力之间寻求最佳平衡点。
总的来说,长文本能力的提升标志着大模型进入了新的发展阶段。它不仅解决了大模型早期存在的一些问题,还为推动产业应用和超级APP的落地提供了关键技术支持。未来,随着技术的不断进步,长文本处理能力有望继续提升,为人工智能在更广泛领域的应用铺平道路。