📢 Gate广场专属 #WXTM创作大赛# 正式开启!
聚焦 CandyDrop 第59期 —— MinoTari (WXTM),总奖池 70,000 枚 WXTM 等你赢!
🎯 关于 MinoTari (WXTM)
Tari 是一个以数字资产为核心的区块链协议,由 Rust 构建,致力于为创作者提供设计全新数字体验的平台。
通过 Tari,数字稀缺资产(如收藏品、游戏资产等)将成为创作者拓展商业价值的新方式。
🎨 活动时间:
2025年8月7日 17:00 - 8月12日 24:00(UTC+8)
📌 参与方式:
在 Gate广场发布与 WXTM 或相关活动(充值 / 交易 / CandyDrop)相关的原创内容
内容不少于 100 字,形式不限(观点分析、教程分享、图文创意等)
添加标签: #WXTM创作大赛# 和 #WXTM#
附本人活动截图(如充值记录、交易页面或 CandyDrop 报名图)
🏆 奖励设置(共计 70,000 枚 WXTM):
一等奖(1名):20,000 枚 WXTM
二等奖(3名):10,000 枚 WXTM
三等奖(10名):2,000 枚 WXTM
📋 评选标准:
内容质量(主题相关、逻辑清晰、有深度)
用户互动热度(点赞、评论)
附带参与截图者优先
📄 活动说明:
内容必须原创,禁止抄袭和小号刷量行为
获奖用户需完成 Gate广场实名
长文本成为大模型新标配 国内外巨头争相突破40万token
长文本能力成为大模型公司的新"标配"
大模型正以惊人的速度提升其处理长文本的能力,从4000个token扩展到40万个token。长文本处理能力似乎已成为大模型厂商的又一新"标配"。
国外方面,OpenAI通过多次升级将GPT-3.5的上下文输入长度从4千增至1.6万token,GPT-4从8千增至3.2万token。OpenAI的主要竞争对手Anthropic则一次性将上下文长度提升到10万token。LongLLaMA更是将上下文长度扩展到25.6万token甚至更多。
国内方面,大模型初创公司月之暗面推出的Kimi Chat可支持输入20万汉字,约合40万token。港中文和MIT联合开发的LongLoRA技术,可将7B模型的文本长度扩展到10万token,70B模型扩展到3.2万token。
目前,OpenAI、Anthropic、Meta、月之暗面等众多顶级大模型公司和研究机构都将拓展上下文长度作为升级重点。这些公司也都是资本市场追捧的热门对象。OpenAI获得近120亿美元投资,Anthropic估值有望达到300亿美元,月之暗面短短半年内完成近20亿元融资。
大模型厂商竞相攻克长文本技术,将上下文长度扩大100倍意味着什么?
表面上看,这意味着模型可以输入更长的文本,阅读能力更强。GPT-3.5的4000 token仅能输入约2000个汉字,而Kimi Chat的40万token可支持输入20万汉字,足以阅读一部长篇小说。
从更深层次看,长文本技术正在推动大模型在金融、司法、科研等专业领域的应用落地。在这些领域,长文档摘要、阅读理解、问答等能力是基础需求,也是亟待智能化升级的方向。
然而,类似于模型参数,文本长度并非越长越好。研究表明,模型支持更长的上下文输入并不直接等同于效果更好。关键在于模型如何有效利用上下文内容。
不过,目前国内外对文本长度的探索还未达到"临界点"。各大模型公司仍在不断突破,40万token可能只是一个开始。
为什么要"卷"长文本?
月之暗面创始人杨植麟表示,正是由于大模型输入长度受限,才造成了许多应用落地的困境。这也是各大模型公司当前聚焦长文本技术的原因所在。
例如,在虚拟角色场景中,由于长文本能力不足,虚拟角色会忘记重要信息。在开发剧本杀类游戏时,输入长度不够会导致规则和设定被削减,无法达到预期效果。在法律、银行等专业领域,深度内容分析和生成常常受挫。
长文本在未来Agent和AI原生应用中也扮演重要角色。Agent需要依靠历史信息进行规划和决策,AI原生应用需要上下文来保持连贯、个性化的用户体验。
杨植麟认为,无论是文字、语音还是视频,对海量数据的无损压缩可以实现高程度的智能。大模型的上限由单步能力和执行步骤数共同决定,其中单步能力与参数量相关,执行步骤数即上下文长度。
同时,长文本可以通过提供更多上下文和细节信息,帮助模型更准确地判断语义,减少歧义,提高推理准确性。
长文本技术既可以解决大模型早期的一些问题,增强某些功能,也是进一步推进产业应用落地的关键技术。这标志着通用大模型发展进入了从LLM到Long LLM的新阶段。
以月之暗面新发布的Kimi Chat为例,可以一窥Long LLM阶段大模型的升级功能:
这表明,对话机器人正在向专业化、个性化、深度化方向发展,这或许是撬动产业应用和超级APP落地的又一抓手。
杨植麟认为,国内大模型市场会分为toB和toC两个阵营。在toC领域,会出现基于自研模型的超级应用。
不过,目前市面上的长文本对话场景仍有很大优化空间。如不支持联网获取最新信息、生成过程无法暂停修改、仍偶尔出现胡说八道的情况等。
长文本的"不可能三角"困境
在长文本技术中,存在文本长短、注意力和算力的"不可能三角"困境:
这一困境的根源在于现有大模型主要基于Transformer结构。其中最重要的自注意力机制虽然能突破输入顺序的限制,但计算量会随上下文长度呈平方级增长。
这就构成了"不可能三角"中的第一组矛盾:文本长短与注意力。同时,处理长文本需要更多算力,与算力稀缺的现状又形成了第二组矛盾。
目前主要有三种解决方案:
借助外部工具辅助处理长文本,将长文本切分为多个短文本处理
优化自注意力机制计算,如LongLoRA技术通过分组计算降低计算量
对模型进行优化,如LongLLaMA通过微调现有模型来支持更长序列
长文本的"不可能三角"困境或许暂时无解,但这也明确了大模型厂商的探索路径:在文本长短、注意力和算力三者间寻求平衡,既能处理足够信息,又能兼顾注意力计算与算力成本。