# 長文能力: 大モデルの新しい"スタンダード"人工知能技術の急速な発展に伴い、大規模モデルの長文処理能力がその先進性を測る新しい基準となっています。最初の4000トークンから現在の40万トークンへと、大規模モデルのコンテキスト入力の長さは短期間で百倍の成長を遂げました。現在、国内外のトップレベルの大規模モデル技術会社と研究機関は、コンテキストの長さの拡張を重点的なアップグレードの方向性としています。海外では、OpenAIが何度もアップグレードを行い、GPT-3.5とGPT-4のコンテキストの長さをそれぞれ1.6万トークンと3.2万トークンに引き上げました。Anthropicはさらに、モデルClaudeのコンテキストの長さを10万トークンに拡張しました。LongLLaMAはコンテキストの長さを25.6万トークン以上にまで推し進めました。国内において、大規模モデルのスタートアップ「月之暗面」が開発したKimi Chatは20万漢字の入力をサポートし、約40万tokenに相当します。香港中文大学とMITが共同開発したLongLoRA技術により、7Bモデルのテキスト長が10万token、70Bモデルが3.2万tokenに拡張されます。長文能力の向上は、多方面にわたる利点をもたらしました。まず、モデルは短い文章から長編小説や全冊の書籍まで、より長い入力テキストを処理できるようになりました。次に、長文能力は金融、司法、研究などの専門分野における大規模モデルの応用を促進し、長文書の要約、読解、質問応答などのタスクに基盤を提供しています。さらに、長文はモデルの妄想問題を減少させるのに役立ち、より多くのコンテキストと詳細情報を提供することで、モデルの理解と推論を支援します。しかし、長文の能力を拡張することは課題にも直面しています。主にテキストの長さ、注意メカニズム、計算力の需要の間に「不可能な三角形」のジレンマがあります:テキストが長くなるほど、重要な情報に焦点を合わせるのが難しくなります。注意メカニズムの計算量はテキストの長さに対して平方的に増加します。長文を処理するには大量の計算力が必要で、コストが増加します。これらの問題を解決するために、研究者たちは外部ツールを利用した支援処理、自注意力メカニズムの計算最適化、モデル最適化など、さまざまな方法を提案しました。それにもかかわらず、長文処理能力の向上は依然として複雑な技術的課題であり、テキストの長さ、注意力、計算能力の間で最適なバランスを求める必要があります。全体として、長文能力の向上は大規模モデルが新たな発展段階に入ったことを示しています。それは、大規模モデルの初期に存在していたいくつかの問題を解決するだけでなく、産業応用やスーパーAPPの実現に向けた重要な技術支援を提供します。今後、技術の進歩が続く中で、長文処理能力はさらに向上し、人工知能のより広範な分野での応用への道を開くことが期待されます。
大規模モデルの長文能力が百倍上昇し、AIの発展の新しい標準装備となる。
長文能力: 大モデルの新しい"スタンダード"
人工知能技術の急速な発展に伴い、大規模モデルの長文処理能力がその先進性を測る新しい基準となっています。最初の4000トークンから現在の40万トークンへと、大規模モデルのコンテキスト入力の長さは短期間で百倍の成長を遂げました。
現在、国内外のトップレベルの大規模モデル技術会社と研究機関は、コンテキストの長さの拡張を重点的なアップグレードの方向性としています。海外では、OpenAIが何度もアップグレードを行い、GPT-3.5とGPT-4のコンテキストの長さをそれぞれ1.6万トークンと3.2万トークンに引き上げました。Anthropicはさらに、モデルClaudeのコンテキストの長さを10万トークンに拡張しました。LongLLaMAはコンテキストの長さを25.6万トークン以上にまで推し進めました。
国内において、大規模モデルのスタートアップ「月之暗面」が開発したKimi Chatは20万漢字の入力をサポートし、約40万tokenに相当します。香港中文大学とMITが共同開発したLongLoRA技術により、7Bモデルのテキスト長が10万token、70Bモデルが3.2万tokenに拡張されます。
長文能力の向上は、多方面にわたる利点をもたらしました。まず、モデルは短い文章から長編小説や全冊の書籍まで、より長い入力テキストを処理できるようになりました。次に、長文能力は金融、司法、研究などの専門分野における大規模モデルの応用を促進し、長文書の要約、読解、質問応答などのタスクに基盤を提供しています。さらに、長文はモデルの妄想問題を減少させるのに役立ち、より多くのコンテキストと詳細情報を提供することで、モデルの理解と推論を支援します。
しかし、長文の能力を拡張することは課題にも直面しています。主にテキストの長さ、注意メカニズム、計算力の需要の間に「不可能な三角形」のジレンマがあります:テキストが長くなるほど、重要な情報に焦点を合わせるのが難しくなります。注意メカニズムの計算量はテキストの長さに対して平方的に増加します。長文を処理するには大量の計算力が必要で、コストが増加します。
これらの問題を解決するために、研究者たちは外部ツールを利用した支援処理、自注意力メカニズムの計算最適化、モデル最適化など、さまざまな方法を提案しました。それにもかかわらず、長文処理能力の向上は依然として複雑な技術的課題であり、テキストの長さ、注意力、計算能力の間で最適なバランスを求める必要があります。
全体として、長文能力の向上は大規模モデルが新たな発展段階に入ったことを示しています。それは、大規模モデルの初期に存在していたいくつかの問題を解決するだけでなく、産業応用やスーパーAPPの実現に向けた重要な技術支援を提供します。今後、技術の進歩が続く中で、長文処理能力はさらに向上し、人工知能のより広範な分野での応用への道を開くことが期待されます。