韓国人「グーグルの『ターボクワント』登場でNVIDIAも緊張」→「サムスンとSKハイニックスの出番だ！」

本サイトはアフィリエイト広告を利用しています

韓国人「グーグルの『ターボクワント』登場でNVIDIAも緊張」→「サムスンとSKハイニックスの出番だ！」

グーグルが生成AI運用における主要なボトルネックとされてきた「メモリ問題」をソフトウェア方式で解決する技術を公開し、AIインフラ競争の方向性が変化しています。これまではモデル規模の拡大が競争の中心でしたが、実行効率とメモリ最適化が重視されるようになっているとの分析が出ています。

27日の業界情報によると、最近の大規模言語モデル（LLM）運用では、演算性能よりもメモリ処理効率が全体の性能を左右するケースが増えています。LLMは回答生成過程で以前の情報を繰り返し参照する構造を持つため、データアクセス時に発生する遅延が速度とコストの両方を制限する要因となっています。

現在、NVIDIA H100などの最新GPU導入により演算性能は大幅に向上しましたが、メモリ帯域幅とデータ移動効率は相対的に制限されています。実際のサービス環境では、GPU演算よりもメモリアクセスがボトルネックとなることが少なくありません。

このような流れの中で、AI推論システムを構成する技術構造への理解も重要になっています。AI推論はモデル、メモリ構造、実行ソフトウェア、ハードウェアが段階的に結合された形で動作します。

まず、モデルは演算過程で生成された情報をメモリに保存し、これを繰り返し参照します。この過程でメモリ使用量が急増し、ボトルネックが発生します。これを解決するためのアプローチがメモリ圧縮技術で、データ表現を減らす量子化方式とデータ構造を効率的にエンコードする方式が共に発展しています。

中でもグーグルが24日に公開した「ターボクワント（TurboQuant）」は、データ表現方式を再構成する量子化ベースのアプローチで、メモリ使用量を減らしつつも精度を維持することに焦点を当てた技術と評価されています。

NVIDIAも同じ問題に対し異なるアプローチを試みています。特に最近では、KVキャッシュを効率的に保存するための「KVキャッシュトランスフォームコーディング（KV Cache Transform Coding）」ベースの技術を前面に出しています。これはデータを単に削除するのではなく、情報構造を効率的にエンコードして保存効率を高めるアプローチに近いものです。ただし、モデルごとの特性に合わせた補正過程が必要な点で適用方式には違いがあります。

両技術ともメモリ圧縮を目標としていますが、アプローチ方式には違いがあります。ターボクワントが量子化をベースに精度損失を最小限に抑えることに焦点を当てているのに対し、KVキャッシュトランスフォームコーディングはエンコード効率を高めて圧縮率を向上させる技術と分析されています。

これら二つの技術は、既存のメモリ最適化技術の延長線上で意味のある進展と評価されています。KVキャッシュの精度を下げる量子化手法は、GPTQ、AWQなどのオープンソース陣営やスタートアップを中心に普及しており、重要度の低いトークンを選択的に削除する方式や、スライディングウィンドウベースのメモリ管理手法も一部のモデルに適用されてきました。また、メモリアクセスを減らすアテンション最適化技術は、データ転送回数を減らして速度を向上させるFlashAttentionなどに発展し、主要AI企業や研究コミュニティで活用されています。

業界関係者は「量子化やトークンプルーニングといった手法はすでに広く使われているが、実際のサービスでは精度や安定性の問題から適用範囲が限定的な場合が多い」とし、「KVキャッシュ自体を圧縮対象とするアプローチは実装難易度は高いが、適切に適用されれば体感性能を大きく変えることができる領域だ」と述べています。

メモリ圧縮に加え、モデル実行方式自体を改善しようとするソフトウェア競争も拡大しています。vLLM、TensorRT-LLMをはじめ、llama.cppなど多様な推論エンジンが登場し、リクエスト処理方式とメモリ管理効率を高める方向に発展しています。

特にvLLMは、米国UCバークレーの研究陣が主導して開発したオープンソース推論エンジンで、リクエストを効率的にまとめて処理し、PagedAttention構造を通じてメモリを動的に管理する方式で処理効率を高めます。NVIDIAが開発したTensorRT-LLMもGPU演算を最適化して推論速度を改善するソフトウェアで、データセンター環境で広く活用されています。

推論エンジンはモデル自体を変更することなく、実行方式だけで性能を改善できます。同じモデルでも、どの実行ソフトウェアを使用するかによって処理速度とコストが変わる構造です。

業界関係者は「同じモデルでもvLLMやTensorRTのような推論エンジンの設定によって処理量に大きな差が出る」とし、「実際のサービスではモデルよりも実行スタックが性能を左右することも少なくない」と説明しています。

メモリ圧縮技術と推論エンジンが結合された後、最終的な演算はGPUで実行されます。特に最新のGPU環境では、演算性能よりもメモリ活用効率が全体の性能を左右するケースが増え、ソフトウェアベースの最適化の重要性がさらに高まっています。

これに伴い、AI競争の方向性も変化しています。これまで生成AIは、より多くのデータを学習し、より大きなモデルを構築することに集中してきましたが、最近では同じモデルをいかに速く、費用効率的に運用できるかが核心的な競争力として浮上しています。

業界関係者は「大規模サービスでは、モデル性能よりも推論効率がコスト構造を左右することが多い」とし、「メモリ構造と推論エンジンを共に最適化しなければ、GPUを増やしても収益性を合わせるのが難しい段階に入った」と語っています。

引用元記事:https://n.news.naver.com/article/092/0002416437