TaalasがAI推論を劇的に高速化・低コスト化するハードウェア専用設計「Hardcore Models」を発表

概要

AIモデルをシリコンに直接実装する「ハードワイヤード」アプローチにより、Llama 3.1を従来比10倍高速、20倍低コストで実行可能にするTaalasの新技術。

詳細内容

カナダのスタートアップTaalasは、AIモデルをカスタムシリコンに変換する画期的なプラットフォームを公開しました。汎用GPUに頼らず、メモリと演算を同一チップ上に統合した「Hardcore Models」プラットフォームにより、HBMや高価な冷却システムを排除。第一弾としてLlama 3.1 8Bをハードワイヤード化したHC1チップでは、ユーザーあたり毎秒1.7万トークンという驚異的な推論速度を達成しています。これは従来のGPUベースの実装と比較して、コストを20分の1、消費電力を10分の1に抑えつつ、10倍の速度向上を実現するものです。同社は今後、より大規模なモデルに対応した次世代プラットフォームHC2の展開も予定しています。

元記事を読む他のサマリーを見る