LLM高速化アルゴリズム 生成AI活用の介護システムを作ろうとして、”動くのに使えない”からLLM高速化アルゴリズムを作った話
重みを上下に割った──VRAMを半分にするHigh/Low分割とCUDA地獄②の続き、別の壁②では非同期プレフェッチをやった。多少は改善した。でも前提が崩れた。帯域に頼る設計は、その帯域が消えた瞬間に破綻する。ここで方針を変えた。重みそのも...
LLM高速化アルゴリズム
LLM高速化アルゴリズム
LLM高速化アルゴリズム