2025-11

LLM高速化アルゴリズム

生成AI活用の介護システムを作ろうとして、”動くのに使えない”からLLM高速化アルゴリズムを作った話

重みを上下に割った──VRAMを半分にするHigh/Low分割とCUDA地獄②の続き、別の壁②では非同期プレフェッチをやった。多少は改善した。でも前提が崩れた。帯域に頼る設計は、その帯域が消えた瞬間に破綻する。ここで方針を変えた。重みそのも...
LLM高速化アルゴリズム

生成AI活用の介護システムを作ろうとして、”動くのに使えない”からLLM高速化アルゴリズムを作った話

全部VRAMに乗せる前提を疑った──非同期プレフェッチという発想と、その限界「なぜ全部乗せる必要があるのか」という問い①では、Swallow-MS 7Bをなんとか動かすところまで辿り着いた。とりあえず動く。出力もそれっぽい。でも結論はシンプ...
LLM高速化アルゴリズム

生成AI活用の介護システムを作ろうとして、”動くのに使えない”からLLM高速化アルゴリズムを作った話

動いた、でも使い物にならない。技術的には成功していた。でもPoCで撃沈。介護現場に出入りしていて、記録が大変で本来の仕事である介護にかける時間を圧迫されている現場を見て、記録なら生成AIを使えば今よりも自動化できないかと思った。医療介護はセ...