Sougen

DSD Runtime Log #01

全部読む必要あるのか？全部読む必要あるのか？LLMは計算で遅いわけじゃない。HBMからの読み出しで死んでる。Transformer自体は速い。問題は最後。LM Head。hiddenを全部読んで、全vocabに対して最後まで計算する。しかも...

2026.01.30

LLM高速化アルゴリズム

― Top-k出力型・確率閉域計算チップという設計思想 ―はじめに：この技術は「何を潰しに行くのか」生成AI・大規模推論における産業利用の支配項は、演算性能ではなく I/O（HBM / VRAM / 転送電力）に移りつつあります。本構想は...

2026.01.20

LLM高速化アルゴリズム

重みを上下に割った──VRAMを半分にするHigh/Low分割とCUDA地獄②の続き、別の壁②では非同期プレフェッチをやった。多少は改善した。でも前提が崩れた。帯域に頼る設計は、その帯域が消えた瞬間に破綻する。ここで方針を変えた。重みそのも...

2025.11.19

LLM高速化アルゴリズム

全部VRAMに乗せる前提を疑った──非同期プレフェッチという発想と、その限界「なぜ全部乗せる必要があるのか」という問い①では、Swallow-MS 7Bをなんとか動かすところまで辿り着いた。とりあえず動く。出力もそれっぽい。でも結論はシンプ...

2025.11.18

LLM高速化アルゴリズム

動いた、でも使い物にならない。技術的には成功していた。でもPoCで撃沈。介護現場に出入りしていて、記録が大変で本来の仕事である介護にかける時間を圧迫されている現場を見て、記録なら生成AIを使えば今よりも自動化できないかと思った。医療介護はセ...

2025.11.05

LLM高速化アルゴリズム