LLM研究

DSD-RPP — Δ>B 推論アーキテクチャ研究
DSD-RPP — Δ > B 推論アーキテクチャ研究

エラーも出ない。
ただ、終わらない。

介護記録を自動化するために、独自のAIモデルを動かしている。けれど、数人が同時にアクセスした瞬間、処理だけが終わらなくなる。原因は計算ではなく、メモリだった。

Δ(t) — 観測は続いているが、収束しない

介護記録AIを、現場で動かしたかった。

しかし、問題はAIの精度ではなかった。

GPUを増やす。DRAMを増やす。電力を増やす。

それでも、解決しない。

調べ続けてわかったのは、
ボトルネックは計算ではなく、
「メモリを読むこと」だった。

01 — 応用

介護の味方。私たちはシステム会社ではなく、介護・医療の現場を支えるパートナーです。

最先端のAIを使いながらも、現場で本当に必要なものだけを、使いやすく。複雑な機能や操作は初期画面に出さない。大切なのは、「誰でも」「すぐに」「安心して」使えること。介護職の皆様の本来の力であるケアに、最大限時間を使えるようにという思いで作った。

01

音声から介護記録を自動生成

会話の音声をそのままテキスト化し、介護記録として整理・保存。確認・修正してそのまま使える。

02

ケアプラン作成・監査対応書類

ケアプラン作成に必要な書類、監査対応書類、LIFE対応の帳票まで自動で作成。

03

状況サマリーから記録へジャンプ

「転倒」などの状況をクリックすると、該当する介護記録を即座に参照。看護師・ケアマネ・介護職の連携や、家族説明の根拠資料としても使える。

04

監査の準備もボタン一つ

自治体ごとの帳票作成からフォルダ構成まで、ボタン一つで準備完了。改ざん防止の暗号も自動で保存される。

現場で求められる機能は、ひとつひとつ実装できた。ただ、生成AIをフルに使ったシステムを現場のPCで動かそうとすると、GPU・DRAM・電力 ── どこかで必ず詰まる。

GPU、DRAM、電力。
生成AIをフルに使おうとすると、必ずどこかで詰まる。
それなら、中身を調べることにした。

GPU / DRAM / Power → 中身の研究へ
02 — 研究

AIは、本当に最後まで全部読む必要があるのか?

DSD-RPP ── 「この先どんな観測をしても、結果は変わらない」と証明できた時点で、そこで読むのを止める。推論を「計算」ではなく「メモリ観測のスケジューリング問題」として捉え直す研究。

LLMの推論は、最終的に語彙の中から最も確信度の高い1語を選ぶ作業に行き着く。途中の計算をすべて終えなくても、「この先どんな観測をしても結果が変わらない」と言い切れた時点で、それ以上の観測を止めてよい。

Δ > B → 観測を停止しても、結果は変わらない

Δ は、今いちばん確信度の高い候補と、2番目の候補との差。
B は、まだ観測していない部分が、最大でどこまでこの差を覆せるか、という上限。
この上限を、確信の差が超えた瞬間 ── それ以上は読まなくていい。

Δ > B この時点で停止 成長 崩壊 再成長 B(t) Δ(t)
Δ(t) — 確信の差は単調には増えない。成長し、崩壊し、再び成長する。 B(t) — 観測が進むほど、残りが覆せる上限は小さくなる。
Reflex Layer

即時分離

多くの「易しい」トークンは、ここで確信が一気に分離し、すぐに停止する。

Reasoning Layer

軌跡の安定化

崩壊・振動する確信の軌跡を、ここで安定させる。意味的な専門分化ではなく、「確信形成の難易度」による階層分け。

Verification Layer

決定論的収束

最後まで確信が分離しない、ごく一部のケースのみ、すべてを観測して確定させる。

異分野の発想を、推論に応用する

もともとはLLM研究者ではない。介護システムを作る中でGPUやメモリの問題に直面し、その過程で見た「必要以上の情報を扱わない」「十分な確信が得られたら次へ進む」という考え方を、推論にも応用できないかと試してきた。DSD-RPPも、そうした試行錯誤のひとつ。

ΔΣ変調 チョッパ回路 通信工学 — 多重化 制御工学 — 収束判定 カルマンフィルタ 映像圧縮 — 差分表現 音楽 — 緊張と解決
03 — 実証

Gemma-3-12B での検証

語彙投影層(LM Head)にDSD-RPPを適用し、Dense FP32での計算結果と比較した。

100%
Dense FP32 との Top-1 一致率 ── 結果を変えずに、観測を停止できることを確認した。

どこまで観測を減らせるかは、現在も改善が進んでいる段階。

区分観測削減率
GPU実績値0.5 → 7%
CPU理論値(参考)約 57.8%
CPU理論値では、次元単位の停止条件により864 / 2048次元(約57.8%)まで止められることが分かっている。GPU実績値はまだこの理論値に届いておらず、改善の余地が大きい。
About
「もっとGPUを積む」のではなく ── そもそも、読まなくていいことを証明できないか。

なぜ、この研究をしているのか

もともとはLLMの研究者ではない。経済学部出身で、LLMの研究者としての「お約束」は持っていない。もともと好奇心の向く先が学際的だった、というだけだ。

介護記録を自動化するシステムを、現場のPCで動かそうとしていた。けれど、数人が同時にアクセスしただけで、処理が終わらなくなる。エラーは出ない。ただ、終わらない。

調べていくと、ボトルネックは計算ではなく、メモリだった。VRAMを補うためにDRAMを使い、DRAMの遅さを補うために非同期化し ── そうしてメモリの使い方を工夫していった先で、メモリそのものの値段が変わってしまった。

メモリ産業は、数社による寡占構造に近い。値段は自分たちでコントロールできるものではない。ならば、メモリの値段に依存しない設計にするしかない。

そこで行き着いたのが、「読む量を減らす」のではなく、「読まなくていいことを証明する」という発想 ── DSD-RPPだった。

その過程では、通信工学、制御工学、回路設計、ΔΣ変調、映像圧縮など、さまざまな分野の考え方を推論へ応用できないか試してきた。DSD-RPPも、そうした試行錯誤の中から生まれた発想のひとつ。

DSD-RPP — Inference Architecture Research 2026
タイトルとURLをコピーしました