Skip to content

#inference

📚 Foundations · 2026-06-16

事実・基礎: AI Token Futures Market: Commoditization of Compute and Derivatives Contract Design

API推論価格が毎年70〜80%下落する一方、訓練インフラへの資本支出はBig Five合計で2026年に6,000億ドルを超えた。純APIプレイヤーとしての基盤モデル事業は「収益はAPIではなくアプリケーションで回収する」垂直統合モデルへと収束しつつある構造的変化が、複数の独立分析で確認されている。推論トークンの商品化が進む一方、価格変動ヘッジ手段として先物市場の設計研究も始まった。

📰 Latest · 2026-06-16

最新情報: 中国MiniMax、独自MSAアーキテクチャの「M3」をオープンウェイトで公開——SWE-Bench Pro 59%・1Mコンテキストでデコード速度15倍超・コストはGPT-5.5の5〜10%

MiniMaxがMSA(MiniMax Sparse Attention)アーキテクチャを採用したM3をオープンウェイトで公開。SWE-Bench ProでGPT-5.5とGemini 3.1 Proを超える59%を達成しながらコストはその5〜10%。100万トークン時のデコード速度が従来比15倍超で、エージェント型コーディング用途でのコスト効率が際立つ。

📰 Latest · 2026-06-15

最新情報: GoogleがDiffusionGemma 26Bをオープンソース公開——拡散型生成で自回帰モデル比4倍速・毎秒1,000トークンを達成

GoogleがApache 2.0ライセンスで拡散ベースLLMをリリース。逐次トークン生成を捨て並列拡散プロセスで速度を4倍に高めたが品質は同世代の自回帰モデルに及ばず、推論コスト優先用途への新アプローチを示す位置付けとなった。

📰 Latest · 2026-06-14

最新情報: Google Gemini 3.5 Pro、6月中のGA(一般提供)へ——200万トークンコンテキスト×「Deep Think」推論で旗艦モデルを全面刷新

Google I/O(5月19日)で発表されたGemini 3.5 ProがVertex AI限定プレビュー中で6月内のGA予定、200万トークンの超長文脈とDeep Think推論モードにより前世代Ultraの全ユースケースを置き換える次期フラッグシップとしてエンタープライズ向けAIエージェント・長文書処理での採用競争が加速する見通し。

📰 Latest · 2026-06-14

最新情報: Microsoft Build 2026:自社製AIモデル「MAI-Thinking-1」と「MAI-Code-1-Flash」を発表——OpenAI非依存の推論・コーディング基盤を初公開

MicrosoftがBuild 2026でOpenAIデータを一切用いない推論モデルMAI-Thinking-1(MoE 35Bパラメーター)とコーディングモデルMAI-Code-1-Flashを含む計7本の自社MAIモデルを発表、GitHub Copilot全ティアへ即日展開しOpenAI依存からの脱却と低コスト化を示唆した。

💡 Takes · 2026-06-13

考察: NTT tsuzumi 2・Fujitsu Takane等の日本語特化SLM(30B以下)が、2027年末までに日本大手エンタープライズのAI本番稼働の過半数(50%超)を占め、GPT-4・Claude等のフロンティアモデルを本番ワークロードで逆転する。

東京都心のデータセンター電源接続待機が5〜10年、国内電力消費は2034年に現在の3倍(最大66 TWh)に達する見通しで、電力制約とオンプレ・データ残留要件が重なる日本固有の構造がコスト効率の高いSLMへの移行を後押しする。NTT tsuzumi 2(2025年10月)はフロンティアモデルと同等の日本語性能を大幅に低いインフラコストで達成しており、Fujitsu…

💡 Takes · 2026-06-11

考察: Gartnerが予測する2030年までのLLM推論コスト90%超削減は、2026〜2028年の間に日本国内で「月額1万円以下でLLMを活用した業務完全自動化を提供するSME向けSaaS」の経済的成立を可能にし、この価格帯で年間ARR10億円を超えるスタートアップが3社以上出現する

LLM APIの推論コストはすでに2022年比で280倍以上低下($20→$0.07/100万トークン)しており、月額1万円以下のSME向け完全自動化SaaSが技術的・経済的に実現可能な水準に近づいている。日本のSMEは月額1〜3万円のSaaSには馴染みが深い一方、本格的AI自動化は現状コストが高く届いていないセグメントであり、コスト崩壊がプライスポイントを解放する。…

📚 Foundations · 2026-06-10

事実・基礎: Cost-of-Pass: An Economic Framework for Evaluating Language Models (arXiv 2504.13359, 2025)

生成AIの推論需要急増がチップ市場を根本から再編しており、半導体サプライチェーンが企業AIコストの主要規定要因となっている。同時に、タスク複雑性に応じたモデル選択を経済学的に最適化するフレームワークが登場し、企業展開コストの合理化手法の整備が進みつつある。

📚 Foundations · 2026-06-10

事実・基礎: Semiconductor Market to Surge Past the Trillion-Dollar Threshold: AI Infrastructure Drives Market Growth (IDC, 2025)

生成AIの推論需要急増がチップ市場を根本から再編しており、半導体サプライチェーンが企業AIコストの主要規定要因となっている。同時に、タスク複雑性に応じたモデル選択を経済学的に最適化するフレームワークが登場し、企業展開コストの合理化手法の整備が進みつつある。

💡 Takes · 2026-06-09

考察: HuggingFaceとarXivで中国機関(Tencent・清華大・上海交通大)が推論効率化・長文脈処理の最前線を牽引する現状は、コスト競争力と米国依存リスク分散を求める日本企業の調達判断を変え、2027年末までに日本の主要企業1社以上が中国起源LLM(DeepSeek・Qwen・Kimi等)を非機密業務の本番環境で公式採用・IR開示する事態を生む。

日本のAI本番稼働率はOECD最低水準(1.9%)であり、コスト障壁が最大要因のひとつ。推論効率で劣るOpenAI/Anthropicより50%以上安価な中国モデルは中小企業や予算制約部門に訴求する。FlashMemory-DeepSeek-V4(Tencent)等の論文は実用レベルのコスト優位を示しつつある。…

📚 Foundations · 2026-06-09

事実・基礎: Retrieval-Augmented Generation Market Size Report, 2030

RAGシステムは生成AI活用の中心技術として急拡大し、市場規模は2025年の19億ドルから2030年には102億ドル(年率40%成長)への伸びが見込まれる。「RAG vs ファインチューニング vs エージェント」の選択フレームワークと評価手法の整備が企業導入の基盤となりつつあり、Microsoftの試算では1ドル投資に対し3.7ドルの価値創出が報告されている。

📚 Foundations · 2026-06-09

事実・基礎: Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey

RAGシステムは生成AI活用の中心技術として急拡大し、市場規模は2025年の19億ドルから2030年には102億ドル(年率40%成長)への伸びが見込まれる。「RAG vs ファインチューニング vs エージェント」の選択フレームワークと評価手法の整備が企業導入の基盤となりつつあり、Microsoftの試算では1ドル投資に対し3.7ドルの価値創出が報告されている。

📰 Latest · 2026-06-09

最新情報: Cerebras Systems、2026年最大テックIPOを実施——55億ドル調達・初日108%急騰で時価総額660億ドルに

AIチップ設計のCerebras Systemsがナスダック上場初日に108%急騰し時価総額約660億ドルを達成。2025年売上510百万ドル(前年比76%増)、OpenAIと200億ドル超の複数年契約を締結済みで、NVIDIAに対抗するAI推論インフラ投資の流れを象徴するIPOとなった。

📚 Foundations · 2026-06-08

事実・基礎: 未解決の課題 — 2026-06-08

推論インフラ寡占化と日本AI産業競争力の因果分析:IDCが示す55億ドル超の国内AIインフラ投資急増が、実際の推論コスト低下・国産LLM品質向上・米国クラウド依存度にどう波及するかを定量追跡するフレームワークが未整備。 オープンウェイトモデル普及後の日本企業におけるAPIベンダー集中度変化:DeepSeek・Llama系モデルの品質向上が日本企業のOpenAI/Anthropic…

📚 Foundations · 2026-06-08

事実・基礎: The Inference Bottleneck: Antitrust and Neutrality Duties in the Age of Cognitive Infrastructure

基盤モデルプロバイダーから下流アプリ開発者へと続くサプライチェーンの経済均衡と、大規模推論インフラが「本質的施設」化するリスクを分析する新興研究領域。価格競争促進が逆効果になる条件や、FRAND型非差別義務の適用可能性を論じ、規制設計の複雑さを示す。

📚 Foundations · 2026-06-08

事実・基礎: State of AI: An Empirical 100 Trillion Token Study with OpenRouter

クローズドAPIビジネスの優位性が侵食される構造変化を、経済理論と実使用データの両面から捉えた研究群。オープンウェイトモデルの品質向上と推論コスト低下が、プロプライエタリモデルのビジネスモートをいかに崩すかを分析し、アプリ統合層への価値移転という帰結を示す。

📚 Foundations · 2026-06-08

事実・基礎: The End of the Foundation Model Era: Open-Weight Models, Sovereign AI, and Inference as Infrastructure

クローズドAPIビジネスの優位性が侵食される構造変化を、経済理論と実使用データの両面から捉えた研究群。オープンウェイトモデルの品質向上と推論コスト低下が、プロプライエタリモデルのビジネスモートをいかに崩すかを分析し、アプリ統合層への価値移転という帰結を示す。

📚 Foundations · 2026-06-07

事実・基礎: The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs (北京大学, 2025)

LLMのAPIマーケット規模は半年で35億ドルから84億ドルへ急拡大し、AnthropicのエンタープライズシェアがOpenAIを逆転(32% vs. 25%)。競争激化による価格下落と同時に、推論予算の最適配分という新たな研究領域も登場しており、リソース制約下でのLLM活用効率化がビジネス上の重要課題として浮上している。