MomoryAI Real-time Stream Subtitles & Translation

アップデート情報

ももりーの進化と改善の記録。より良い配信体験を目指して。

3.1.0

2026-02-05

次世代エンジン：メディア＆VCモードの完全刷新

メディア音声モードとVCモードを、最新のWeb Speech API標準（`start(audioTrack)`）を使用する方式に完全刷新。タブ音声をオンデバイスSODAエンジンに直接渡すことで、高精度・ゼロコスト・低遅延を実現しました。
マイクモードで実績のある堅牢な自己修復アーキテクチャを全モードに適用し、`no-speech`エラー等による中断が発生しても、継続的に文字起こしを行うように安定性を大幅に向上させました。
APIキーの参照が古くなり、全モードで翻訳が停止する重大なバグを修正しました。また、VCモードで文字起こしが正しく表示されないバグも修正しました。
新しいアーキテクチャに合わせて、利用規約、ガイド、技術解説、FAQの全ドキュメントを更新し、より明確な手順と重要事項を追記しました。
廃止された高精度AIモード（Whisper）をUIから削除し、関連ファイルを全てクリーンアップ。コードベースとユーザー体験をシンプルにしました。

3.0.0

2026-02-03

マルチモード対応：Discordやブラウザ音声の翻訳が可能に

3つの入力モードを搭載しました：自分の声を届ける「マイク」、Discordやブラウザ音声を拾う「メディア」、自分と相手の両方を同時に翻訳する「コラボ（VC）」から選択可能です。
最新のブラウザ技術を活用した「Direct Media SODA」アーキテクチャを導入し、メディア音声の低遅延・高精度な書き起こしを実現しました。
会話履歴の保持件数を最適化し、AIがより文脈を汲み取れるように改善（有料版：最大60件、無料版：最大20件）。
新機能に合わせて、セットアップガイド、FAQ、技術的なこだわりを全面的に刷新・拡充しました。
メディア/コラボモードの利用に伴うプライバシーと著作権に関する免責事項を利用規約に追加しました。
書き起こし処理の共通化を行い、全モードにおいてシステム全体の安定性と応答の一貫性を向上させました。

2.3.0

2026-01-30

メディア翻訳 2.0 と高度な音声区間検出

「メディア翻訳モード（タブ音声）」を完全刷新しました。ブラウザ内Whisper AIパイプラインを採用することで、従来の直接ストリーミング方式と比較して精度が大幅に向上し、APIコストを削減しました。
新しい「スペクトルVAD（音声区間検出）」エンジンを実装。音の「トーン性（SFM）」を分析することで、BGMやノイズと人の声を賢く区別し、ゲームや映画の視聴中でも正確な文字起こしが可能になりました。
日本語音声に特化したVAD自動チューニングを追加し、日本語特有の語尾の消え入りや、囁くような話し方もしっかりとキャプチャできるように最適化しました。
メディアモードでもOBS WebSocket連携に対応し、タブの音声から生成された字幕をOBSのテキストソースへ直接送信できるようになりました。
ダッシュボードのプレビューUIを統一し、メディアモードでもマイクモードと同様に、文字起こし結果と翻訳結果の両方をリアルタイムで確認できるようになりました。

2.2.0

2026-01-22

SEOとリッチリザルトの最適化

Googleリッチリザルトに対応するため、WebSite、Organization、およびSoftwareApplicationの構造化データ（JSON-LD）を実装しました。
FAQページにFAQPageスキーマを追加し、検索結果に「よくある質問」が直接アコーディオン形式で表示されるようになりました。
全ページにパンくずリストを実装し、検索エンジンでの階層的なURL表示（momory.dev > ja > tech 等）をサポートしました。
sitemap.xmlとrobots.txtの自動生成を導入し、検索エンジンによるサイトの巡回効率とインデックス精度を向上させました。
日本語ページでのブランド表記を「ももりー」に統一し、国内検索結果における視認性と親しみやすさを強化しました。
FAQページのレイアウトを微調整し、他のドキュメントページとヘッダー位置が完全に一致するように改善しました。

2.1.0

2026-01-22

ドキュメントの拡充とナビゲーションの改善

ももりーの設計思想とアーキテクチャの詳細をランディングページとFAQに追加し、技術的な背景をより深く理解いただけるようにしました。
「適応型デバウンスアルゴリズム」の解説をTech InsightsとFAQに追加し、遅延と精度のバランスをどのように実現しているかを明文化しました。
言語をまたいだページ内アンカーへの対応を改善し、目的のセクションへよりスムーズに遷移できるようになりました。
内部リンクの構造を見直し、多言語環境下でのより一貫性のあるブラウジング体験を提供します。

2.0.0

2026-01-19

OBS WebSocket連携と配信体験の向上

OBS WebSocket連携を導入し、字幕をOBS内のテキストソースへ直接転送できるようになりました。これにより、ウィンドウキャプチャが不要となり、配信パフォーマンスと安定性が向上します。
ダッシュボードにOBSとの接続設定を管理する専用UIを追加しました。接続情報を入力するだけで、すぐに連携を開始できます。
新しいWebSocket連携（推奨）と、従来のウィンドウキャプチャ方式の両方について、詳細な手順を追って解説するセットアップガイドを刷新しました。
複数の翻訳言語をOBSのテキストソースで表示する際も、改行が正しく適用されるように対応しました。
接続管理の内部ロジックを改善し、より堅牢で信頼性の高い連携を実現しました。

1.4.1

2026-01-16

自己修復マイクと安定性の向上

マイクの「自己修復」機能を実装。システムのリソース負荷によって音声が中断されても、自動的にバックグラウンドで再起動し、キャプチャを継続します。
モバイルSafari向けの不要なページ自動リロード処理を削除し、ユーザー体験を向上させました。
FAQページを更新し、最新のOBS設定手順と、より具体的な将来の開発目標を記載しました。
API使用状況モニターがリアルタイムで更新されない問題を修正しました。
Open Graph画像の翻訳キーを修正し、SNSでタイトルや説明が正しく表示されるようにしました。

1.4.0

2026-01-16

FAQページの追加と音声認識の安定性向上

セルフサポートとトラブルシューティングのため、包括的な多言語FAQページを追加しました。
FAQページにスムーズスクロールナビゲーションとカテゴリ分類を導入し、ユーザー体験を向上させました。
「標準」音声認識エンジンの安定性をさらに向上させ、予期せぬ停止を防ぐように改善しました。
Open Graph(OG)画像生成の仕組みを共通化し、SNSでのシェア時に一貫性のある美しいプレビューが表示されるようにしました。
依存関係やCSS設定に関するビルドエラーを複数解決し、プラットフォームの信頼性を向上させました。

1.3.0

2026-01-15

高精度AIモードと応答性の向上

WebGPU版Whisperモデルを利用した「高精度AIモード」を導入し、非常に正確な音声書き起こしを実現しました。
AI書き起こしエンジンを再設計し、表示安定化のために設けていた1秒間のバッファを撤廃。より即時性の高い書き起こし体験を実現しました。
ブラウザネイティブのWeb Speech APIを活用することで、堅牢な音声区間検出（VAD）を実現し、安定性を大幅に向上させました。
「省電力モード」を実装：タブが非アクティブの際にUI更新を停止し、CPU負荷を軽減します。
マイク音量メーターの更新頻度を最適化し、ダッシュボードのパフォーマンスと応答性を改善しました。

1.2.0

2026-01-14

安定性とユーザー体験の向上

15秒ごとのハートビート監視を導入し、音声認識エンジンが沈黙した際の自動復帰を改善しました。
モバイルSafariで長時間バックグラウンドにした際の表示崩れを解決するため、復帰時の自動リロードを実装しました。
フィードバック通知の改善：色をオレンジに統一し、ポジティブなもののみを表示することで配信画面の視認性を高めました。
マイク入力がない時に音量バーが誤って100%表示されてしまう視覚的なバグを修正しました。
APIのセキュリティを強化：不正なリクエストや過大なデータからサーバーを保護するバリデーションを追加しました。
マイク開始時のハードウェアリセットロジックを調整し、キャプチャの安定性を向上させました。

1.1.0

2026-01-13

翻訳精度の向上とリアルタイム監視

API使用状況モニターを実装：RPM、TPM、RPDおよび概算費用をリアルタイムで確認できるようになりました。
無料枠の会話履歴制限を20行に拡大し、より文脈に沿った翻訳が可能になりました。
利用可能なトークン枠（TPM）を効率的に活用するようプロンプトを最適化し、翻訳の質を向上させました。
音声認識の言い直しやフィラー（あー、えーと）をAIがより適切に処理できるよう指示を改善しました。
オーバーレイ設定におけるURLパラメータの二重エンコードとCSSの競合を修正しました。

1.0.8

2026-01-13

ブランディングと透明性の向上

ブランディングの更新：新しいロゴ、モバイル最適化アイコン、プラットフォーム全体のデザイン調整を行いました。
動的OGP生成機能を実装：SNSでのシェア時に、全てのページが適切に表示されるようになりました。
アクセシビリティの向上：コントラスト比の改善や過度なアニメーションの抑制を行いました。
プライバシー関連の記述を拡充し、「サーバーにデータを保存しない」ポリシーをより明確に記載しました。
作成者ページのレイアウト修正と、アイコン類の更新により表示の一貫性を向上させました。

1.0.5

2026-01-13

プライバシー保護の強化：ローカルリレー

Service Workerを活用した「ローカルリレー」モードを実装：翻訳データをブラウザ内で完結してOBSへ転送します。
機密データがユーザーのローカル環境の外に出ない設計により、プライバシー保護を強化しました。
APIの状況に応じて品質と速度のバランスを調整する、適応型トークン管理機能を導入しました。
HSTS、X-Frame-Options、COOPヘッダーなどの導入により、プラットフォームの安全性を強化しました。

1.0.0

2026-01-12

ももりーリリース

プライバシー保護と低遅延を重視したAI字幕サービス「ももりー」を正式にリリースしました。
ダッシュボードをコンポーネント化し、保守性と信頼性を向上させました。
オーバーレイでの多言語表示に対応：複数言語への翻訳を垂直方向に並べて表示します。
フィードバック機能の初期実装：ユーザーのスタイルに合わせた翻訳の学習を開始しました。