🎮
AI VTuber Voice Communication System
リアルタイム音声対話AIキャラクターシステム。Next.js + VOICEVOX + VRM/VRMA レンダリングで構築した没入型AIアシスタント。
Next.jsAIWebRTCVRMVOICEVOXTypeScriptHono

Overview

Next.js + Hono + VOICEVOX + VRM/VRMA レンダリングで構築したリアルタイム AI VTuber システム。 テキスト入力または音声入力に対して、3D キャラクターが音声で応答するインタラクティブな AI アシスタント。

Architecture

User Input (text/voice)
  → Next.js Frontend (VRM rendering)
  → Hono API (Cloudflare Workers)
  → LLM (OpenAI / Gemini)
  → VOICEVOX (text-to-speech)
  → VRM character animation

Key Features

  • VRM/VRMA rendering — Three.js ベースの 3D キャラクター表示
  • VOICEVOX 統合 — 高品質な日本語 TTS
  • 会話履歴管理 — Jotai によるステート管理
  • RPG メッセージウィンドウ — ゲームライクな UI
  • i18n 対応 — 日本語/英語の切り替え

Technical Highlights

リアルタイム音声合成のレイテンシ最適化として、テキスト生成と音声合成をストリーミングでパイプライン処理。 VRM アニメーションと音声の同期を WebAudio API で制御。

Stack

  • Frontend: Next.js 15, TypeScript, Three.js, @pixiv/three-vrm
  • Backend: Hono, Cloudflare Workers
  • AI: OpenAI GPT-4, Gemini
  • TTS: VOICEVOX Engine
  • State: Jotai