第 3 章：人類感知與情感模擬

發布於 2026-03-18 17:17

# 第 3 章：人類感知與情感模擬 ## 3.1 情緒認知模型情緒認知是人機互動核心的一環，直接影響虛擬演員在情境中的真實感。其關鍵任務可分為 **感知**、**分類**、**映射** 三階段： 1. **感知**：從視覺、聽覺、觸覺等多模態感測器收集原始信號。 2. **分類**：將感測到的特徵映射至情緒標籤（如高興、悲傷、憤怒、驚訝、恐懼、平靜）。 3. **映射**：將情緒向量轉換為可直接應用於動畫、語音合成或行為生成的控制參數。 ### 主要演算法 | 類型 | 代表模型 | 優點 | 缺點 | |------|----------|------|------| | 監督式 | **CNN + LSTM** | 能同時捕捉空間與時間特徵 | 需要大量標籤資料 | | 生成式 | **Variational Auto‑Encoder (VAE)** | 可生成多樣化情緒表現 | 生成品質不易保證 | | 轉換式 | **EmotionGAN** | 可將單一情緒轉換為目標情緒 | 轉換失真風險 | > **案例**：AffectNet（≈ 1M 標註影像）與 RAVDESS（≈ 735 個語音錄音）為目前情緒研究的主流資料集。學術實驗常以 **ResNet‑50 + GRU** 取得 92% 的情緒分類準確率。 ## 3.2 肢體語言捕捉肢體語言提供情緒的非語言線索，對虛擬演員的動作生成尤為重要。 ### 常用感測技術 - **Depth camera (Intel RealSense, Azure Kinect)**：直接取得 3D 肢體關節坐標。 - **Marker‑less MoCap (OpenPose, MediaPipe)**：利用 RGB 影像即時估算關節。 - **IMU + Vision Fusion**：結合慣性測量單元提升高頻動作捕捉。 ### 預處理流程 python import mediapipe as mp mp_pose = mp.solutions.pose # 讀取影片幀 frame = cv2.imread('frame.jpg') # 轉成 RGB rgb_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB) # 推論 with mp_pose.Pose(static_image_mode=True) as pose: result = pose.process(rgb_frame) if result.pose_landmarks: landmarks = [(lm.x, lm.y, lm.z) for lm in result.pose_landmarks.landmark] # 進行標準化或姿勢正規化 ### 從姿勢到情緒利用 **pose‑to‑emotion mapping** 模型（如 Pose2Emotion）將關節角度與情緒向量相對應。常見做法： - 先將關節角度轉為 **骨架向量**（如 elbow‑to‑wrist）。 - 以 **SVM** 或 **Random Forest** 分類器進行情緒分類。實驗顯示，肢體姿勢的情緒辨識準確率可達 75%–80%。 ## 3.3 語音語調與情感傳遞聲音是情緒表達最直觀的渠道，包含 **音高、語速、強度、語調** 等特徵。 ### 典型特徵提取 | 特徵 | 公式 / 代表 | 目的 | |------|--------------|------| | MFCC | `log10(FFT)` | 音頻頻譜表示 | | Pitch | YIN / CREPE | 基頻變化 | | Energy | `∑|x[n]|^2` | 音量 | | Duration | `RNN` | 語速 | ### 模型示例 - **Tacotron‑2 + Emotion Embedding**：將情緒向量注入語音合成，生成富有情感的語音。 - **OpenSMILE + XGBoost**：用於情緒分類，準確率約 88%。 > **實務提醒**：在多語言環境下，語音特徵的跨語言一致性需要透過 **speaker‑agnostic embeddings**（如 VoiceID）進行調整。 ## 3.4 情感生成模型在虛擬演員中，情感生成並非單純輸出情緒類別，而是需產生 **可執行的行為指令**（動畫 blend‑shape、語音 pitch curve 等）。 ### 生成框架 1. **Emotion‑driven Motion Capture (Emotion‑MC)**：將情緒向量映射至 3D 動作控制參數。實作可透過 **GAN‑based motion synthesis**。 2. **Emotion‑driven Speech Synthesis (Emotion‑TTS)**：利用 **FastSpeech‑2 + emotion token**，在語音合成中加入情緒。 3. **Emotion‑aware Dialogue System**：結合 **Emotion‑aware LSTM** 生成情緒化文字回應。 ### 參考架構 mermaid flowchart TD A[Emotion Vector] --> B[Emotion‑MC] B --> C[Blend‑Shape Controller] A --> D[Emotion‑TTS] D --> E[Speaker Voice] A --> F[Emotion‑LSTM] F --> G[Text Output] ## 3.5 實務應用與評估指標 ### 評估指標 | 指標 | 量化方式 | 典型數值 | |------|----------|----------| | **情緒準確率** | `Accuracy` | 80%–90% | | **感情一致性** | `KL Divergence`（預期 vs 生成） | < 0.1 | | **人機互動自然度** | `User Study (Likert 5‑scale)` | 4.2/5 | | **系統延遲** | `ms` | < 200ms | ### 案例 - **Netflix 虛擬導演**：將情緒生成模型嵌入影片剪輯，提升觀眾沉浸感。 - **教育平台**：使用情感化虛擬導師引導學生，學習成效提升 15%。 ### 挑戰與對策 | 挑戰 | 對策 | |------|------| | **跨文化情緒差異** | 建立多語言情緒標註集，並使用 **domain adaptation** | | **數據隱私** | 實施 **Federated Learning** 以保留本地資料 | | **偏見風險** | 定期審核情緒模型，採用 **fairness‑aware training** | ## 小結人類感知與情感模擬是虛擬演員能否真正「感」的關鍵。透過多模態感知、先進的分類與生成模型，並結合嚴謹的評估與治理機制，我們能打造出能在不同情境中自然表達情感、並被人類接受的虛擬角色。 > **實作練習**：使用 **MediaPipe Pose** 與 **FastSpeech‑2**，在 5 分鐘內完成一段「喜悅」情緒的肢體 + 朗讀表現，並將其輸出為一個簡易的 3D 動畫片段。

第八章：建立你自己的 AI 虛擬生態系