第三章：人類感知與情感模擬

發布於 2026-02-22 10:26

# 第三章：人類感知與情感模擬在「虛擬演員」的世界裡，情感與感知是連結人機互動的核心。這一章將帶領讀者了解人類情緒、肢體語言與語音語調的生理機制、如何利用 AI 進行捕捉與重現，以及實作情感識別與生成的關鍵技術。 --- ## 1. 情感的多維度表徵 | 维度 | 典型特征 | 典型技术 | 主要数据来源 | |------|----------|----------|--------------| | 面部表情 | 微笑、皺眉、眨眼 | 1. OpenFace 2. MediaPipe Face Mesh | | 语音语调 | 音高、音量、语速 | 1. Kaldi 2. Praat | | 肢体动作 | 手势、姿势、步态 | 1. OpenPose 2. Human3.6M | | 语义情绪 | 关键词、语义倾向 | 1. BERT 2. GPT | > **關鍵概念**：情感往往是多模態的，單一模態的特徵不足以全面捕捉。多模態融合是提升情感辨識準確度的關鍵。 --- ## 2. 情感識別：從原始信號到數字標籤 ### 2.1 影像模態 python import cv2 import dlib # 1. 人臉檢測 face_detector = dlib.get_frontal_face_detector() # 2. 面部特徵點提取 predictor = dlib.shape_predictor('shape_predictor_68_face_landmarks.dat') # 3. 表情分類（簡化例子） model = torch.load('emotion_classifier.pt') model.eval() cap = cv2.VideoCapture(0) while True: ret, frame = cap.read() if not ret: break faces = face_detector(frame, 1) for face in faces: landmarks = predictor(frame, face) # 抽取 68 個特徵點向量 feature_vector = np.array([(p.x, p.y) for p in landmarks.parts()]).flatten() # 前向推論 with torch.no_grad(): logits = model(torch.tensor(feature_vector).float().unsqueeze(0)) pred = torch.argmax(logits, dim=1).item() print('Emotion:', ['Angry','Disgust','Fear','Happy','Sad','Surprise','Neutral'][pred]) cv2.imshow('Emotion', frame) if cv2.waitKey(1) & 0xFF == ord('q'): break cap.release() cv2.destroyAllWindows() ### 2.2 語音模態 > **Mel‑Spectrogram + CNN**：將語音信號轉為 Mel‑Spectrogram，並利用 CNN 進行情緒分類。 python import librosa import torch import torch.nn as nn class EmotionCNN(nn.Module): def __init__(self, num_classes=7): super().__init__() self.conv1 = nn.Conv2d(1, 16, kernel_size=3, padding=1) self.pool = nn.MaxPool2d(2, 2) self.conv2 = nn.Conv2d(16, 32, 3, padding=1) self.fc1 = nn.Linear(32 * 32 * 32, 128) self.fc2 = nn.Linear(128, num_classes) def forward(self, x): x = self.pool(torch.relu(self.conv1(x))) x = self.pool(torch.relu(self.conv2(x))) x = x.view(x.size(0), -1) x = torch.relu(self.fc1(x)) return self.fc2(x) # 讀取檔案 y, sr = librosa.load('audio.wav', sr=16000) # 轉為 Mel‑Spectrogram S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128) S_dB = librosa.power_to_db(S, ref=np.max) # 加載模型 model = EmotionCNN() model.load_state_dict(torch.load('emotion_cnn.pth')) model.eval() # 推論 input_tensor = torch.tensor(S_dB).unsqueeze(0).unsqueeze(0).float() with torch.no_grad(): logits = model(input_tensor) pred = torch.argmax(logits, dim=1).item() print('Emotion:', ['Angry','Disgust','Fear','Happy','Sad','Surprise','Neutral'][pred]) ### 2.3 多模態融合 | 融合策略 | 例子 | |----------|------| | **早期融合** | 直接將面部特徵、語音特徵拼接後送入單一分類器 | | **中期融合** | 分別訓練面部和語音模塊，然後在中間層做加權平均 | | **晚期融合** | 各模塊獨立推論，最後使用投票或置信度加權 | > **實務提醒**：多模態資料的同步同步是挑戰之一，必須確保時間戳對齊，否則可能造成融合失真。 --- ## 3. 情感生成：從標籤到表達 ### 3.1 表情生成 - **基於 GAN 的面部表情生成**：利用 CycleGAN 或 StyleGAN 生成目標情緒的面部圖像。 - **Conditional VAE**：在 VAE 的編碼器中加入情感類別作為條件，解碼器可產生多樣化的情緒表情。 python # Conditional StyleGAN (簡化範例) import torch import torch.nn as nn class CondStyleGAN(nn.Module): def __init__(self, latent_dim=128, num_emotions=7): super().__init__() self.fc = nn.Linear(num_emotions + latent_dim, 256) self.generator = nn.Sequential( nn.Linear(256, 512), nn.ReLU(), nn.Linear(512, 3*64*64), nn.Tanh() ) def forward(self, z, cond): x = torch.cat([z, cond], dim=1) x = torch.relu(self.fc(x)) return self.generator(x).view(-1,3,64,64) # 產生笑臉 z = torch.randn(1,128) cond = torch.zeros(1,7); cond[0,3]=1 # happy img = CondStyleGAN()(z, cond) # 顯示結果 import torchvision.transforms as T img = T.ToPILImage()(img.squeeze(0).cpu()) img.show() ### 3.2 語音情感調節 - **WaveGlow / Diffusion TTS**：結合聲音合成模型，透過輸入情感向量調節音高、節奏。 - **Prosody Transfer**：從「情緒化」語音片段提取 prosody feature，然後在 TTS 的 prosody 模塊注入。 ### 3.3 肢體語言生成 - **Motion Capture + Diffusion**：使用 3D Human Mesh diffusion 模型生成符合情緒的手勢或姿勢。 - **Reinforcement Learning (RL)**：在對話系統中設計情感‑導向的行動策略，例如使用 Proximal Policy Optimization (PPO) 讓虛擬演員在對話中自動選擇合適的手勢。 --- ## 4. 資料集、評估與偏差 | 資料集 | 主要特徵 | 代表模型 | 評估指標 | |--------|----------|----------|----------| | **FER‑2013** | 7 類情緒 | CNN / ResNet | Accuracy / F1 | | **IEMOCAP** | 語音 + 文字 | RNN / Transformer | Accuracy / Unweighted Average Recall (UAR) | | **CMU‑MOSI** | 文字情感 | BERT + Softmax | F1 | | **MPI‑I** | 肢體 + 表情 | Multi‑stream CNN | F1 | > **偏差源**：不同族群的面部特徵表情差異、語音的口音差異、文化差異的手勢解讀，皆可能在模型中造成偏差。 > **倫理提示**：情感生成模型若被惡意利用，可能造成「情感操縱」風險。建議在設計時加入透明度標籤與使用者同意機制。 --- ## 5. 實作要點：從捕捉到回饋 | 步驟 | 目標 | 技術堆疊 | |------|------|----------| | 1. 資料蒐集 | 連續同步影像、語音、動作 | RTMP / WebRTC | | 2. 特徵提取 | 64‑D 面部、64‑D 語音 | OpenFace、Librosa | | 3. 影像融合 | 早期或中期融合 | PyTorch MLP | | 4. 情感辨識 | 7‑類分類 | CNN / RNN | | 5. 生成模塊 | 表情 + 語音調節 | StyleGAN + Diffusion | | 6. 回饋迴圈 | 用戶評分 → 模型微調 | RL + Bayesian Optimization | > **落地案例**：某線上語音客服系統將「情緒檢測」作為先決條件，當系統辨識到使用者「沮喪」時，會自動降低對話節奏、提高語調柔和度，並在回應中插入慰藉式語句，實驗顯示用戶滿意度提升 15%。 --- ## 6. 小結 1. **情感是多模態的**：面部、語音、肢體與語義共同構成完整情緒表徵。 2. **捕捉技術多樣**：CNN、RNN、Transformer、GAN、VAE、Diffusion 等皆可應用。 3. **融合策略決定準確度**：早期、中期、晚期融合需根據資料同步性與計算成本做取捨。 4. **生成模塊可實現即時情緒表達**：條件式 GAN / VAE + TTS 能在虛擬演員中產生自然情感。 5. **倫理與偏差考量**：資料偏差、隱私、情感操縱風險需在模型設計與部署中得到充分處理。 > **實務延伸**：下一章將聚焦於如何將上述情感感知與生成技術落地到實際的「虛擬演員」對話系統，並探討跨平台部署與用戶體驗優化。

第二章模型設計：從神經網路到人格建構

第四章：互動式虛擬角色的設計與實作