语音合成
语音合成是通过机械完成的、用电子方法产生人工声音的技术。TTS技术(也称为文本到语音转换技术)隶属于语音合成。语音合成是由计算机自己生成的、或者从外部输入可理解文本信息、流利的中文口语输出技术。
基本结构
1)语言学处理
它在文语转换系统中起着重要的作用,主要模拟人类理解自然语言的过程、词的切分、语法分析和语义分析使计算机能够全面理解输入的文本,并给出后两部分所需的各种发音提示。
2)韵律处理
规划合成语音的段特征,如音高、声音长度和强度使合成的语音正确表达意思,听起来更自然。
3)声学处理
根据前两部分处理结果的要求输出语音,即合成语音。
合成方法
1. 共 振 峰 合 成
----语 音 合 成 的 理 论 基 础 是 语 音 生 成 的 数 学 模 型。该 模 型 语 音 生 成 过 程 是 在 激 励 信 号 的 激 励 下,声 波 经 谐 振 腔(声 道),由 嘴 或 鼻 辐 射 声 波。因 此,声 道 参 数、声 道 谐 振 特 性 一 直 是 研 究 的 重 点。在 图1 所 示 的 某 一 语 音 的 频 率 响 应 图 中,标 有Fp1、Fp2、Fp3 … … 处 为 频 率 响 应 的 极 点,此 时,声 道 的 传 输 频 率 响 应 有 极 大 值。习 惯 上,把 声 道 传 输 频 率 响 应 上 的 极 点 称 之 为 共 振 峰,而 语 音 的 共 振 峰 频 率(极 点 频 率)的 分 布 特 性 决 定 着 该 语 音 的 音 色。
----音 色 各 异 的 语 音 具 有 不 同 的 共 振 峰 模 式,因 此,以 每 个 共 振 峰 频 率 及 其 带 宽 作 为 参 数,可 以 构 成 共 振 峰 滤 波 器。再 用 若 干 个 这 种 滤 波 器 的 组 合 来 模 拟 声 道 的 传 输 特 性(频 率 响 应),对 激 励 源 发 出 的 信 号 进 行 调 制,再 经 过 辐 射 模 型 就 可 以 得 到 合 成 语 音。这 就 是 共 振 峰 合 成 技 术 的 基 本 原 理。基 于 共 振 峰 的 理 论 有 以 下 三 种 实 用 模 型。
级 联 型 共 振 峰 模 型 在 该 模 型 中,声 道 被 认 为 是 一 组 串 联 的 二 阶 谐 振 器。该 模 型 主 要 用 于 绝 大 部 分 元 音 的 合 成。
----并 联 型 共 振 峰 模 型 许 多 研 究 者 认 为,对 于 鼻 化 元 音 等 非 一 般 元 音 以 及 大 部 分 辅 音,上 述 级 联 型 模 型 不 能 很 好 地 加 以 描 述 和 模 拟,因 此,构 筑 和 产 生 了 并 联 型 共 振 峰 模 型。
----混 合 型 共 振 峰 模 型 在 级 联 型 共 振 峰 合 成 模 型 中,共 振 峰 滤 波 器 首 尾 相 接;而 在 并 联 型 模 型 中,输 入 信 号 先 分 别 通 过 幅 度 调 节 再 加 到 每 一 个 共 振 峰 滤 波 器 上,然 后 将 各 路 的 输 出 叠 加 起 来。将 两 者 比 较,对 于 合 成 声 源 位 于 声 道 末 端 的 语 音(大 多 数 的 元 音),级 联 型 合 乎 语 音 产 生 的 声 学 理 论,并 且 无 需 为 每 一 个 滤 波 器 分 设 幅 度 调 节;而 对 于 合 成 声 源 位 于 声 道 中 间 的 语 音(大 多 数 清 擦 音 和 塞 音),并 联 型 则 比 较 合 适,但 是 其 幅 度 调 节 很 复 杂。基 于 此 种 考 虑,人 们 将 两 者 结 合 在 一 起,提 出 了 混 和 型 共 振 峰 模 型,如 图2 所 示。
事 实 上,上 述 三 种 共 振 峰 模 型 在 实 际 中 都 得 到 了 成 功 的 应 用。例 如:Fant 的OVE 系 统 就 采 用 了 级 联 型 的 共 振 峰 模 型;Holmes 合 成 器 采 用 的 是 并 联 型 的 共 振 峰 模 型;而 最 为 典 型 也 是 最 为 成 功 的Klatt 合 成 器 则 构 筑 在 混 合 型 共 振 峰 模 型 的 基 础 之 上。
----在 汉 语 语 音 合 成 方 面,研 究 人 员 研 制 出 了 一 些 基 于 共 振 峰 模 型 的 成 功 的 应 用 系 统。如 社 科 院 语 言 所 的 SIFS 合 成 器、中 科 院 声 学 所 的KX 1 系 统 中 基 于Holmes 的 并 联 型 共 振 峰 合 成 器 模 型,而 同 样 由 中 科 院 声 学 所 开 发 的 第 二 代 共 振 峰 合 成 器KX FSS 则 基 于Klatt 合 成 器。
----共 振 峰 模 型 是 基 于 对 声 道 的 一 种 比 较 准 确 的 模 拟,因 而 可 以 合 成 出 自 然 度 比 较 高 的 语 音,另 外 由 于 共 振 峰 参 数 有 着 明 确 的 物 理 意 义,直 接 对 应 于 声 道 参 数,因 此,可 以 容 易 利 用 共 振 峰 描 述 自 然 语 流 中 的 各 种 现 象,并 且 总 结 声 学 规 则,最 终 用 于 共 振 峰 合 成 系 统。
----但 是,人 们 同 时 也 发 现 该 技 术 有 明 显 的 弱 点。首 先 由 于 它 是 建 立 在 对 声 道 的 模 拟 上,因 此,对 于 声 道 模 型 的 不 精 确 势 必 会 影 响 其 合 成 质 量。另 外,实 际 工 作 表 明,共 振 峰 模 型 虽 然 描 述 了 语 音 中 最 基 本 最 主 要 的 部 分,但 并 不 能 表 征 影 响 语 音 自 然 度 的 其 他 许 多 细 微 的 语 音 成 分,从 而 影 响 了 合 成 语 音 的 自 然 度。另 外,共 振 峰 合 成 器 控 制 十 分 复 杂,对 于 一 个 好 的 合 成 器 来 说,其 控 制 参 数 往 往 达 到 几 十 个,实 现 起 来 十 分 困 难。
----基 于 这 些 原 因,研 究 者 继 续 寻 求 和 发 现 其 他 新 的 合 成 技 术。人 们 从 波 形 的 直 接 录 制 和 播 放 得 到 启 发,提 出 了 基 于 波 形 拼 接 的 合 成 技 术,LPC 合 成 技 术 和PSOLA 合 成 技 术 是 其 中 的 代 表。与 共 振 峰 合 成 技 术 不 同,波 形 拼 接 合 成 是 基 于 对 录 制 的 合 成 基 元 的 波 形 进 行 拼 接,而 不 是 基 于 对 发 声 过 程 的 模 拟。
LPC 参 数 合 成
----波 形 拼 接 技 术 的 发 展 与 语 音 的 编、解 码 技 术 的 发 展 密 不 可 分,其 中LPC 技 术(线 性 预 测 编 码 技 术)的 发 展 对 波 形 拼 接 技 术 产 生 了 巨 大 的 影 响。
----LPC 合 成 技 术 本 质 上 是 一 种 时 间 波 形 的 编 码 技 术,目 的 是 为 了 降 低 时 间 域 信 号 的 传 输 速 率。
----对 于 利 用LPC 合 成 技 术 来 进 行 汉 语 语 音 合 成 和 汉 语 文 语 转 换 的 研 究,中 科 院 声 学 所 在 这 方 面 做 了 大 量 的 工 作。1987 年,他 们 引 进 了 多 脉 冲 激 励LPC 技 术,1989 年 又 引 入 矢 量 量 化,之 后,1993 年,他 们 引 入 码 激 励 技 术,他 们 的 这 些 工 作 对 于LPC 合 成 技 术 在 汉 语 合 成 方 面 的 运 用 做 出 了 重 要 的 贡 献。
----LPC 合 成 技 术 的 优 点 是 简 单 直 观。其 合 成 过 程 实 质 上 只 是 一 种 简 单 的 解 码 和 拼 接 过 程。另 外,由 于 波 形 拼 接 技 术 的 合 成 基 元 是 语 音 的 波 形 数 据,保 存 了 语 音 的 全 部 信 息,因 而 对 于 单 个 合 成 基 元 来 说 能 够 获 得 很 高 的 自 然 度。
----但 是,由 于 自 然 语 流 中 的 语 音 和 孤 立 状 况 下 的 语 音 有 着 极 大 的 区 别,如 果 只 是 简 单 地 把 各 个 孤 立 的 语 音 生 硬 地 拼 接 在 一 起,其 整 个 语 流 的 质 量 势 必 是 不 太 理 想 的。而LPC 技 术 从 本 质 上 来 说 只 是 一 种 录 音 + 重 放,对 于 合 成 整 个 连 续 语 流LPC 合 成 技 术 的 效 果 是 不 理 想 的。因 此,LPC 合 成 技 术 必 须 和 其 他 技 术 相 结 合,才 能 明 显 改 善LPC 合 成 的 质 量。
----一 种 典 型 的 基 于 单 音 节 和VQLPC(矢 量 量 化 的LPC)技 术 的 文 语 转 换 系 统 原 理 图 如 图3 所 示。
(图)语音合成
2. PSOLA 合 成 技 术
----20 世 纪80 年 代 末 提 出 的PSOLA 合 成 技 术(基 音 同 步 叠 加 技 术)给 波 形 拼 接 合 成 技 术 注 入 了 新 的 活 力。PSOLA 技 术 着 眼 于 对 语 音 信 号 超 时 段 特 征 的 控 制,如 基 频、时 长、音 强 等 的 控 制。而 这 些 参 数 对 于 语 音 的 韵 律 控 制 以 及 修 改 是 至 关 重 要 的,因 此,PSOLA 技 术 比LPC 技 术 具 有 可 修 改 性 更 强 的 优 点,可 以 合 成 出 高 自 然 度 的 语 音。
----PSOLA 技 术 的 主 要 特 点 是:在 拼 接 语 音 波 形 片 断 之 前,首 先 根 据 上 下 文 的 要 求,用PSOLA 算 法 对 拼 接 单 元 的 韵 律 特 征 进 行 调 整,使 合 成 波 形 既 保 持 了 原 始 发 音 的 主 要 音 段 特 征,又 能 使 拼 接 单 元 的 韵 律 特 征 符 合 上 下 文 的 要 求,从 而 获 得 很 高 的 清 晰 度 和 自 然 度。
----如 何 将PSOLA 技 术 应 用 于 汉 语 文 语 转 换 系 统,国 内 许 多 学 校 和 科 研 单 位 对 此 进 行 了 大 量 广 泛 深 入 的 研 究。清 华 大 学、北 方 交 大、中 科 院 声 学 所 等 在 对PSOLA 技 术 研 究 的 基 础 上,先 后 开 发 出 了 基 于 波 形 拼 接 的 汉 语 文 语 转 换 系 统,并 且 对 于 如 何 进 一 步 完 善 该 技 术,如 何 进 一 步 改 善 合 成 语 音 的 自 然 度 等 都 提 出 了 一 些 具 体 措 施。
----PSOLA 技 术 保 持 了 传 统 波 形 拼 接 技 术 的 优 点,简 单 直 观,运 算 量 小,而 且 还 能 方 便 地 控 制 语 音 信 号 的 韵 律 参 数,具 有 合 成 自 然 连 续 语 流 的 条 件,得 到 了 广 泛 的 应 用。
----但 是,PSOLA 技 术 也 有 其 缺 点。首 先, PSOLA 技 术 是 一 种 基 音 同 步 的 语 音 分 析/ 合 成 技 术,首 先 需 要 准 确 的 基 因 周 期 以 及 对 其 起 始 点 的 判 定。基 音 周 期 或 其 起 始 点 的 判 定 误 差 将 会 影 响PSOLA 技 术 的 效 果。其 次,PSOLA 技 术 是 一 种 简 单 的 波 形 映 射 拼 接 合 成,这 种 拼 接 是 否 能 够 保 持 平 稳 过 渡 以 及 它 对 频 域 参 数 有 什 么 影 响 等 并 没 有 得 到 解 决,因 此,在 合 成 时 会 产 生 不 理 想 的 结 果。
LMA 声 道 模 型
----随 着 人 们 对 语 音 合 成 的 自 然 度 和 音 质 的 要 求 越 来 越 高,PSOLA 算 法 表 现 出 对 韵 律 参 数 调 整 能 力 较 弱 和 难 以 处 理 协 同 发 音 的 缺 陷,因 此,人 们 又 提 出 了 一 种 基 于LMA 声 道 模 型 的 语 音 合 成 方 法。这 种 方 法 具 有 传 统 的 参 数 合 成 可 以 灵 活 调 节 韵 律 参 数 的 优 点,同 时 又 具 有 比PSOLA 算 法 更 高 的 合 成 音 质。
----目 前,主 要 的 语 音 合 成 技 术 是 共 振 峰 合 成 技 术 和 基 于PSOLA 算 法 的 波 形 拼 接 合 成 技 术。这 两 种 技 术 各 有 所 长,共 振 峰 技 术 比 较 成 熟,有 大 量 的 研 究 成 果 可 以 利 用,而 PSOLA 技 术 则 是 比 较 新 的 技 术,具 有 良 好 的 发 展 前 景。
----过 去 这 两 种 技 术 基 本 上 是 互 相 独 立 发 展 的,现 在 许 多 学 者 开 始 研 究 它 们 两 者 之 间 的 关 系,试 图 将 两 者 有 效 地 结 合 起 来,从 而 合 成 出 更 加 自 然 的 语 流。例 如 清 华 大 学 的 研 究 人 员 进 行 了 将 共 振 峰 修 改 技 术 应 用 于PSOLA 算 法 的 研 究,并 用 于Sonic 系 统 的 改 进,研 制 出 了 具 有 更 高 自 然 度 的 汉 语 文 语 转 换 系 统。
3. 基于隐马尔可夫模型的语音合成
近年来,基于隐马尔可夫模型(HMM)的语音合成系统得到广泛的重视和应用。与一直以来语音合成方法的主流――基于大语料库的拼接合成方法相比,基于隐马尔可夫模型的语音合成系统优势在于系统结构简单,基本不需要任何语言学知识指导系统训练,构建时间短,构建过程基本不需要人工干预,而由于系统属于参数化合成方法,系统的合成结果灵活多变,可以很容易的应用于多个发音人,多种发音风格,多种情感表达的需求中。
基于HMM的语音合成方法主要分为两个阶段:训练阶段和合成阶段。首先对用于训练的语料进行参数提取(包括频谱参数和基频参数,本文用到的频谱参数为LSP线性频谱对参数)。HMM的观察向量可分为谱参数和基频参数两个部分,其中谱参数部分采用连续概率分布HMM进行建模,基频部分采用多空间概率分布HMM(MSD-HMM)进行建模。在合成阶段,首先对给定的待合成文本进行上下文分析,并将文本转换成模型的单元序列。然后根据基于HMM语音合成方法的参数生成算法,同时考虑语音参数的静态参数和动态参数,得到连续的目标语音参数序列,最后通过语音合成器合成出待合成语音。
基于HMM的语音合成方法虽然有系统易小型化、灵活多变等特点,但是和传统的拼接合成相比,还是有音质下降的缺点。传统的拼接合成方法由于是将真实的语音片段通过选音算法拼接在一起所以保留了原始语音片断的音质。而基于HMM的语音合成方法和其他的参数化语音合成方法一样,通过了一次语音编码解码的过程,不可避免的会造成合成音质的下降。另外,在HMM参数估计的过程中的统计方法使得频谱参数趋于平均化;同时,由于模型自身拓扑结构的限制,模型对频谱参数在时域方向变化的描述也存在局限性。这两种在频谱参数层上导致合成语音音质下降的现象本文称之为频域过平滑和时域过平滑。
为了解决这些问题,我们提出了基于离散HMM和连续HMM相结合的思路,这种方法在保持系统灵活性的同时,最大限度的保留了语音的声学特征,使得语音合成结果基本接近大语料的语音合成系统的清晰度。这一方法的合成结果不仅要优于传统HTS的合成结果,而且能够有效的在各种应用场合进行实际应用。