告别繁琐!偏语言学专业的语音学实验入门与Praat长音频切分指南

2026-05-21 88 次阅读
Praat 语音学实验 长音频切分 田野语音学 自动标注

告别繁琐!偏语言学专业的语音学实验入门与Praat长音频切分指南

系列说明:本系列旨在为偏语言学专业的研究者梳理一套清晰、好上手的语音学实验操作流程。上篇聚焦于「实验准备、录音规范以及如何将成批录制的长音频高效切分」,帮助大家打好数据处理的第一步基础。

前言

近期在公众号更新了几篇关于“如何从 Praat 标注的 TextGrid 文件中提取数据”的脚本和教程,发现有不少朋友在后台私信,询问更细节的实验操作。

这让我产生了一个想法:把结合 Praat 进行语音学实验研究的常用步骤完整地整理出来。

从事语音研究的朋友,很大一部分是语言学专业出身,对软件、脚本的掌握可能不如工科学生那么快。如果是一个工科背景的人,可能又不屑于看太繁琐的基础说明。因此,本文专门针对偏语言学专业的研究者,力求用最通俗的语言,让大家在进行实验时不再纠结于技术细节,快速完成自己的研究。

准备工作:Praat 的基本操作

Praat 目前已经成为最流行的语音处理软件,使用非常方便。网上有很多优秀的教程,其中最著名的当属中国社科院语言研究所熊子瑜老师的《Praat 语音软件使用手册》(2004版)。大家可以直接去语言所官方网站免费下载,千万不要轻信个别网站的信息去付费购买。

在这里,我只提几个实验中最核心、最基础的操作:

1. 打开文件

打开 Praat 软件,点击顶部菜单的 Open -> Read from file...,找到你电脑中对应的声音文件(.wav)或标注文件(.TextGrid)打开即可。

2. 创建空白标注文件(TextGrid)

声音文件读入后,在右侧的对象窗口选中它,点击 Annotate -> To TextGrid...

提示:在这里需要提前规划好你要标注几层信息(Tiers)。通常我们会设置音素层(phone)、音节/字词层(syllable/word)或者韵律层(prosody)。多层设置可以用空格隔开,例如输入 phone syllable

3. 进入标注界面

在对象列表中,同时选中声音文件(Sound)和刚刚创建的标注文件(TextGrid),点击右侧的 View & Edit 按钮,就可以进入语图界面了。

标注时,我们需要一边听辨边界,一边观察语谱图(Spectrogram)的特征,来确定音素或音节的起止点。

4. 开启特征线

如果你在语图中看不到基频线、共振峰或音强线,可以点击语图窗口上方菜单的 Show pitch(显示基频)、Show formant(显示共振峰)或 Show intensity(显示音强)来开启。

5. 保存标注

标注完成后,一定记得点击 Praat 主窗口的 Save -> Save as text file...,将标注文件保存为 文件名.TextGrid 格式。


第一步:录音阶段的规范与痛点

语音学实验离不开录音。虽然录音的设备和环境有很多选择,本步至关重要,它直接决定了你后续提取数据的质量。

录音环境:实验室 vs 田野调查

录音场景 环境特点 优缺点分析 应对策略
专业录音棚 极低背景噪声、无回音 :高保真,数据最干净
:条件受限,发音人很难请到实验室
理论上推荐所有录音都在统一的专业录音棚进行。
田野语音学
(偏远方言调查)
环境嘈杂、伴随生活底噪 :能获取一线、地道的方言口语
:噪声大,后期处理极度干扰
携带抗噪性较好的便携设备(可咨询记者类专业人员)。或者用笔记本外接一个相对专业的外置声卡+电容话筒

⚠️ 录音文件的核心细节

  1. 格式选择:必须保存为 .wav 格式(无损压缩),绝对不要使用 .mp3 等经过有损压缩的格式。
  2. 采样率:采样率(Sampling Rate)一般要求在 16,000 Hz (16K) 以上,方言或辅音研究通常推荐 44,100 Hz。推荐使用 CoolEdit 或 Adobe Audition 软件进行个人电脑录音。
  3. 录音方式的艺术:你的实验材料往往成批出现(几十个字词、甚至上千个句子)。
  4. 笨办法:录完一个词(如“开始”),停一下,保存为 Test001_开始.wav,再录下一个。如果录上千个,发音人会彻底崩溃。
  5. 聪明办法:给发音人提供一个字词列表,让他保持匀速、一直读下去。我们最终得到一个几分钟甚至几十分钟的“长音频”,后续再进行切分。

注意:使用聪明办法的前提是,发音人在朗读时,每个词/句之间要有足够且清晰的停顿(静音段),绝对不能粘连在一起。


第二步至第五步:长音频的切分与标注工作流

当我们拿到一段连续录制的长音频后,接下来的核心任务是:将其切碎、标注、并校对。

第二步:长音频切分

如果你用笨办法,在 CoolEdit 里人工手动选择、一句句另存为,几千个文件下来一定会头晕眼花,极易出错。
* 推荐方案:利用 Praat 脚本根据声音之间的静音段进行自动识别切分。

参考博文《Praat将连续录制的声音文件切成小单位文件》

第三步:自动语音标注(对齐)

切分好成百上千个小音频后,如果全部纯手工从头标注,工作量过于巨大。
* 推荐方案:借助自动语音标注与音段对齐软件(如 SPPAS)。目前该软件在汉语、英语、法语上的切分对齐表现较为成熟。通过文本与音频的匹配,它能自动帮你跑出一版初版的 TextGrid 边界。

参考博文《语音标注自动音段对齐工具SPPAS使用笔记》

第四步与第五步:人工标注微调

由于软件自动标注的准确率有限(尤其方言或特殊语速),我们必须进行人工干预。
* 推荐方案:不要直接从零手打边界。推荐使用“自动标注跑出初版 -> 人工仔细调整边界”的工作流。
* 提效工具:为了避免在 Praat 里频繁地“打开wav、打开TextGrid、连选编辑、保存”这种套路化操作,我编写了一个辅助标注工具,可以在 Praat 环境下自动流转文件,并在标注完成后自动保存。

参考博文《辅助Praat进行标注的工具》


实验进阶:声学参数提取与作图

当你的音频全部切分并精准标注好 TextGrid 之后,就可以进入最激动的“提取数据”阶段了。这也是语音学实验输出成果的关键:

  • 第七步:提取基频(F0)与时长
    声调研究的核心。通过脚本批量提取每个字词的基频曲线和时长,归一化后即可绘制声调图。

    《Praat脚本提取时长及基频并示例如何绘制声调图》

  • 第八步与第九步:提取共振峰(Formant)与元音图
    元音学研究的核心。批量提取元音稳态处的第一共振峰(F1)和第二共振峰(F2),用来绘制科学的声学元音图。

    《Praat脚本提取时长及共振峰并绘制声学元音图》

  • 第十一步:汉字声调图绘制
    结合第七步的数据,将传统的五度标记法与声学基频相结合,输出美观的汉字声调图。


资源与技术支持

本站所有的 Praat 脚本均已托管至 GitHub,本站不再单独提供更新。请大家移步开源仓库获取最新、最稳定的代码。

  • 代码下载:可以使用 git clone 到本地,也可以点击页面上的 Code -> Download ZIP 下载整个脚本目录直接使用。
  • GitHub 仓库Praat_Scripts (feelins)
  • 互动交流:关于脚本的使用咨询、功能修改或定制需求,欢迎关注微信公众号并加入官方 QQ 咨询群联系群主。

版权说明

  1. 本文版权归微信公众号 「极地语音工作室」 (原名“语音处理小站”)所有;
  2. 未经本站或者作者书面允许,不得任意转载本文内容,否则将视为侵权;
  3. 转载或者引用本文内容请务必注明来源及原作者;
  4. 对于不遵守此声明或者其他违法使用者,本人依法保留追究法律责任的权利。

关注公众号「极地语音工作室」,让语言学实验技术不再成为你的科研绊脚石。