音频数据建模全流程代码示例:通过讲话人的声音进行年龄预测(2)
- 2025-11-17 01:37:00
- aiadmin 原创
- 27
与此亲切联系的是灌音的长度。灌音越长,能说的单词就越众。因而盘算一下灌音的长度和单词被说出的速率。
3. 节拍说话是一种十分顺耳的信号,每个别都有本身特殊的谈话方法和语速。因而,能够提取的另一个特点是谈话的节拍,即正在音频信号中能够检测到的节奏数。
4. 基频基频是周期音响闪现时的最低频率。正在音乐中也被称为音高。正在之前看到的谱图图中,基频(也称为f0)是图像中最低的亮秤谌条带。而正在这个根基音之上的带状图案的反复称为谐波。为了更好地阐明确凿旨趣,下面提取基频,并正在谱图中画出它们。

正在 100 Hz 相近看到的绿线是根基频率。可是若何将其用于特点工程呢?能够做的是盘算这个 f0 的的确特点。
现正在咱们大白了音频数据是什么姿势以及若何打点它,让咱们对它举办适宜的 EDA。最先下载一个数据集Kaggle 的 Common Voice 。这个 14 GB 的大数据集只是来自 Mozilla 的 +70 GB 大数据集的一个小的疾照。看待本文这里的示例,将只操纵这个数据集的大约 9000 个音频文献的子样本。
除了 words_per_second,这些特点分散中的民众半都是右偏的,因而能够从对数转换中获益。

很众了,但兴趣的是 f0 特点相似都具有双峰分散。让咱们绘制与以前一样的内容,但此次按性别隔离。

正如困惑的那样,这里相似存正在性别效应!但也能够看到,少许 f0 分数(这里希奇是男性)比应有的低和高得众。因为特点提取不良,这些或许是特殊值。周详看看下图的所稀有据点。

鉴于特点的数目很少,并且有相当美丽的带有显明尾部的分散,能够遍历它们中的每一个,并逐一特点地确定特殊值截止阈值。下一步,看看扫数特点之间的联系性。但正在如此做之前必要对非数字方向特点举办编码。能够操纵 scikit-learn 的 OrdinalEncoder 来推广此操作,但这或许会破损年齿特点中的无误按次。因而正在这行家动举办照射。

十分兴趣!提取的 f0 特点相似与性别方向有相当强的合联,而年齿相似与任何其他的特点都没有太大的联系性。目前还没有查看实践灌音。正如之前看到的,有良众抉择(即波形或 STFT、mel 或 mfccs 频谱图)。音频样本的长度都分别,这意味着频谱图也会有分别的长度。因而为了准则化扫数灌音,最先要将它们剪切到正好 3 秒的长度:太短的样本会被填充,而太长的样本会被剪掉。一朝盘算了扫数这些频谱图,咱们就能够持续对它们推广少许 EDA!并且由于看到“性别”相似与灌音有特别的合联,因而判袂可视化两种性其余均匀梅尔谱图,以及它们的差别。

男性谈话者的均匀音响低于女性。这能够通过差别图中的较低频率(正在血色秤谌区域中看到)的更众强度来看出。
操纵 TensorflowHub 的预操练神经汇集举办特点提取,然后正在这些高级特点上操练浅层或深层模子
操纵TensorflowHub现有模子提取的高级特点,将它们与其他外格数据连合起来,并将其视为外格数据集
当然,有很众分别的格式和其他格式可认为筑模局限创筑数据集。由于咱们没有操纵全量的数据,因而正在本文咱们操纵最大略的机械练习模子。
这里操纵EDA获取数据,与一个大略的 LogisticRegression 模子连合起来,看看咱们能正在众大水准上预测谈话者的年齿。除此以外还操纵 GridSearchCV 来研究分别的超参数组合,以及推广交叉验证。

动作上述 DataFrame 输出的填充,还能够将职能得分绘制为研究的超参数的函数。可是由于操纵了有众个缩放器和 PCA ,因而必要为每个孤独的超参数组合创筑一个孤独的图。

正在图中,能够看到总体而言模子的显露同样优越。当低浸 C 的值时,有些会闪现更疾的“降低”,而另少许则显示操练和测试(这里实践上是验证)分数之间的差异更大,加倍是当咱们不操纵 PCA 时。

固然该模子也许检测到比其他模子更众的 20 岁样本(左混杂矩阵),但总体而言,它实践上正在对 10 岁和 60 岁的条款举办分类方面效益更好(比方,确凿率判袂为 59% 和 55%)。
正在这篇作品中,最先看到了音频数据是什么样的,然后能够将其转换成哪些分别的样子,若何对其举办算帐和研究,结尾若何将其用于操练少许机械练习模子。假若您有任何题目,请随时公布评论。结尾本文的源代码正在这里下载:作家:Michael Notter
| 联系人: | 王先生 |
|---|---|
| 电话: | 15640228768 |
| 微信: | 1735252255 |
| 地址: | 沈阳市铁西区兴华南街58-6号 |
-
思陌产品
深度学习系统产品介绍 -
使用帮助
使用手册 -
关于我们
公司简介 -
资讯反馈
交流论坛 -
联系我们
Tel 15640228768 QQ/WX技术支持 1735252255