从WAV文件解码DTMF

继我之前的问题之后，我的目标是从C＃中检测WAV文件中的DTMF音调。但是，我真的很难理解如何做到这一点。

我理解DTMF使用频率组合，并且可以使用Goertzel算法……不知何故。我抓住了一个Goertzel代码片段，我尝试将.WAV文件推入其中（使用NAudio读取文件，这是一个8KHz单声道16位PCM WAV）：

using (WaveFileReader reader = new WaveFileReader(@"dtmftest_w.wav")) { byte[] buffer = new byte[reader.Length]; int read = reader.Read(buffer, 0, buffer.Length); short[] sampleBuffer = new short[read/2]; Buffer.BlockCopy(buffer, 0, sampleBuffer, 0, read/2); Console.WriteLine(CalculateGoertzel(sampleBuffer,8000,16)); } public static double CalculateGoertzel(short[] sample, double frequency, int samplerate) { double Skn, Skn1, Skn2; Skn = Skn1 = Skn2 = 0; for (int i = 0; i < sample.Length; i++) { Skn2 = Skn1; Skn1 = Skn; Skn = 2 * Math.Cos(2 * Math.PI * frequency / samplerate) * Skn1 - Skn2 + sample[i]; } double WNk = Math.Exp(-2 * Math.PI * frequency / samplerate); return 20 * Math.Log10(Math.Abs((Skn - WNk * Skn1))); }

我知道我在做什么是错的：我假设我应该遍历缓冲区，并且一次只计算一小块的Goertzel值 – 这是正确的吗？

其次，我真的不明白Goertzel方法的输出告诉我的是：我得到一个双（例如： 210.985812 ）返回，但我不知道将其等同于DTMF音调的存在和值。音频文件。

我到处寻找答案，包括这个答案中引用的库; 遗憾的是，此处的代码似乎不起作用（如网站上的评论中所述）。 TAPIEx提供商业图书馆; 我已经尝试了他们的评估库，它完全符合我的需要 – 但他们没有回复电子邮件，这让我对实际购买他们的产品持谨慎态度。

当我可能不知道确切的问题时，我非常清楚我正在寻找答案，但最终我需要的是一种在.WAV文件中找到DTMF音调的方法。我是在正确的路线，如果没有，有人能指出我正确的方向吗？

编辑：使用@Abbondanza的代码作为基础，并且（可能是根本错误的）假设我需要滴入音频文件的小部分，我现在有了这个（非常粗略，只有概念validation））代码：

 const short sampleSize = 160; using (WaveFileReader reader = new WaveFileReader(@"\\mac\home\dtmftest.wav")) { byte[] buffer = new byte[reader.Length]; reader.Read(buffer, 0, buffer.Length); int bufferPos = 0; while (bufferPos  new { Frequency = f, Power = CalculateGoertzel(sampleBuffer, f, 8000) }); const double AdjustmentFactor = 1.05; var adjustedMeanPower = AdjustmentFactor*powers.Average(result => result.Power); var sortedPowers = powers.OrderByDescending(result => result.Power); var highestPowers = sortedPowers.Take(2).ToList(); float seconds = bufferPos / (float)16000; if (highestPowers.All(result => result.Power > adjustedMeanPower)) { // Use highestPowers[0].Frequency and highestPowers[1].Frequency to // classify the detected DTMF tone. switch (Convert.ToInt32(highestPowers[0].Frequency)) { case 1209: switch (Convert.ToInt32(highestPowers[1].Frequency)) { case 697: Console.WriteLine("1 pressed at " + bufferPos + " (" + seconds + "s)"); break; case 770: Console.WriteLine("4 pressed at " + bufferPos + " (" + seconds + "s)"); break; case 852: Console.WriteLine("7 pressed at " + bufferPos + " (" + seconds + "s)"); break; case 941: Console.WriteLine("* pressed at " + bufferPos); break; } break; case 1336: switch (Convert.ToInt32(highestPowers[1].Frequency)) { case 697: Console.WriteLine("2 pressed at " + bufferPos + " (" + seconds + "s)"); break; case 770: Console.WriteLine("5 pressed at " + bufferPos + " (" + seconds + "s)"); break; case 852: Console.WriteLine("8 pressed at " + bufferPos + " (" + seconds + "s)"); break; case 941: Console.WriteLine("0 pressed at " + bufferPos + " (" + seconds + "s)"); break; } break; case 1477: switch (Convert.ToInt32(highestPowers[1].Frequency)) { case 697: Console.WriteLine("3 pressed at " + bufferPos + " (" + seconds + "s)"); break; case 770: Console.WriteLine("6 pressed at " + bufferPos + " (" + seconds + "s)"); break; case 852: Console.WriteLine("9 pressed at " + bufferPos + " (" + seconds + "s)"); break; case 941: Console.WriteLine("# pressed at " + bufferPos + " (" + seconds + "s)"); break; } break; } } else { Console.WriteLine("No DTMF at " + bufferPos + " (" + seconds + "s)"); } bufferPos = bufferPos + (sampleSize*2); }

这是在Audacity中查看的示例文件; 我添加了按下的DTMF按键 –

在此处输入图像描述

并且…它几乎可以工作。从上面的文件中，我几乎不会看到任何DTMF，但是，我的代码报告：

 9 pressed at 1920 (0.12s) 1 pressed at 2880 (0.18s) * pressed at 3200 1 pressed at 5120 (0.32s) 1 pressed at 5440 (0.34s) 7 pressed at 5760 (0.36s) 7 pressed at 6080 (0.38s) 7 pressed at 6720 (0.42s) 5 pressed at 7040 (0.44s) 7 pressed at 7360 (0.46s) 7 pressed at 7680 (0.48s) 1 pressed at 8000 (0.5s) 7 pressed at 8320 (0.52s)

…直到它达到3秒，然后它开始稳定到正确的答案：按下了1 ：

 7 pressed at 40000 (2.5s) # pressed at 43840 (2.74s) No DTMF at 44800 (2.8s) 1 pressed at 45120 (2.82s) 1 pressed at 45440 (2.84s) 1 pressed at 46080 (2.88s) 1 pressed at 46720 (2.92s) 4 pressed at 47040 (2.94s) 1 pressed at 47360 (2.96s) 1 pressed at 47680 (2.98s) 1 pressed at 48000 (3s) 1 pressed at 48960 (3.06s) 4 pressed at 49600 (3.1s) 1 pressed at 49920 (3.12s) 1 pressed at 50560 (3.16s) 1 pressed at 51520 (3.22s) 1 pressed at 52160 (3.26s) 4 pressed at 52480 (3.28s)

如果我将AdjustmentFactor提升到超过1.2，我几乎得不到任何检测。

我觉得我差不多了，但有人能看出我错过了什么吗？

EDIT2：上面的测试文件可以在这里找到。上例中的adjustedMeanPower为47.6660450354638 ，权限为：

在此处输入图像描述

CalculateGoertzel()返回所提供样本中所选频率的功效。

计算每个DTMF频率（697,770,852,941,1209,1336和1477 Hz）的此功率，对得到的功率进行排序并选择最高的两个。如果两者都高于某个阈值，则检测到DTMF音调。

您用作阈值的方法取决于样品的信噪比（SNR）。首先，计算所有Goerzel值的平均值，将平均值乘以一个因子（例如2或3）就足够了，并检查两个最高的Goerzel值是否高于该值。

这是一个代码片段，以更正式的方式表达我的意思：

 var frequencies = new[] {697.0, 770.0, 852.0, 941.0, 1209.0, 1336.0, 1477.0}; var powers = frequencies.Select(f => new { Frequency = f, Power = CalculateGoerzel(sample, f, samplerate) }); const double AdjustmentFactor = 1.0; var adjustedMeanPower = AdjustmentFactor * powers.Average(result => result.Power); var sortedPowers = powers.OrderByDescending(result => result.Power); var highestPowers = sortedPowers.Take(2).ToList(); if (highestPowers.All(result => result.Power > adjustedMeanPower)) { // Use highestPowers[0].Frequency and highestPowers[1].Frequency to // classify the detected DTMF tone. }

从AdjustmentFactor 1.0 。如果您从测试数据中得到误报（即您在不应该有任何DTMF音调的样本中检测到DTMF音调），请继续增加它直到误报停止。

更新＃1

我在wave文件上尝试了你的代码并调整了一些东西：

在Goertzel计算之后，我实现了可枚举（对性能很重要）：

 var powers = frequencies.Select(f => new { Frequency = f, Power = CalculateGoertzel(sampleBuffer, f, 8000) // Materialize enumerable to avoid multiple calculations. }).ToList();

我没有使用调整后的平均值进行阈值处理。我只使用100.0作为阈值：

 if (highestPowers.All(result => result.Power > 100.0)) { ... }

我将样本量增加了一倍（我相信你使用了160 ）：

 int sampleSize = 160 * 2;

我修复了你的DTMF分类。我使用嵌套字典来捕获所有可能的情况：

 var phoneKeyOf = new Dictionary> { {1209, new Dictionary {{1477, "?"}, {1336, "?"}, {1209, "?"}, {941, "*"}, {852, "7"}, {770, "4"}, {697, "1"}}}, {1336, new Dictionary {{1477, "?"}, {1336, "?"}, {1209, "?"}, {941, "0"}, {852, "8"}, {770, "5"}, {697, "2"}}}, {1477, new Dictionary {{1477, "?"}, {1336, "?"}, {1209, "?"}, {941, "#"}, {852, "9"}, {770, "6"}, {697, "3"}}}, { 941, new Dictionary {{1477, "#"}, {1336, "0"}, {1209, "*"}, {941, "?"}, {852, "?"}, {770, "?"}, {697, "?"}}}, { 852, new Dictionary {{1477, "9"}, {1336, "8"}, {1209, "7"}, {941, "?"}, {852, "?"}, {770, "?"}, {697, "?"}}}, { 770, new Dictionary {{1477, "6"}, {1336, "5"}, {1209, "4"}, {941, "?"}, {852, "?"}, {770, "?"}, {697, "?"}}}, { 697, new Dictionary {{1477, "3"}, {1336, "2"}, {1209, "1"}, {941, "?"}, {852, "?"}, {770, "?"}, {697, "?"}}} }

然后检索电话密钥：

 var key = phoneKeyOf[(int)highestPowers[0].Frequency][(int)highestPowers[1].Frequency];

结果并不完美，但有些可靠。

更新＃2

我想我找出了问题，但现在不能自己试试。您无法将目标频率直接传递给CalculateGoertzel() 。必须将其标准化为以DFT箱为中心。在计算权力时尝试这种方法：

 var powers = frequencies.Select(f => new { Frequency = f, // Pass normalized frequenzy Power = CalculateGoertzel(sampleBuffer, Math.Round(f*sampleSize/8000.0), 8000) }).ToList();

此外，您必须使用205作为sampleSize ，以便最大限度地减少错误。

更新＃3

我重新编写了原型以使用NAudio的ISampleProvider接口，该接口返回标准化的样本值（ float在[-1.0; 1.0]范围内）。我还从头开始重写了CalculateGoertzel() 。它仍然没有经过性能优化，但在频率之间提供了更多，更明显的功率差异。当我运行你的测试数据时，没有更多的误报。我强烈建议你看看它： http ： //pastebin.com/serxw5nG

更新＃4

我创建了一个GitHub项目和两个NuGet包来检测实时（捕获）音频和预先录制的音频文件中的DTMF音调。

从WAV文件解码DTMF

从C＃关闭最小化/图标化过程

EWS托管API – 使用Html Body和Outlook 2013进行预约

如何将布尔值绑定到GridViewColumn复选框（有代码但不起作用）？

如何从C＃中的xml读取特定节点？

C＃中具有超时function的通用异步重试

重置DataTable中的AutoIncrement

从C＃调用PowerShell脚本中的特定函数

Nhibernate – 更新单个字段而不加载实体？

将字典序列化为数组（键值对）

Asp.Net MVC和ajax异步回调执行顺序