什么是“时机”的正确方法？ SAPI TTS 中的音素（c#）？ (SpVoice.Phoneme()->streamPosition)

发布于 2024-12-31 22:38:49 字数 1157 浏览 1 评论 0原文

我的应用程序中存在下一个“问题”，我编写应用程序，其中有人会编写文本，SAPI TTS 将其翻译为语音，接下来我将处理输出 WAV。我需要的是有关音素的信息（输出 WAV 中的某个音素、语音说出的时间等）。好的，我使用了 SpVoice.Phoneme() 并添加了音素处理程序。好的，现在我可以获得持续时间等..但是在 SpVoice.Phoneme() 中是属性 StreamPosition 但我不知道这意味着什么..

来自 MSDN：

流位置
输出流中音素开始的字符位置。

我不明白它们是否意味着输出 WAV 中的“字节”位置（哪个字节是音素）..或输出 WAV 中的毫秒时间..或者这意味着什么？

例如，对于文本：

这已经很高了。这是低的。这很快。这很慢。

我得到 StreamPositions 值：

位置：0
位置：120
位置：2562
....
当前位置：143798
当前位置：147874
当前位置：151950

输出的 WAV 文件有 5.377098 秒，最后一个音素“ow”大约在 4.734 秒内被告知。输出的 WAV 文件有 237 568 字节。因此，属性 StreamPosition“147874”的值可能不是音素开始的字节。 “计时”也是如此（以毫秒为单位，因为 WAV 有 5.3 秒，但 151950 毫秒是 151,950 秒..所以这是关闭的..）。

那么 StreamPosition 是什么？（StreamPosition 中的值意味着什么？）

我真的需要准确捕获音素开始的时间。我用 DateTime.Now.Ticks/10000 尝试过。当用户单击开始翻译 TTS 的按钮时，我会保存此日期时间值，当某些处理程序捕获某些音素时，我会再次捕获该值。然后我将通过 currTime-startTime 获取该值。但这个“方法”并不那么精确。总有一些分歧。 SpVoice.Phoneme() 是否有一些“方法”或其他方法来获取有关音素开始时间的准确信息？如果没有，是否有更好的方法来获得更精确的时间（以毫秒为单位）？

对不起我的英语，真的感谢所有的答案和建议。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一世旳自豪 2025-01-07 22:38:49

好吧，我自己回答。我的学士教授给我发了一些他写的 C++ 代码。我最近 2 天读过它，现在我发现我是多么愚蠢。

所以我会回答..

属性StreamPosition实际上是输出流（可能是WAV）中的“咬”位置。

如果你想知道输出流中的毫秒位置，你需要编写如下内容：

(int)StreamPosition/(double)wavFileFormat_samplesPerSec/((double)wavFileFormat_BitsPerSample/8)

因此您需要找到有关输出流的信息，如bitsPerSample、SamplesPerSec，然后您将获得毫秒计时。

回复收藏 0 原文

北方的巷 2025-01-07 22:38:49

1）我不知道你如何将输出保存到wav文件，但文件大小
237 568bytes 比正常情况大（如果采样率为 16khz），因为 5.377098 秒的 wav 文件的文件大小

为 5.377098*16000*2 = 172067 字节 + 标头（44 字节），

所以，我认为你的wav 文件也包含音素事件。

2)TTS 需要时间来生成输出，所以你不能以这种方式计时，我建议你：

2.1) 记录音素事件，就像你可能已经在 1

You can also refer to Windows SDK

C:\Program Files\Microsoft SDKs\Windows\v7.1\ 中所做的那样Samples\winui\speech\ttsapplication

           if (SUCCEEDED(hr))
        {
        //  OriginalFmt.WaveFormatExPtr()->nSamplesPerSec;
            hr = SPBindToFile( m_szWFileName, SPFM_CREATE_ALWAYS, &cpWavStream, &OriginalFmt.FormatId(), OriginalFmt.WaveFormatExPtr(),SPFEI_ALL_TTS_EVENTS); 
        }
        if( SUCCEEDED( hr ) )
        {
            // Set the voice's output to the wav file instead of the speakers
            hr = m_cpVoice->SetOutput(cpWavStream, TRUE);

        }

2.2) 由其他事件（如流启动）计时 <= 我不太确定确切的名称。

在 Windows SDK 中：

    while (m_cpVoice->GetEvents(1, &event, &ul) == S_OK) 
        { 
            if (event.eEventId == SPEI_VISEME) 
            { 
                printf("v: %i\'",event.lParam); // viseme 
                printf("t: %i\'",event.wParam); // duration of viseme 
            } 
            else if (event.eEventId == SPEI_END_INPUT_STREAM) 
            { 

            } else if (event.eEventId == SPEI_START_INPUT_STREAM)
            {
            }
        }

但代码不是 C# 语言

1) I am not sure how you save the output to wav file,but the file size
237 568bytes is larger than normal(if sampling rate is 16khz), as file size for a 5.377098seconds wav file

is 5.377098*16000*2 = 172067 bytes + header(44 bytes)

so, I think your wav file contains phoneme event as well.

2)TTS take time to generate output so you can't timing in that way, I suggest you:

2.1)record the phoneme event as you may already done in 1

You can also refer to Windows SDK

C:\Program Files\Microsoft SDKs\Windows\v7.1\Samples\winui\speech\ttsapplication

           if (SUCCEEDED(hr))
        {
        //  OriginalFmt.WaveFormatExPtr()->nSamplesPerSec;
            hr = SPBindToFile( m_szWFileName, SPFM_CREATE_ALWAYS, &cpWavStream, &OriginalFmt.FormatId(), OriginalFmt.WaveFormatExPtr(),SPFEI_ALL_TTS_EVENTS); 
        }
        if( SUCCEEDED( hr ) )
        {
            // Set the voice's output to the wav file instead of the speakers
            hr = m_cpVoice->SetOutput(cpWavStream, TRUE);

        }

2.2)Timing by other event like stream start <= I am not so sure about the exactly name.

in Windows SDK:

    while (m_cpVoice->GetEvents(1, &event, &ul) == S_OK) 
        { 
            if (event.eEventId == SPEI_VISEME) 
            { 
                printf("v: %i\'",event.lParam); // viseme 
                printf("t: %i\'",event.wParam); // duration of viseme 
            } 
            else if (event.eEventId == SPEI_END_INPUT_STREAM) 
            { 

            } else if (event.eEventId == SPEI_START_INPUT_STREAM)
            {
            }
        }

But the code is not in C#

回复收藏 0 原文

~没有更多了~