MoeGoe 理论及其之后的周边

前言

弄一个 TTS 的想法在好几个爱好领域都产生过，最初是看到了 Real-Time-Voice-Cloning ，再往后推可能是折腾 VNR 的时候，最近一次则是在福吧刷到的宁宁小剧场（1）。

顺藤摸瓜，看了纸片人与机器学习列表的 4 条视频之后，决定开干。

其实有了 GUI，操作非常简单，打开 GUI 然后选择 MoeGoe.exe 和模型配置文件就好了。

直接在「文本」右侧的文本框输入内容，唯一需要注意的就是要在中/日文两端加上 [ZH]/[JA] 进行区分。

[ZH]你是我的[ZH][JA]おにちゃん[JA][ZH]吗？[ZH]

~~PS：试了一下 1.1.0 版本更新的功能，双击文本框打开高级模式，可以编辑文本和声调。没成功，不知道为啥~~ 因为 1.2.0 版更新改成右击了。

一些隐藏操作:

需要对文本进行预处理

非常简单，下载 japanese_g2p，然后直接运行下面的命令就可以转换成带语调和分词的罗马字：

.\japanese_g2p.exe -rsa 授業中に出したら、学生生活終わるなり

不过需要注意，可执行文件路径不能包含中文。

更进一步的说明（虽然也没详细多少），可以查看基于 VITS 的中日双语模型尝试（day1-2）。

没实际试过，根据基于 VITS 的韩语语音合成的说法，需要以下几步：

~~好麻烦，快跑~~