1108组会:

  • 完成软著申请

  • 完成 开题PPT 修改

  • 完成 VC综述 论文整理

  • 尚未完成 开题综述 主体部分(花了较多时间看格式处理

  • 阅读《AiShell-3》论文:值得分享一个亮点(speaker-embedding-cycle-consistence Loss)


Boild-polit 数据集在15043上有?

image-20201108153938426


  • 前端:Tacotron

  • 后端:MelGAN

  • 🌟特点:在多说话人合成任务上,为了进一步增加相似度,提出了“speaker identity feedback constraint

  • 公式上体现:

    • image-20201108153543937
  • 部分,先预训练,然后在训练 Tacotron 的时候参数不再参与训练 Frozen


另一些亮点:

  1. Tacotron2 中,对长序列语音的合成,表现乏力;

    • 通常改进方法是:从 hybrid-attention mechanism 改进为 purely location-based attention mechanisms ,即 Attention 机制的改进

    • 但是这么弄,会使得 长句子的 韵律表现很差

    • 本文转用 data augmentation 数据增强 来处理长句子合成问题

    • 扩充后的数据用于微调收敛于原始数据集TTS模型

  2. 在语音合成任务中,之前较少看见 VAD 操作,一般在识别任务上用的比较多;

    • 本文在数据预处理上,用 基于能量谱的 VAD 来对训练集 语音开始部分的静音帧进行去除
    • 帮助加速后续的 优化对齐环节

🌟备注:

  1. 在公司里 && VCC2020中,很多队伍提到,用 24k 的生成效果比 16k 提升显著,本文是用16k,之后可从这个点做稍微提升

几种卷积类型辨析

1
2
3
4
conv = nn.Conv2d(in_channels=6, out_channels=6, kernel_size=1, groups=3)
conv.weight.data.size()

# output = torch.Size([6, 2, 1, 1])

一种分类方法:

几种卷积示意:(分组卷积 group_convolution;深度卷积 depthwise convolution; 全局深度卷积 global depthwise convolution

  1. groups 默认值为1, 对应的是常规卷积操作
  2. groups > 1, 且能够同时被in_channel / out_channel整除,对应group_convolution
  3. groups == input_channel == out_channel , 对应depthwise convolution,为条件2的特殊情况
  4. 在条件3的基础上,各卷积核的 H == input_height; W == input_width, 对应为 global depthwise convolution, 为条件3的特殊情况

另一种分类方法:主要分三类:正常卷积、分组卷积、深度分离卷积

阅读全文 »