1.测试 gpu 可用性

1
2
3
4
5
6
import torch
import os
os.environ['CUDA_VISIBLE_DEVICES']='1'
print(torch.version.cuda)
print(torch.__version__)
print(torch.cuda.is_available())
1
2
3
4
5
import tensorflow as tf
import os
os.environ['CUDA_VISIBLE_DEVICES']='0'
import time
tf.test.is_gpu_available()

1
conda install -c conda-forge librosa
1
2
conda install tensorflow-gpu==1.9.0  # 自动带cudatoolkit
# 版本匹配信息:https://www.tensorflow.org/install/source#common_installation_problems

1
CUDA_VISIBLE_DEVICES="1" python train1.py
1
CUDA_VISIBLE_DEVICES="1" python train1.py timit -gpu 1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
a = torch.randn(10000, 1000)
b = torch.randn(1000, 2000)

t0 = time.time()
c = torch.matmul(a, b)
t1 = time.time()
print(a.device, t1 - t0, c.norm(2))

device = torch.device('cuda')
a = a.to(device)
b = b.to(device)

t0 = time.time()
c = torch.matmul(a, b)
t2 = time.time()
print(a.device, t2 - t0, c.norm(2))

t0 = time.time()
c = torch.matmul(a, b)
t2 = time.time()
print(a.device, t2 - t0, c.norm(2))

2.

1
2
3
4
5
6
7
8
9
10
conda -V 
conda info
conda config --get channels
conda config --show
vim ~/.condarc

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/

conda config --remove-key channels

3. 批处理文件改后缀

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import os
import sys

BASE = "/Users/huangshengjie/Desktop/TEST/" # 所有文件的根目录

for root, dirs, files in os.walk(BASE):
if len(files) > 0: # 如果此目录有文件
for file in files: # 遍历此目录下的每一个文件
if file.find(".WAV") != -1: # 如果文件名中包含c2字样
new_file = file.replace(".WAV", ".wav") # 则将其改成c1
try:
os.chdir(root) # 修改之前将当前工作目录切换到文件所在目录,否则os.rename会失败
os.rename(file, new_file) # 调用操作系统的重命名功能
except OSError as e:
print (e)
quit(2)

参考文章

  1. 下载sox-14.4.1.tar.gz

🌟(不能简单通过pip install 来安装)

  1. 安装sox文件

  1)解压  tar -zxvf sox-14.4.1.tar.gz

  2)进入sox14.4.1目录中执行./configure

1
2
./configure --prefix=/ssd3/other/huangsj/sox_install
# 加上prefix,在自定义目录安装,不然机器环境太乱,会找不到

  3)执行 make命令

  4)执行make install命令

  1. 添加环境变量
1
2
3
4
5
vim ~/.bash_profile

export PATH=/ssd3/other/huangsj/sox_install/bin:$PATH

source ~/.bash_profile
  1. ok,再来运行一下 librispeech ./run.sh

1108组会:

  • 完成软著申请

  • 完成 开题PPT 修改

  • 完成 VC综述 论文整理

  • 尚未完成 开题综述 主体部分(花了较多时间看格式处理

  • 阅读《AiShell-3》论文:值得分享一个亮点(speaker-embedding-cycle-consistence Loss)


Boild-polit 数据集在15043上有?

image-20201108153938426


  • 前端:Tacotron

  • 后端:MelGAN

  • 🌟特点:在多说话人合成任务上,为了进一步增加相似度,提出了“speaker identity feedback constraint

  • 公式上体现:

    • image-20201108153543937
  • 部分,先预训练,然后在训练 Tacotron 的时候参数不再参与训练 Frozen


另一些亮点:

  1. Tacotron2 中,对长序列语音的合成,表现乏力;

    • 通常改进方法是:从 hybrid-attention mechanism 改进为 purely location-based attention mechanisms ,即 Attention 机制的改进

    • 但是这么弄,会使得 长句子的 韵律表现很差

    • 本文转用 data augmentation 数据增强 来处理长句子合成问题

    • 扩充后的数据用于微调收敛于原始数据集TTS模型

  2. 在语音合成任务中,之前较少看见 VAD 操作,一般在识别任务上用的比较多;

    • 本文在数据预处理上,用 基于能量谱的 VAD 来对训练集 语音开始部分的静音帧进行去除
    • 帮助加速后续的 优化对齐环节

🌟备注:

  1. 在公司里 && VCC2020中,很多队伍提到,用 24k 的生成效果比 16k 提升显著,本文是用16k,之后可从这个点做稍微提升