Phone-level speaker embedding based speaker adaptation method audio demo

OracleVocode: orignal acoustic feature re-resynthesized by vocoder
Xvec: use xvector as speaker embedding
UttEmb: use reference audios to get utterance level speaker embedding using reference encoder
Attentron: use reference audios to get frame level speaker embedding using attention based reference encoder
PhnEmb(proposed): use predictor to get phon level speaker embedding
+Adapt: also updating the LSTM in decode