李勝研究業績一覧 | T2R2 東京科学大学リサーチリポジトリ

ヘルプ

李勝研究業績一覧 (134件)

論文

Kai Wang, Lili Yin, Sheng Li, Madina Mansurova, Hao Huang.. Neural TTS-based Dynamic Data Augmentation for Improved Speech Separation., IEEE Trans. Audio, Speech \& Language Process. (TASLP), Dec. 2025.
Longfei Yang, Jiyi Li, Sheng Li, Takahiro Shinozaki. Multi-Domain Dialogue State Tracking with Large Language Model Rationale and Disentangled Domain-Slot Attention, IEEE Trans. Audio, Speech \& Language Process. (TASLP), Dec. 2025.
Chin Yuen Kwok, He Xin Liu, Jia Qi Yip, Sheng Li, Eng Siong Chng. A Two-Stage LoRA Strategy for Expanding Language Capabilities in Multilingual ASR Models., IEEE Trans. Audio, Speech \& Language Process. (TASLP), Dec. 2025.
Sheng Li. Robust Voice Activity Detection Using an Auditory-Inspired Masked Modulation Encoder Based Convolutional Attention Network., Speech Communication (SPEECH COMMUN), Vol. 157, No. 103024, Oct. 2024.
Sheng Li, Jiyi Li, Yang Cao. Phantom in the Opera: Adversarial Music Attack for Robot Dialogue System., Frontiers in Computer Science, section Human-Media Interaction, Vol. 6, Mar. 2024.
Sheng Li, Jiyi Li, Chenhui Chu. Voices of the Himalayas: Benchmarking Speech Recognition Systems for the Tibetan Language., International Journal of Asian Language Processing, Vol. 34, No. 1, pp. pp. 2450001, Feb. 2024.
Zhengdong Yang, Shuichiro Shimizu, Chenhui Chu, Sheng Li, Sadao Kurohashi. End-to-end Japanese-English Speech-to-text Translation with Spoken-to-Written Style Conversion., Journal of Natural Language Processing, Vol. 31, No. 3, Jan. 2024.
Shen Qiao, Cuicui Zhang, Xuefeng Zhang, Kai Zhang, Hao Shi, Sheng Li, Hao Wei. Tendency-and-attention-informed deep learning for ENSO forecasts, Climate Dynamics, Dec. 2023.
Yuqin Lin, Longbiao Wang, Jianwu Dang, Sheng Li, Chenchen Ding. Disordered Speech Recognition Considering Low Resources and Abnormal Articulation., Speech Communication (SPEECH COMMUN), Vol. 155, No. No. 103002, Oct. 2023.
Kak Soky, Sheng Li, Chenhui Chu, Tatsuya Kawahara. Finetuning Pretrained Model with Embedding of Domain and Language Information for ASR of Very Low-Resource Settings., International Journal of Asian Language Processing, Vol. 33, No. 4, pp. 2350024, July 2023.
Kak Soky, Masato Mimura, Tatsuya Kawahara, Chenhui Chu, Sheng Li, Chenchen Ding, Sethserey Sam. TriECCC: Trilingual Corpus of the Extraordinary Chambers in the Courts of Cambodia for Speech Recognition and Translation Studies., International Journal of Asian Language Processing, Vol. 31, No. 03&04, pp. 2250007, July 2022.
Cunhang Fan, Hongmei Zhang, Jiangyan Yi, Zhao Lv, Jianhua Tao, Taihao Li, Guanxiong Pei, Xiaopei Wu, Sheng Li. SpecMNet: Spectrum Mend Network for Monaural Speech Enhancement., Vol. 194, pp. 108792, July 2022.
Shuichiro Shimizu, Chenhui Chu, Sheng Li, Sadao Kurohashi. Cross-Lingual Transfer Learning for End-to-End Speech Translation., Journal of Natural Language Processing (JNLP), Vol. 29, No. 2, July 2022.
Siqin Qin, Longbiao Wang, Sheng Li, Jianwu Dang, Lixin Pan. Improving Low-resource Tibetan End-to-end ASR by Multilingual and Multi-level Unit Modeling., EURASIP Journal on Audio, Speech and Music Processing. (EURASIP JASMP), Vol. 2, July 2022.
Xiaojiao Chen, Hao Huang, Sheng Li. Adversarial Attack and Defense on Deep Neural Network-based Voice Processing Systems: An Overview., Applied Sciences, Special Issues of Machine Speech Communication, Vol. 11, No. 18, pp. 8450, July 2021.
Peng Shen, Xugang Lu, Sheng Li, Hisashi Kawai. Knowledge Distillation-based Representation Learning for Short-Utterance Spoken Language Identification., IEEE/ACM Trans. Audio, Speech \& Language Process. (TASLP), Vol. 28, pp. 2674--2683, July 2020.
Sheng Li, Yuya Akita, Tatsuya Kawahara. Semi-supervised acoustic model training by discriminative data selection from multiple ASR systems' hypotheses., IEEE/ACM Trans. Audio, Speech \& Language Process. (TASLP), Vol. 24, No. 9, pp. 1520--1530, July 2016.
Sheng Li, Yuya Akita, Tatsuya Kawahara. Automatic lecture transcription based on discriminative data selection for lightly supervised acoustic model training., IEICE Trans., Vol. E98-D, No. 8, pp. 1545--1552, July 2015.
Lan Wang, Hui Chen, Sheng Li, Helen Meng. Phoneme-level articulatory animation in pronunciation training, Speech Communication (SPEECH COMMUN), Vol. 54, No. 7, pp. 845--856, Sept. 2012.

著書

Sheng Li. Bridging Eurasia: Multilingual Speech Recognition for Silkroad, 2023.
Sheng Li. Voices of the Himalayas: Investigation of Speech Recognition Technology for the Tibetan Language, 2023.
李勝. Phantom in the Opera: The Vulnerabilities of Speech-based Artificial Intelligence Systems, 2022.
Xugang Lu, Sheng Li, Masakiyo Fujimoto. Automatic speech recognition: Speech-to-Speech Translation, Springer Singapore, pp. 21-38, Jan. 2020.

国際会議発表 (査読有り)

Jun-You Wang, Sheng Li, Li-An Lu, Sydney Chia-Chun Kao, Jyh-Shing Roger Jang. Similarity-based accent recognition with continuous and discrete self-supervised speech representations, IEEE-ICASSP, Dec. 2025.
Chin Yuen Kwok, Sheng Li, Jia Qi Yip, Chenhui Chu, Tatsuya Kawahara, Eng Siong Chng. Extending Whisper for Emotion Prediction Using Word-level Pseudo Labels, IEEE-ICASSP, Dec. 2025.
Zhao Ren, Rathi Adarshi Rammohan, Kevin Scheck, Sheng Li, Tanja Schultz. End-to-end Acoustic-linguistic Emotion and Intent Recognition Enhanced by Semi-supervised Learning, International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), Dec. 2025.
Jiliang Hu, Zuchao Li, Mengjia Shen, Haojun Ai, Sheng Li, Jun Zhang. Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding, IEEE-ICASSP, Dec. 2025.
Jing Li, Felix Schijve, Sheng Li, Yuye Yang, Jun Hu, Emilia Barakova. Towards Emotion Co-regulation with LLM-powered Socially Assistive Robots: Integrating LLM Prompts and Robotic Behaviors to Support Parent-Neurodivergent Child Dyads,, Proc. IROS, Dec. 2025.
Haowei Lou, Hye young Paik, Pari Delir Haghighi, Sheng Li, Wen Hu, Lina Yao. LatentSpeech: Latent Diffusion for Text-To-Speech Generation, Proc. RO-MAN, Dec. 2025.
Jing Li, Sheng Li, Emilia I. Barakova, Felix Schijve, Jun Hu. Designing an LLM-powered Social Robot for Supporting Emotion Regulation In Parent-Child Dyads, Proc. RO-MAN (late breaking), Dec. 2025.
Hongli Yang, Sheng Li, Hao Huang, Ayiduosi Tuohan, Yizhou Peng. Language-Aware Prompt Tuning for Parameter-Efficient Seamless Language Expansion in Multilingual ASR,, INTERSPEECH, Aug. 2025.
Wangjin Zhou, Tianjiao Du, Chenglin Xu, Sheng Li, Yi Zhao, Tatsuya Kawahara. Simple and Effective Content Encoder for Singing Voice Conversion via Dimension Reduction,, INTERSPEECH, Aug. 2025.
Hongli Yang, Yizhou Peng, Hao Huang, Sheng Li. Adapting Whisper for Parameter-efficient Code-Switching Speech Recognition via Soft Prompt Tuning,, INTERSPEECH, Aug. 2025.
Zhen Wan, Chao-Han Huck Yang, Yahan Yu, Jinchuan Tian, Sheng Li, Ke Hu, Zhehuai Chen, Shinji Watanabe, Fei Cheng, Chenhui Chu, Sadao Kurohashi. SIQ: Exterminating Speech Intelligence Quotient Cross Cognitive Levels in Voice Understanding Large Language Models,, Proc. ACL main-long, July 2025.
Zhengdong Yang, Sheng Li, Chenhui Chu. Generative Error Correction for Emotion-aware Speech-to-text Translation,, Proc. ACL (findings), July 2025.
Yu Xu, Xiaokai Qin, Tianyu Fan, Eng Siong Chng, Sheng Li, Nobuaki Minematsu, Daisuke Saito. Bandwidth Extension System for Throat Microphone Speech Reconstruction,, Proc. IEEE-ICME, July 2025.
Jianan Chen, Chenhui Chu, Sheng Li, Tatsuya Kawahara. Data Selection using Spoken Language Identification for Low-Resource and Zero-Resource Speech Recognition, Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Dec. 2024.
Wangjin Zhou, Zhengdong Yang, Chenhui Chu, Sheng Li, Raj Dabre, Yi Zhao, Kawahara Tatsuya. MOS-FAD: Improving Fake Audio Detection Via Automatic Mean Opinion Score Prediction, IEEE-ICASSP, Dec. 2024.
Yi Zhao, Chunyu Qiang, Hao Li, Yulan Hu, Wangjin Zhou, Sheng Li. Enhancing Realism in 3D Facial Animation Using Conformer-Based Generation and Automated Post-Processing, IEEE-ICASSP, Dec. 2024.
Yankun Wu, Yuta Nakashima, Noa Garcia, Sheng Li, Zhaoyang Zeng. Reproducibility Companion Paper: Stable Diffusion for Content-Style Disentanglement in Art Analysis, International Conference on Multimedia Retrieval, Dec. 2024.
Sheng Li, Jiyi Li, Yang Cao. Automatic Post-Editing of Speech Recognition System Output Using Large Language Models, The DASFAA 2024 Workshop, Dec. 2024.
Sheng Li, Chen Chen, Chin Yuen Kwok, Chenhui Chu, Eng Siong Chng, Hisashi Kawai. Investigating ASR Error Correction with Large Language Model and Multilingual 1-best Hypotheses, INTERSPEECH, Dec. 2024.
Lele Zheng, Yang Cao, Renhe Jiang, Kenjiro Taura, Yulong Shen, Sheng Li, Masatoshi Yoshikawa. Enhancing Privacy of Spatiotemporal Federated Learning Against Gradient Inversion Attacks, Lecture Notes in Computer Science, Dec. 2024.
Sheng Li, Yuka Ko, Akinori Ito. LLM as decoder: Investigating Lattice-based Speech Recognition Hypotheses Rescoring Using LLM, Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Dec. 2024.
Chao Tan, Sheng Li, Yang Cao, Zhao Ren, Tanja Schultz. Investigating Effective Speaker Property Privacy Protection in Federated Learning for Speech Emotion Recognition, ACM Multimedia Asia, Dec. 2024.
Hay Mar Soe Naing, Win Pa Pa, Sheng Li. Parallel and Limited Data Voice Conversions on Myanmar Language Speech for Spoofed Detection, ACM International Conference on Multimedia in Asia Workshops, Dec. 2024.
Qingqing Zhang, Lei Luo, Simin Xu, Yongjing Chen, Chuang Li, Sheng Li, Ruili Wang. LaMuCo: Large-Scale Multilingual Conversation Speech Recognition Challenge, ACM International Conference on Multimedia in Asia Workshops, Dec. 2024.
Chin Yuen Kwok, Sheng Li, Jia Qi Yip, Eng Siong Chng. Low-resource Language Adaptation with Ensemble of PEFT Approaches, Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Dec. 2024.
Sheng Li, Jiyi Li, Qianying Liu, Zhuo Gong. An End-to-End Chinese and Japanese Bilingual Speech Recognition Systems with Shared Character Decomposition, Communications in Computer and Information Science, Dec. 2023.
Xiaojiao Chen, Sheng Li, Hao Huang. GhostVec: Directly Extracting Speaker Embedding from End-to-End Speech Recognition Model Using Adversarial Examples, Communications in Computer and Information Science, Dec. 2023.
Guangxing Li, Wangjin Zhou, Sheng Li, Yi Zhao, Jichen Yang, Hao Huang. Investigating Effective Domain Adaptation Method for Speaker Verification Task, Communications in Computer and Information Science, Dec. 2023.
Kak Soky, Sheng Li, Chenhui Chu, Tatsuya Kawahara. Domain and Language Adaptation Using Heterogeneous Datasets for Wav2vec2.0-Based Speech Recognition of Low-Resource Language, IEEE-ICASSP, Dec. 2023.
Zili Qi, Xinhui Hu, Wangjin Zhou, Sheng Li, Hao Wu, Jian Lu, Xinkang Xu. LE-SSL-MOS: Self-Supervised Learning MOS Prediction with Listener Enhancement, IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), Dec. 2023.
Wenqing Wei, Zhengdong Yang, Yuan Gao, Jiyi Li, Chenhui Chu, Shogo Okada, Sheng Li. FedCPC: An Effective Federated Contrastive Learning Method for Privacy Preserving Early-Stage Alzheimers Speech Detection, Dec. 2023.
Wangjin Zhou, Zhengdong Yang, Sheng Li, Chenhui Chu. KyotoMOS: An Automatic MOS Scoring System for Speech Synthesis, ACM Multimedia Asia Workshops, Dec. 2023.
Xiaojiao Chen, Sheng Li, Jiyi Li, Yang Cao, Hao Huang, Liang He. GhostVec: A New Threat to Speaker Privacy of End-to-End Speech Recognition System, ACM Multimedia Asia, Dec. 2023.
Xiaojiao Chen, Sheng Li, Jiyi Li, Hao Huang, Yang Cao, Liang He. Reprogramming Self-supervised Learning-based Speech Representations for Speaker Anonymization, ACM Multimedia Asia, Dec. 2023.
Sheng Li, Jiyi Li. Correction while Recognition: Combining Pretrained Language Model for Taiwan-Accented Speech Recognition, Artificial Neural Networks and Machine Learning – ICANN, Dec. 2023.
Qianying Liu, Zhuo Gong, Zhengdong Yang, Yuhang Yang, Sheng Li, Chenchen Ding, Nobuaki Minematsu, Hao Huang, Fei Cheng, Chenhui Chu, Sadao Kurohashi. Hierarchical Softmax for End-To-End Low-Resource Multilingual Speech Recognition, IEEE-ICASSP, Dec. 2023.
Longfei Yang, Jiyi Li, Sheng Li, Takahiro Shinozaki. Dialogue State Tracking with Sparse Local Slot Attention, ACL 2023 Workshop on NLP for Conversational AI, Dec. 2023.
Longfei Yang, Jiyi Li, Sheng Li, Takahiro Shinozaki. Multi-Domain Dialogue State Tracking with Disentangled Domain-Slot Attention, ACL findings, Dec. 2023.
Shuichiro Shimizu, Chenhui Chu, Sheng Li, Sadao Kurohashi. Towards Speech Dialogue Translation Mediating Speakers of Different Languages, ACL findings, Dec. 2023.
Helen Korving, Sheng Li, Di Zhou, Paula Sterkenburg, Panos Markopoulos, Emilia Barakova. Development of a Pain Signaling System Using Machine Learning, IEEE-ICASSP workshop, Dec. 2023.
Chao Tan, Yang Cao, Sheng Li, Masatoshi Yoshikawa. General or Specific? Investigating Effective Privacy Protection in Federated Learning for Speech Emotion Recognition, IEEE-ICASSP, Dec. 2023.
Yuhang Yang, Haihua Xu, Hao Huang, Eng Siong Chng, Sheng Li. Speech-Text Based Multi-Modal Training with Bidirectional Attention for Improved Speech Recognition, IEEE-ICASSP, Dec. 2023.
Kai Wang, Yuhang Yang, Hao Huang, Ying Hu, Sheng Li. Speakeraugment: Data Augmentation for Generalizable Source Separation via Speaker Parameter Manipulation, IEEE-ICASSP, Dec. 2023.
Zhengdong Yang, Shuichiro Shimizu, Wangjin Zhou, Sheng Li, Chenhui Chu. The Kyoto Speech-to-Speech Translation System for IWSLT 2023, International Conference on Spoken Language Translation (IWSLT), Dec. 2023.
Hao Shi, Longbiao Wang, Sheng Li, Jianwu Dang, Tatsuya Kawahara. Subband-based Spectrogram Fusion for Speech Enhancement by Combining Mapping and Masking Approaches, Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Dec. 2022.
Kai Wang, Yizhou Peng, Hao Huang, Ying Hu, Sheng Li. Mining Hard Samples Locally And Globally For Improved Speech Separation, ICASSP, pp. 6037--6041, Dec. 2022.
Yongjie Lv, Longbiao Wang, Meng Ge, Sheng Li, Chenchen Ding, Lixin Pan. Compressing Transformer-Based ASR Model by Task-Driven Loss and Attention-Based Multi-Level Feature Distillation, ICASSP, pp. 7992--7996, Dec. 2022.
Sheng Li, Jiyi Li, Qianying Liu, Zhuo Gong. Adversarial Speech Generation and Natural Speech Recovery for Speech Content Protection., LREC (Language Resources and Evaluation Conference), pp. 7291--7297, Dec. 2022.
Zhuo Gong, Daisuke Saito, Longfei Yang, Takahiro Shinozaki, Sheng Li, Hisashi Kawai, Nobuaki Minematsu. Self-Adaptive Multilingual ASR Rescoring with Language Identification and Unified Language Model., ISCA-Odyssey (The Speaker and Language Recognition Workshop), pp. 415--420, Dec. 2022.
Kai Li, Xugang Lu, Masato Akagi, Jianwu Dang, Sheng Li, Masashi Unoki. Relationship Between Speakers' Physiological Structure and Acoustic Speech Signals: Data-Driven Study Based on Frequency-Wise Attentional Neural Network, European Signal Processing Conference (EUSIPCO), pp. 379--383, Dec. 2022.
Kak Soky, Sheng Li, Masato Mimura, Chenhui Chu, Tatsuya Kawahara. Leveraging Simultaneous Translation for Enhancing Transcription of Low-resource Language via Cross Attention Mechanism, INTERSPEECH, Dec. 2022.
Longfei Yang, Wenqing Wei, Sheng Li, Jiyi Li, Takahiro Shinozaki. Augmented Adversarial Self-Supervised Learning for Early-Stage Alzheimer's Speech Detection, INTERSPEECH, Dec. 2022.
Kai Li, Sheng Li, Xugang Lu, Masato Akagi, Meng Liu, Lin Zhang, Chang Zeng, Longbiao Wang, Jianwu Dang, Masashi Unoki. Data Augmentation Using McAdams-Coefficient-Based Speaker Anonymization for Fake Audio Detection, INTERSPEECH, Dec. 2022.
Zhengdong Yang, Wangjin Zhou, Chenhui Chu, Sheng Li, Raj Dabre, Raphael Rubino, Yi Zhao. Fusion of Self-supervised Learned Models for MOS Prediction, INTERSPEECH, Dec. 2022.
Siqing Qin, Longbiao Wang, Sheng Li, Yuqin Lin, Jianwu Dang. Finer-grained Modeling units-based Meta-Learning for Low-resource Tibetan Speech Recognition, INTERSPEECH, Dec. 2022.
Nan LI, Meng Ge, Longbiao Wang, Masashi Unoki, Sheng Li, Jianwu Dang. Global Signal-to-noise Ratio Estimation Based on Multi-subband Processing Using Convolutional Neural Network, INTERSPEECH, Dec. 2022.
Longfei Yang, Jiyi Li, Sheng Li, Takahiro Shinozaki. Multi-Domain Dialogue State Tracking with Top-k Slot Self Attention, SIGdial Meeting Discourse \& Dialogue, Dec. 2022.
Hao Shi, Longbiao Wang, Sheng Li, Jianwu Dang, Tatsuya Kawahara. Monaural Speech Enhancement Based on Spectrogram Decomposition for Convolutional Neural Network-sensitive Feature Extraction, INTERSPEECH, Dec. 2022.
Kak Soky, Zhuo Gong, Sheng Li. Nict-Tib1: A Public Speech Corpus Of Lhasa Dialect For Benchmarking Tibetan Language Speech Recognition Systems, International Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques (O-COCOSDA), Dec. 2022.
Zhuo Gong, Saito Daisuke, Sheng Li, Hisashi Kawai, Minematsu Nobuaki. Can We Train a Language Model Inside an End-to-End ASR Model? - Investigating Effective Implicit Language Modeling, the Second Workshop on When Creative AI Meets Conversational AI, Dec. 2022.
Kak Soky, Sheng Li, Masato Mimura, Chenhui Chu, Tatsuya Kawahara. On the Use of Speaker Information for Automatic Speech Recognition in Speaker-imbalanced Corpora, Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Dec. 2021.
Hao Huang, Kai Wang, Ying Hu, Sheng Li. Encoder-Decoder based pitch tracking and joint model training for Mandarin tone classification., IEEE-ICASSP, pp. 6943--6947, Dec. 2021.
Heran Zhang, Sheng Li, Xingjun Ma, Yi Zhao, Yang Cao, Tatsuya Kawahara. Phantom in the Opera: Effective Adversarial Music Attack on Keyword Spotting Systems, IEEE-SLT (show and tell), Dec. 2021.
Dawei Liu, Longbiao Wang, Sheng Li, Haoyu Li, Chenchen Ding, Ju Zhang, Jianwu Dang. Exploring Effective Speech Representation via ASR for High-Quality End-to-End Multispeaker TTS, Communications in Computer and Information Science, Dec. 2021.
Nan Li, Longbiao Wang, Masashi Unoki, Sheng Li, Rui Wang, Meng Ge, Jianwu Dang. Robust voice activity detection using a masked auditory encoder based convolutional neural network., IEEE-ICASSP, pp. 6828--6832, Dec. 2021.
Shunfei Chen, Xinhui Hu, Sheng Li, Xinkang Xu. An investigation of using hybrid modeling units for improving End-to-End speech recognition systems., IEEE-ICASSP, pp. 6743--6747, Dec. 2021.
Luya Qiang, Hao Shi, Meng Ge, Haoran Yin, Nan Li, Longbiao Wang, Sheng Li, Jianwu Dang. Speech Dereverberation Based on Scale-Aware Mean Square Error Loss, Communications in Computer and Information Science, Dec. 2021.
Haoran Yin, Hao Shi, Longbiao Wang, Luya Qiang, Sheng Li, Meng Ge, Gaoyan Zhang, Jianwu Dang. Simultaneous Progressive Filtering-Based Monaural Speech Enhancement, Communications in Computer and Information Science, Dec. 2021.
Hao Shi, Longbiao Wang, Sheng Li, Cunhang Fan, Jianwu Dang, Tatsuya Kawahara. Spectrograms Fusion-based End-to-End Robust Automatic Speech Recognition, Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Dec. 2021.
Yizhou Peng, Jicheng Zhang, Haobo Zhang, Haihua Xu, Hao Huang, Sheng Li, Eng Siong Chng. Multilingual Approach to Joint Speech and Accent Recognition with DNN-HMM Framework, Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Dec. 2021.
Kak Soky, Masato Mimura, Tatsuya Kawahara, Sheng Li, Chenchen Ding, Chenhui Chu, Sethserey Sam. Khmer Speech Translation Corpus of the Extraordinary Chambers in the Courts of Cambodia (ECCC)., Conference of the Oriental COCOSDA International Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques (O-COCOSDA), pp. 122--127, Dec. 2021.
Ding Wang, Shuaishuai Ye, Xinhui Hu, Sheng Li, Xinkang Xu. An End-to-End Dialect Identification System with Transfer Learning from a Multilingual Automatic Speech Recognition Model., INTERSPEECH, pp. 3266--3270, Dec. 2021.
Kai Wang, Hao Huang, Ying Hu, Zhihua Huang, Sheng Li. End-to-End Speech Separation Using Orthogonal Representation in Complex and Real Time- Frequency Domain., INTERSPEECH, pp. 3046--3050, Dec. 2021.
Aye Thida, Nway Nway Han, Sheinn Thawtar Oo, Sheng Li, Chenchen Ding. VOIS: The First Speech Therapy App Specifically Designed for Myanmar Hearing-Impaired Children, Conference of the Oriental COCOSDA International Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques (O-COCOSDA), Dec. 2020.
Shaotong Guo, Longbiao Wang, Sheng Li, Ju Zhang, Cheng Gong, Yuguang Wang, Jianwu Dang, Kiyoshi Honda. Investigation of Effectively Synthesizing Code-Switched Speech Using Highly Imbalanced Mix-Lingual Data, Communications in Computer and Information Science, Dec. 2020.
Yuqin Lin, Longbiao Wang, Sheng Li, Jianwu Dang, Chenchen Ding.. Staged Knowledge Distillation for End-to-End Dysarthric Speech Recognition and Speech Attribute Transcription., INTERSPEECH, pp. 4791--4795, Dec. 2020.
Hao Shi, Longbiao Wang, Chenchen Ding, Meng Ge, Nan Li, Jianwu Dang, Hiroshi Seki, Hao Shi, Longbiao Wang, Sheng Li, Chenchen Ding, Meng Ge, Nan Li, Jianwu Dang, Hiroshi Seki. Singing Voice Extraction with Attention based Spectrograms Fusion., INTERSPEECH, pp. 2412--2416, Dec. 2020.
Sheng Li, Xugang Lu, Raj Dabre, Peng Shen, Hisashi Kawai. Joint Training End-to-End Speech Recognition Systems with Speaker Attributes., ISCA-Odyssey (The Speaker and Language Recognition Workshop), pp. 385--390, Dec. 2020.
Peng Shen, Xugang Lu, Komei Sugiura, Sheng Li, Hisashi Kawai. Compensation on x-vector for short utterance spoken language identification., ISCA-Odyssey (The Speaker and Language Recognition Workshop), pp. 47-52, Dec. 2020.
Yaowei Han, Yang Cao, Sheng Li, Qiang Ma, Masatoshi Yoshikawa. Voice-Indistinguishability -- Protecting Voiceprint with Differential Privacy under an Untrusted Server, ACM SIGSAC Conference on Computer and Communications Security, Dec. 2020.
Hao Shi, Longbiao Wang, Meng Ge, Sheng Li, Jianwu Dang.. Spectrograms Fusion with Minimum Difference Masks Estimation for Monaural Speech Dereverberation., IEEE-ICASSP, pp. 7544--7548, May 2020.
Yuqin Lin, Longbiao Wang, Jianwu Dang, Sheng Li, Chenchen Ding. End-To-End Articulatory Modeling for Dysarthria Articulatory Attribute Detection., IEEE-ICASSP, pp. 7349--7353, May 2020.
Yaowei Han, Sheng Li, Yang Cao, Qiang Ma, Masashi Yoshikawa. Voice-Indistinguishability: Protecting Voiceprint in Privacy Preserving Speech Data Release., IEEE-ICME, IEEE-ICME, pp. 1--6, May 2020.
Lixin Pan, Sheng Li, Longbiao Wang, Jianwu Dang. Effective Training End-to-End ASR systems for Low-resource Lhasa Dialect of Tibetan Language, Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Dec. 2019.
Kak Soky, Sheng Li, Tatsuya Kawahara, Sopheap Seng. Multi-lingual transformer training for khmer automatic speech recognition, Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Dec. 2019.
Sheng Li. Class-wise Centroid Distance Metric Learning for Acoustic Event Detection., INTERSPEECH, pp. 3614--3618, Sept. 2019.
Sheng Li, Xugang Lu, Chenchen Ding, Peng Shen, Tatsuya Kawahara, Hisashi Kawai.. Investigating Radical-based End-to-End Speech Recognition Systems for Chinese Dialects and Japanese., INTERSPEECH, pp. 2200--2204, Sept. 2019.
Sheng Li, Chenchen Ding, Xugang Lu, Peng Shen, Tatsuya Kawahara, Hisashi Kawai.. End-to-End Articulatory Attribute Modeling for Low-resource Multilingual Speech Recognition., INTERSPEECH, pp. 2145--2149, Sept. 2019.
Sheng Li, Raj Dabre, Xugang Lu, Peng Shen, Tatsuya Kawahara, Hisashi Kawai. Improving Transformer-based Speech Recognition Systems with Compressed Structure and Speech Attributes Augmentation., INTERSPEECH, pp. 4400--4404, Sept. 2019.
Ryoichi Takashima, Sheng Li, Hisashi Kawai.. Investigation of Sequence-level Knowledge Distillation Methods for CTC Acoustic Models., IEEE-ICASSP, pp. 6156--6160, May 2019.
Peng Shen, Xugang Lu, Sheng Li, Hisashi Kawai.. Interactive learning of teacher-student model for short utterance spoken language identification., IEEE-ICASSP, pp. 5981--5985, May 2019.
Sheng Li, Xugang Lu, Ryoichi Takashima, Phen Shen, Tatsuya Kawahara, Hisashi Kawai. Improving very deep time-delay neural network with vertical-attention for effectively training CTC-based ASR systems., IEEE Spoken Language Technology Workshop (IEEE-SLT), pp. 77--83, Dec. 2018.
Sheng Li, Xugang Lu, Ryoichi Takashima, Peng Shen, Tatsuya Kawahara, Hisashi Kawai.. Improving CTC-based Acoustic Model with Very Deep Residual Time-delay Neural Networks., INTERSPEECH, pp. 3708--3712, Sept. 2018.
Xugang Lu, Peng Shen, Sheng Li, Yu Tsao, Hisashi Kawai.. Temporal Attentive Pooling for Acoustic Event Detection., INTERSPEECH, pp. 1354--1357, Sept. 2018.
Peng Shen, Xugang Lu, Sheng Li, Hisashi Kawai.. Feature Representation of Short Utterances based on Knowledge Distillation for Spoken Language Identification., INTERSPEECH, pp. 1813--1817, Sept. 2018.
Sheng Li, Xugang Lu, Ryoichi Takashima, Peng Shen, Tatsuya Kawahara, Hisashi Kawai.. Improving CTC-based Acoustic Model with Very Deep Residual Time-delay Neural Networks., INTERSPEECH, pp. 3708--3712, Sept. 2018.
Ryoichi Takashima, Sheng Li, Hisashi Kawai. CTC Loss Function with a Unit-level Ambiguity Penalty., IEEE-ICASSP, pp. 5909--5913, May 2018.
Sheng Li, Xugang Lu, Peng Shen, Ryoichi Takashima, Tatsuya Kawahara, Hisashi Kawai. Incremental training and constructing the very deep convolutional residual network acoustic models., IEEE Workshop Automatic Speech Recognition \& Understanding (IEEE-ASRU), pp. 222--227, Dec. 2017.
Peng Shen, Xugang Lu, Sheng Li, Hisashi Kawai. Conditional Generative Adversarial Nets Classifier for Spoken Language Identification., INTERSPEECH, pp. 2814--2818, Sept. 2017.
Sheng Li, Xugang Lu, Shinsuke Sakai, Masato Mimura, Tatsuya Kawahara. Semi-supervised ensemble DNN acoustic model training., IEEE-ICASSP, pp. 5270--5274, May 2017.
Ryoichi Takashima, Sheng Li, Hisashi Kawai. An Investigation of a Knowledge Distillation Method for CTC Acoustic Models., pp. 5809--5813, May 2017.
Sheng Li, Xugang Lu, Shinsuke Mori, Yuya Akita, Tatsuya Kawahara. Confidence Estimation for Speech Recognition Systems using Conditional Random Fields Trained with Partially Annotated Data, INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), Dec. 2016.
Sheng Li, Yuya Akita, Tatsuya Kawahara. Data selection from multiple ASR systems' hypotheses for unsupervised acoustic model training., IEEE-ICASSP, pp. 5875--5879, May 2016.
Sheng Li, Yuya Akita, Tatsuya Kawahara.. Discriminative data selection for lightly supervised training of acoustic model using closed caption texts., INTERSPEECH, pp. 3526--3530, Sept. 2015.
Sheng Li, Xugang Lu, Yuya Akita, Tatsuya Kawahara. Ensemble speaker modeling using speaker adaptive training deep neural network for speaker adaptation., INTERSPEECH, pp. 2892--2896, Sept. 2015.
Sheng Li, Yuya Akita, Tatsuya Kawahara. Corpus and Transcription System of Chinese Lecture Room, INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), Dec. 2014.
Sheng Li, Lan Wang. Cross Linguistic Comparison of Mandarin and English EMA Articulatory Data,, INTERSPEECH, pp. 903--906, Dec. 2012.
Sheng Li, Lan Wang, En Qi. The Phoneme-level Articulator Dynamics for Pronunciation Animation, IALP, Dec. 2011.
Jinyu Chen, Lan Wang, Chongguo Li, Jin Hu, Sheng Li. IELS: A Computer-aided Pronunciation Training System for Undergraduate Students, IEEE ICETC, Dec. 2010.

国内会議発表 (査読なし・不明)

楊家寧, 李勝, 篠崎隆弘, 齋藤佑樹, 猿渡洋. 相互情報量最小化による感情・音色の分離に基づく感情的音声合成, ASJ2025 autumn, Dec. 2025.

学位論文

Speech Recognition Enhanced by Lightly-supervised and Semi-supervised Acoustic Model Training, Thesis, Doctor of Informatics, Kyoto University,

[ BibTeX 形式で保存 ] [ 論文・著書をCSV形式で保存 ] [ 特許をCSV形式で保存 ]

Home

各種検索

サポート

T2R2について

関連リンク

李勝研究業績一覧 (134件)

論文

著書

国際会議発表 (査読有り)

国内会議発表 (査読なし・不明)

学位論文

Home

各種検索

サポート

T2R2について

関連リンク

李勝 研究業績一覧 (134件)

論文

著書

国際会議発表 (査読有り)

国内会議発表 (査読なし・不明)

学位論文

李勝研究業績一覧 (134件)