Skip to content

Latest commit

 

History

History
77 lines (60 loc) · 4.71 KB

2_korean.md

File metadata and controls

77 lines (60 loc) · 4.71 KB

Korean Data Sets

Korean Single Speaker Speech Dataset

KSS Dataset: Korean Signle Speaker Dataset

  • by Kyubyoung Park

https://www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset/version/2#

1/1_0000.wav|그는 괜찮은 척하려고 애쓰는 것 같았다.|그는 괜찮은 척하려고 애쓰는 것 같았다.|그는 괜찮은 척하려고 애쓰는 것 같았다.|3.5
1/1_0001.wav|그녀의 사랑을 얻기 위해 애썼지만 헛수고였다.|그녀의 사랑을 얻기 위해 애썼지만 헛수고였다.|그녀의 사랑을 얻기 위해 애썼지만 헛수고였다.|4.0
1/1_0002.wav|용돈을 아껴 써라.|용돈을 아껴 써라.|용돈을 아껴 써라.|1.8
1/1_0003.wav|그는 아내를 많이 아낀다.|그는 아내를 많이 아낀다.|그는 아내를 많이 아낀다.|2.3
1/1_0004.wav|그 애 전화번호 알아?|그 애 전화번호 알아?|그 애 전화번호 알아?|1.3
1/1_0005.wav|차에 대해 잘 아세요?|차에 대해 잘 아세요?|차에 대해 잘 아세요?|1.7
1/1_0006.wav|거기 도착하면 나한테 알려 줘.|거기 도착하면 나한테 알려 줘.|거기 도착하면 나한테 알려 줘.|2.8
1/1_0007.wav|그들은 내가 시험에 떨어졌다고 알려 왔다.|그들은 내가 시험에 떨어졌다고 알려 왔다.|그들은 내가 시험에 떨어졌다고 알려 왔다.|3.5
1/1_0008.wav|나는 살아오면서 감기를 앓은 적이 한 번도 없다.|나는 살아오면서 감기를 앓은 적이 한 번도 없다.|나는 살아오면서 감기를 앓은 적이 한 번도 없다.|4.2
1/1_0009.wav|사흘 동안 심하게 몸살을 앓았어요.|사흘 동안 심하게 몸살을 앓았어요.|사흘 동안 심하게 몸살을 앓았어요.|3.2
1/1_0010.wav|요즘 공부가 안돼요.|요즘 공부가 안돼요.|요즘 공부가 안돼요.|1.9
1/1_0011.wav|장사가 잘 안돼서 우울해.|장사가 잘 안돼서 우울해.|장사가 잘 안돼서 우울해.|2.5
1/1_0012.wav|아무 것도 먹지 않으면 죽게 되어 있다.|아무 것도 먹지 않으면 죽게 되어 있다.|아무 것도 먹지 않으면 죽게 되어 있다.|3.1
1/1_0013.wav|그녀는 이유를 묻지 않고 돈을 빌려 주었다.|그녀는 이유를 묻지 않고 돈을 빌려 주었다.|그녀는 이유를 묻지 않고 돈을 빌려 주었다.|3.8
1/1_0014.wav|내가 아기를 안고 있을게.|내가 아기를 안고 있을게.|내가 아기를 안고 있을게.|2.2
1/1_0015.wav|엄마는 말없이 나를 꼭 안아 주셨다.|엄마는 말없이 나를 꼭 안아 주셨다.|엄마는 말없이 나를 꼭 안아 주셨다.|4.0
1/1_0016.wav|자리에 앉으세요.|자리에 앉으세요.|자리에 앉으세요.|1.1
1/1_0017.wav|한 여자가 내 옆에 앉았다.|한 여자가 내 옆에 앉았다.|한 여자가 내 옆에 앉았다.|2.2

KSS Dataset: Korean Single speaker Speech Dataset

KSS Dataset is designed for the Korean text-to-speech task. It consists of audio files recorded by a professional female voice actoress and their aligned text extracted from my books. As a copyright holder, by courtesy of the publishers, I release this dataset to the public. To my best knowledge, this is the first publicly available speech dataset for Korean.

File Format

Each line in transcript.v.1.1.txt is delimited by | into five fields.

|No.|Field|Example|

|1|Audio File Location|1/1_0000.wav| |2|Original Script|그는 괜찮은 척하려고 애쓰는 것 같았다.| |3|Expanded Script|그는 괜찮은 척하려고 애쓰는 것 같았다.| |4|Decomposed Script|그는 괜찮은 척하려고 애쓰는 것 같았다.| |5|Duration|3.5| Specification

Audio File Type: wav Total Running Time: 12+ hours Sample Rate: 44,100 KHZ Number of Audio Files: 12,853 Sources |1| Kyubyong Park, 500 Basic Korean Verbs, Tuttle Publishing, 2015.| |2| Kyubyong Park, 500 Basic Korean Adjectives 2nd Ed., Youkrak, 2015.| |3| Kyubyong Park, Essential Korean Vocabulary, Tuttle Publishing, 2015.| |4| Kyubyong Park, Tuttle Learner's Korean-English Dictionary, Tuttle Publishing, 2012.| License

NC-SA 4.0. You CANNOT use this dataset for ANY COMMERCIAL purpose. Otherwise, you can freely use this.

Citation If you want to cite KSS Dataset, please refer to this: Kyubyong Park, KSS Dataset: Korean Single speaker Speech Dataset, https://kaggle.com/bryanpark/korean-single-speaker-speech-dataset, 2018

Reference Check out this for a project using this KSS Dataset.

Contact You can contact me at [email protected]. April, 2018. Kyubyong Park

reference

reference: https://www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset/downloads/korean-single-speaker-speech-dataset.zip/2

link

link