Japanese Listeners’ Judgments of Prolongations: With Focus on the Effect of Phonemic Length Contrast

Article information

Audiol Speech Res. 2020;16(4):329-338
Publication date (electronic) : 2020 October 5
doi : https://doi.org/10.21848/asr.200047
1Graduate Program in Speech-Language Pathology, Yonsei University, Seoul, Korea
2Department of English, Sogang University, Seoul, Korea
3Department of Speech Rehabilitation and Counseling, Speech Rehabilitation Clinic Center, Catholic Kwandong University, Gangneung, Korea
Correspondence: Jin Park, PhD Department of Speech Rehabilitation and Counseling, Speech Rehabilitation Clinic Center, Catholic Kwandong University, 24 Beomil-ro 579beon-gil, Gangneung 25601, Korea Tel: +82-33-649-7737 Fax: +82-33-649-7669 E-mail: gatorade70@cku.ac.kr
Received 2020 May 25; Revised 2020 July 28; Accepted 2020 August 7.

Abstract

Purpose

This study examined 1) what the absolute minimal duration of the lengthened Japanese sounds /s/, /ss/, /i/, and /i:/ are that are perceived to be abnormal by native speakers of Japanese; 2) what the relative ratio of a stimulus sound’s original length to its absolute perceptual threshold is; 3) whether differences are observed between short and long fricatives and between short and long vowels; and 4) whether phonemic length contrast affects the perceived abnormality of lengthened speech sounds.

Methods

Twelve native speakers of Japanese (2 males, 10 females) listened to the Japanese sounds /s/, /ss/, /i/, and /i:/, each of which was lengthened by 0–400 ms in 20 ms increments. The participants rated whether the sound was normal (0) or abnormal (1). The minimal duration for each lengthened sound to be perceived as abnormal by the participants was calculated by analyzing the receiver operating characteristic curves using Youden’s index.

Results

The minimal prolongation duration to be perceived as abnormal was 70 ms for /s/, 130 ms for /ss/, 70 ms for /i/, and 170 ms for /i:/. The percentage increases in duration required to be perceived as abnormal were 106% for /s/, 129% for /ss/, 117% for /i/, and 138% for /i:/.

Conclusion

Phonemic length contrast affects the minimal prolongation duration and the percentage increase thresholds at which Japanese listeners perceive speech sounds as abnormally long. The implications of these results were further discussed within a diagnostic context of sound prolongation as one of core behaviors of stuttering.

INTRODUCTION

말더듬은 유창성장애의 대표적인 현상 중 하나로, 근육 운동의 불협응으로 인한 분절음(자음, 모음), 음절, 어휘 등의 비정상적인 반복, 연장, 또는 막힘을 수반한다(Lee, 2005; Van Riper, 1982). 특히, 말더듬의 핵심행동 중에서도 연장(prolongation)은 한 번의 호기(exhalation)에서 조음기관이 움직이지 않는 상태로 단일한 말소리가 지속되는 현상이다(Guitar, 1998). 말더듬 연장은 주로 마찰음과 단모음을 산출할 때 발생하는데(Lee, 2005), 예를 들어 ‘사랑’이라는 어휘의 첫 음절 초성 ‘ㅅ’이 지속되어 중성인 모음 ‘ㅏ’로의 전이가 곧바로 이루어지지 않는 경우를 말한다. 일반적으로 말소리가 0.5초 이상 지속되면 말더듬 연장으로 인식된다는 견해가 있으나(Van Riper, 1982), 특정 분절음의 차이, 연장에 수반된 질적 변화[예를 들어, 긴장(tension) 동반이나 음조 변화] 또는 청자(listener)의 차이에 따라 다르게 인식될 수 있다(Gregory et al., 2003; Logan, 2015).

비정상으로 지각하는 연장음의 최소길이에 대한 현재까지의 연구들을 종합해 보면 몇 가지 요인에 따라 비교적 다양한 길이의 절대적 수치가 보고되고 있다(Jones et al., 2005; Kawai & Healey, 2012; Kawai et al., 2005, 2007; Lingwall & Bergstrand, 1979; Park et al., 2018; Susca et al., 2001). 예를 들어 Lingwall & Bergstrand(1979)는 영어의 유성마찰음 /z/가 294 ms 이상일 때 비정상적인 연장음으로 인식된다고 보고하였으며, Jones et al.(2005)은 유성마찰음 /z/는 235 ms 이상, 모음 /a/는 279 ms 이상 연장되었을 때 비정상으로 인식된다고 하였다. 또한 Susca et al.(2001)은 모음 /i/, 성문마찰음 /h/, 유음 /ɹ/ 모두 279 ms 이상 지속될 때 비정상적인 연장음으로 인식된다고 보고하였다. Kawai & Healey(2012)의 경우에는 무성마찰음(예를 들어, /f/, /θ/, /s/, /ʃ/)으로 시작되는 여러 개의 단어를 포함하고 있는 문단에서 각각의 무성마찰음을 200, 300, 420 ms로 연장해 이를 일반인 청자에게 들려주었을 때 300 ms 이상에서 비정상적으로 인식하는 것으로 나타났다. 이처럼 분절음의 종류에 따라 비정상으로 지각하는 연장음의 최소길이가 다름을 알 수 있다. 이와 더불어 일반인 청자와 언어재활사를 대상으로 한국어 평마찰음 ‘ㅅ’의 연장음을 들려준 Park et al.(2018)의 경우 일반인 청자는 375 ms 이상일 때, 언어재활사의 경우에는 355 ms 이상일 때 비정상적으로 지각하는 것으로 나타났다. 이는 말더듬 평가와 치료 전문가로서 언어재활사가 연장음 지각에 있어 일반인 청자보다 좀 더 민감하여 상대적으로 최소길이가 더 짧게 나타나는 것으로, 비정상적인 연장음 지각에 있어 청자 간의 차이가 발생할 수 있음을 보여주는 결과라 할 수 있다. 더 나아가 Jones et al.(2005)의 경우 유성마찰음 /z/와 모음 /a/의 연장음을 비정상적으로 지각하는 최소길이가 발화속도의 증가에 따라 유의하게 감소하는 결과가 나타났다. 즉, 발화속도가 빨라 질수록 비정상적으로 지각하는 최소길이의 절댓값은 더 짧아진다는 것이다. 이러한 결과를 바탕으로 발화속도 또한 비정상으로 인식되는 분절음의 길이에 영향을 미치는 또 다른 요인임을 알 수 있다.

한편 Jones et al.(2005)은 유성마찰음 /z/와 모음 /a/의 연장음을 비정상적으로 인식하기 시작하는 최소길이가 분절음의 원길이에서 약 38% 증가한 값이었으며, 이와 같은 비율은 분절음의 종류에 관계없이(즉, 유성마찰음 /z/와 모음 /a/의 모두에서) 비교적 일정하게 나타났다고 밝혔다. 현재까지 진행되어 온 대부분의 연장음 연구(Lingwall & Bergstrand, 1979; Park et al., 2018; Susca et al., 2001; Kawai & Healey, 2012, Zebrowski, 1991, 1994)는 청자들의 지각 한계치에 대해 절대적인 수치를 보고하여 왔다. 하지만 그 수치는 235 ms와 403 ms 사이에서 다양하게 나타나고 있으며, 일관된 결과를 보이지 못하고 있다. 이에, 비정상으로 지각되는 분절음의 최소길이에 대해 구체적인 수량적 기준을 마련하기 위해서는 최소길이의 절댓값을 측정하는 것뿐만 아니라 Jones et al.(2005)에서와 같이 최소길이가 분절음의 원길이에 대한 일정한 비율로 규정될 수 있는 것은 아닐지 검토할 필요가 있다.

말더듬의 행동 유형에 대한 평가는 언어재활사 개개인에 의해 이루어지는 것이기에, 행동 유형에 대한 구체적인 정의의 부재는 결국 말더듬 평가에 대한 신뢰도를 떨어뜨리는 주요한 요인이 될 수 있다(Cordes, 2000). 특히, 말더듬 연장에 대한 평가는 ‘말소리가 몇 ms일 때 비정상적인가?’에 대한 개인의 판단에 기초하기 때문에(Jones et al., 2005), 말소리 연장 인식에 대한 구체적인 수량적 기준을 마련하는 것은 곧 말더듬에 대한 언어 재활사 간의 평가 신뢰도를 높이는 데 직결된다는 점에서 매우 큰 임상적 함의를 지닌다고 말할 수 있다. 본 연구에서는 일본어를 대상 언어로 설정하여, 비정상적으로 지각하는 연장음의 최소길이와 관련해 기존 연구에서 논의하지 않았던 또 다른 요인에 대한 연구를 수행하였다. 나아가 기존의 연장음 연구에서와 같이 청자들이 분절음을 비정상으로 인식하는 최소길이의 절댓값을 측정함과 동시에, 해당 한계치가 분절음의 원길이에 대해 어느 정도 증가한 것인지에 대한 비율도 함께 알아보았다.

현재까지 말소리 연장 지각 연구의 대부분은 영어 분절음 및 영어권 화자를 대상으로 진행되어 왔으며, 아시아권 언어를 대상으로 연구가 이루어진 사례는 매우 드물다(Park et al., 2018). 영어, 한국어와 달리 일본어는 홑자음과 겹자음, 단모음과 장모음이 모두 별개의 음소로 존재한다. 다시 말해 자음 또는 모음의 길이가 단어의 의미를 결정할 수 있다(Tajima et al., 2008; Tsujimura, 1996). 예를 들어 /kata/(‘어깨’) 대 /katta/(‘샀다’)의 최소대립쌍에서 단어의 뜻을 결정하는 주요한 음성적 자질은 무성치조폐쇄음 /t/의 폐쇄 구간의 길이이며, 모음의 경우에도 /obasaN/(‘아주머니’) 대 /oba:saN/(‘할머니’)의 경우처럼 저모음 /a/의 조음 길이에 따라 단어의 의미가 달라진다. 본 연구에서는 이러한 일본어의 특성, 즉 음소 간 변별적 길이(音長) 차이와 같은 언어 내적인 음운 특성이 비정상적으로 지각되는 연장음의 최소길이에 어떤 영향을 미치는지를 알아보고자 하였다. 이를 위해 본 연구에서는 일본어의 치조마찰음 /s/, /ss/와 전설 고모음 /i/, /i:/ 각각의 연장음에 대한 일본인 청자들의 지각 양상을 살펴보았다. 구체적으로 일본어 어휘 /hasaN/(‘파산’)과 /hassaN/(‘발산’)의 어중에 포함된 홑자음 /s/와 겹자음 /ss/, 그리고 /itai/(‘아픈’)와 /i:tai/(‘말하고 싶은’)의 어두에 포함된 단모음 /i/와 장모음 /i:/를 대상으로, 각 자극음이 일본인 청자들에게 비정상으로 인식되는 분절음의 최소길이를 측정하였다. 더불어 해당 최소길이가 각 자극음의 원길이에서 얼마나 증가한 것인지에 대한 비율도 함께 측정하였다. 이를 위해 각 자극음의 길이를 원길이부터 20 ms씩 순차적으로 20회 연장하여 생성한 21개의 문단자극(자극음 4개에 대한 문단자극은 총 21 × 4 = 84개)을 일본어를 모국어로 하는 일반인 청자들에게 들려주고, 각 문단 내에서 자극음(즉, /s/, /ss/, /i/, 또는 /i:/)의 길이가 정상인지 혹은 비정상인지를 이변량 척도(0은 정상, 1은 비정상)로 평가하게 하였다. 평가 결과를 통해 일본인 청자들이 비정상으로 인식하는 분절음의 최소길이와 해당 최소길이가 분절음의 원길이에서 얼마나 증가한 것인지 그 비율을 측정하고, 단음과 장음(즉, 홑자음 /s/ 대 겹자음 /ss/, 단모음 /i/ 대 장모음 /i:/) 사이에 차이가 나타나는지, 즉, 음소 간 변별적인 길이 차이가 지각 결과에 영향을 미치는지 알아보았다. 결국 말더듬의 핵심행동 중 하나인 말소리 연장 지각과 관련해 원 음소의 내재적 길이에 따라 비정상적으로 지각하는 연장음의 최소길이가 달라지는지를 알아본 것이다.

본 연구의 질문은 다음과 같다. 첫째, 일본인 청자들이 일본어의 홑자음(/s/)과 겹자음(/ss/), 단모음(/i/)과 장모음(/i:/)을 비정상으로 지각하는 분절음의 최소길이는 몇 ms인가? 연장음의 최소길이에 대해 홑자음(/s/)과 겹자음(/ss/), 단모음(/i/)과 장모음(/i:/)은 차이를 보이는가? 둘째, 비정상적으로 지각되는 최소길이가 각 자극음의 원길이에서 어느 정도 증가한 것인지에 대한 비율(%)은 얼마인가? 이러한 비율에 있어 홑자음(/s/)과 겹자음(/ss/), 단모음(/i/)과 장모음(/i:/)은 차이를 보이는가? 셋째, 음소 간 변별적인 길이 차이와 같은 언어 내적인 음운 특성은 청자들의 연장음 지각 양상에 영향을 미치는가?

MATERIALS AND METHODS

연구 대상

본 실험은 일본어를 모국어로 하는 화자 12명(남성 2명, 평균 연령 24.5, 표준편차 0.7; 여성 10명, 평균연령 25.7, 표준편차 4.5)을 대상으로 수행되었다. 연구 대상자는 도쿄 또는 도쿄 인근 지역(예를 들어, 사이타마, 카나가와, 요코하마)에서 20년 이상 거주하였고, 표준 일본어(도쿄 방언)를 구사하는 자로 한정하였다. 더 나아가 본 연구는 정상적인 시력과 청력을 가지고 있으며, 실험 수행에 부정적인 영향을 미칠 수 있는 심리적, 정서적, 신경학적인 병력을 일체 가지고 있지 않으며, 언어나 말 관련 문제로 평가 또는 치료를 받은 적이 없는 자만을 대상으로 하였다. 마지막으로 말더듬이나 말을 더듬는 사람에 대한 사전 지식이나 경험이 실험 결과에 미치는 영향(Park et al., 2018)을 최소화하기 위해 본인이 말을 더듬는 경우, 가족 혹은 지인 중말을 더듬는 사람이 있는 경우, 또는 말더듬이나 언어치료 관련 교육이나 수업 경험이 있는 경우 모두 연구 대상자에서 제외하였다. 연구 대상자는 서울 소재의 대학교와 대학교 내에 위치한 한국어 교육원 건물에 서면 홍보지를 부착하고, 대학교의 온라인 커뮤니티에 홍보함으로써 모집하였다.

연구 절차

실험에 필요한 모든 설명은 제1저자에 의해 일본어로 이루어졌다. 실험에 앞서 연구자는 설문지를 통해 실험 참가자가 위 참가 조건에 모두 해당하는지 확인하고, 모든 조건을 만족하는 대상자에 한해서 본 실험을 진행하였다. 먼저 연구 대상자는 실험에 대한 충분한 설명을 듣고 서면동의서를 작성하였다. 이후 각각의 문단자극을 바탕으로 구성된 엑셀(Microsoft Excel; Microsoft Corporation, Redmond, WA, USA) 파일을 이용해 본 실험을 진행하였다. 엑셀 파일에는 문단자극 내에 포함된 자극음(/s/, /ss/, /i/, 또는 /i:/)의 길이가 변조된 여러 개의 음성샘플이 무작위 순서로 배치되었다. 청자들은 음성샘플을 듣고 난 후 그 옆에 위치한 엑셀 칸에 자극음의 길이가 정상인지 또는 비정상인지를 이변량 척도(0: 정상, 1: 비정상)로 표시하였다. 실험에 사용된 엑셀 파일의 모습은 Figure 1과 같다.

Figure 1.

A sample Excel (Microsoft Corporation) file used during the perceptual experiment (0: normal, 1: abnormal).

1개의 문단자극에 대한 청지각적 평가는 샘플평가 1회와 본 평가 5회에 걸쳐 이루어졌다. 먼저 샘플평가에서는 5개의 연습용 음성샘플을 제공함으로써 청자들이 평가 방식에 익숙해질 수 있도록 하였다. 그 후 본 평가에서는 각 회에서 자극음의 길이가 다른 21개의 음성샘플이 무작위 순서로 제공되었다. 즉, 연구 대상자는 1개의 문단자극에 대해 총 105개(21 × 5)의 음성샘플을 듣고, 각 샘플에 포함된 자극음 길이가 정상적인지를 이변량 척도로 평가하였다. 연구 대상자가 집중하여 실험에 참가할 수 있도록 2개의 문단자극에 대한 실험이 끝나면 10분의 휴식시간을 제공하고, 휴식시간이 끝나면 나머지 2개의 문단자극에 대한 실험을 진행하였다. 엑셀 파일 4개는 연구 대상자에 따라 무작위 순서로 제공하였다.

문단자극

본 연구에서는 일본어의 홑자음 /s/, 겹자음 /ss/, 단모음 /i/, 장모음 /i:/를 자극음으로 설정하고, 인접한 분절음의 종류와 단어 전체의 성조 패턴을 동일하게 하여 단지 자극음의 내재적 길이(즉, 장단)에 있어서만 차이가 나는 단어자극쌍(즉, /hasaN/ ‘파산’ 대 /hassaN/ ‘발산’, /itai/ ‘아픈’ 대 /i:tai/ ‘말하고 싶은’)을 고안하였다. 말더듬은 주로 문장 처음에 나타나기 때문에(Brown, 1945), 말더듬 연장에 대한 청자들의 지각 결과를 살피기 위해서는 모든 자극음을 어두음으로 설정하는 것이 가장 바람직했으나, 일본어의 겹자음은 단어 중간에서만 나타나기 때문에(Kubozono et al., 2008) 부득이하게 본 연구에서는 자음 /s/와 /ss/는 단어 중간에 오도록 하고 모음 /i/와 /i:/만 단어 처음에 위치시켰다.

각각의 자극음을 포함하는 단어자극은 두 개의 문장으로 구성된 문단자극의 두 번째 문장 내에 위치하였다. 이는 청자로 하여금 말소리 연장이 일어나지 않은 유창한 첫 번째 문장을 들음으로써 발화속도 및 분절음의 평균 길이에 적응할 수 있는 시간을 주고, 이를 바탕으로 두 번째 문장에 포함된 말소리 연장음에 대해 평가를 내릴 수 있도록 하기 위함이다. 문단자극은 각각의 단어자극(즉, /hasaN/, /hassaN/, /itai/, /i:tai/)에 대해 자연스러운 맥락을 가질 수 있도록 고안하였으며, 모든 문단자극은 31개의 모라(mora)로 구성하여 문단 길이를 통제하였다. 일본어에서 음의 시간적 길이가 음절이 아닌 모라에 바탕을 둔다는 점을 고려하여(Yune, 2018), 문단자극의 길이를 모라의 수로 통제하였다. 문단자극의 녹음을 위해 30세 남성 일본인 화자가 참여하였으며, 음성편집기인 Adobe Audition (version 3.0; Adobe Systems, San Jose, CA, USA)을 이용해 각 문단자극을 생성하고, 마이크(ECM-PC60; Sony, Tokyo, Japan)와 사운드 블라스터(X-FI Surround 5.1 USB; Creative Technology, Singapore)를 통해 녹음하였다. 문단자극의 평균 발화속도는 8.75 모라/초로 나타났다. 자극음, 단어자극 및 문단자극은 본 논문의 Appendix에서 찾을 수 있다.

연장음 자극을 생성하기 위해 네 개의 자극음 /s/, /ss/, /i/, /i:/의 길이를 변조하였다. Kawai et al.(2007)은 길이 변조를 위해 음성편집기(Sound Forge version 4.0c; Sony Creative Software Inc., Middleton, WI, USA)를 사용한 디지털 변조 방식을 채택하였으나, 본 연구에서는 최대한 자연스러운 변조를 위하여 화자가 자극음을 연장 발화한 음성샘플을 활용하였다. 구체적으로는 일본인 화자로 하여금 네 개의 문단자극을 녹음하도록 한 후, 이와는 별도로 각각의 자극음을 1초(1,000 ms)까지 연장발화하도록 하였다. 그 후 연장발화한 자음의 경우 마찰구간(frication duration)이 안정적으로 관찰되는 시점을 기준으로 하여 20, 40, 60, …, 400 ms에 해당하는 구간 총 20개에 대한 마찰소음 샘플을 저장하였다. 모음의 경우 제1, 2, 3 포먼트(F1, F2, F3)가 안정적으로 관찰되는 모음 안정구간(steady state)을 기준으로 20, 40, …, 400 ms에 해당하는 모음 샘플 20개를 저장하였다. 그리고 각 자극음에 대한 위 20개의 샘플을 화자가 발화한 문단자극에 위치한 자극음 정중앙(마찰구간의 정중앙 또는 모음 안정구간)에 삽입하는 방식으로, 서로 다른 문단자극 21개(연장음이 없는 원본 자극 1개와 연장음을 삽입한 20개의 자극)를 생성하였다. 변조하기 전의 각 자극음의 원래 길이는 /s/는 66 ms, /ss/는 101 ms, /i/는 60 ms, /i:/는 123 ms였으며, 단음 대비 장음의 길이 비율(/s/의 길이 대비 /ss/의 길이 = 1.53, /i/의 길이 대비 /i:/의 길이 = 2.05)은 정상적인 범위를 보였다(Kawahara, 2015). Figure 2는 각 자극음에 대한 변조 전, 후의 스펙트로그램을 보여준다.

Figure 2.

Spectrograms of sentence stimuli. A, B: The original, unaltered sentence stimulus. C, D: The sentence stimulus lengthened by 400 ms. The stimulus portions before and after lengthening are indicated with a black circle mark. A: /s/. B: /ss/. C: /i/. D: /i:/.

변조한 음성샘플의 자연스러움 정도를 평가하기 위하여 본 실험에 참여하지 않은 일본어 모국어 화자 3명에게 각 문단자극에 대한 음성샘플 21개를 듣고 5점 척도(1~5점: 1, 매우 부자연스러움; 5, 매우 자연스러움)로 평가하게 하였다. 이때 음성샘플에 포함된 자극음의 길이에 대해 자연스러움을 평가하는 것이 아니라 일본어 문장의 전체적인 성조 패턴이 자연스럽게 들리는지, 음성샘플에서 잡음 또는 기계적인 소음이 들리는지에 주목하여 샘플의 자연스러움 정도를 평가하도록 하였다. 평가 결과 자연스러움 정도의 평균은 /s/, /ss/, /i/, /i:/ 각각이 포함된 문단자극에 대해 4.89[standard deviation (SD) = 0.07], 4.86(SD = 0.05), 4.75(SD = 0.25), 4.71(SD = 0.11)로 나타났다. 해당 결과를 통해 일본인 청자들은 본 연구에서 사용된 음성 샘플을 자연스러운 일본어 문장으로 인식하며, 자극음의 연장 길이를 제외한 기타 요인(성조 패턴의 변화, 잡음, 기계적 소음 등)이 청지각적 평가 결과에 거의 영향을 미치지 않을 것으로 판단하고 실험을 진행하였다.

실험 장비 및 환경

지각 실험은 방음 처리가 되어 있는 서울 소재 대학교의 음성학 실험실에서 진행하였다. 연구 대상자는 컴퓨터 모니터(LG M1950D; LG Electronics, Seoul, Korea) 화면에 표시되는 엑셀(Microsoft Excel) 파일에서 음성샘플 파일을 클릭하여 듣고, 해당 문단자극에 포함된 자극음의 길이가 정상인지 비정상인지를 이변량 척도로 평가하였다. 녹음된 문단자극은 이어폰(EarPods; Apple Inc., Cupertino, CA, USA)을 통해 적절한 세기(75 dB SPL 이내) (Rami et al., 2005)로 제공되었다. 지각 결과 입력은 Figure 1에서 볼 수 있듯이 스크롤 막대를 위아래로 움직여 0(정상) 또는 1(비정상) 사이에서 선택하거나, 입력칸에 직접 0 또는 1의 숫자를 컴퓨터 자판으로 입력하여 응답할 수 있도록 하였다. 하나의 엑셀 파일에 5개의 샘플평가 문항과 5회의 본 실험을 제공하였으며, 각 회에서는 21개의 음성샘플이 무작위 순서로 제공되었다. 즉, 각 대상자는 하나의 문단자극에 대해 총 105(21 × 5)번 응답 결과를 제공하였다.

분석 방법

각 자극음에 대해 비정상으로 인식되는 연장음의 최소길이를 측정하기 위해 수신자 조작 특성(receiver operating characteristic, ROC) 곡선 분석을 실시하였다. ROC 곡선 분석은 의학 분야에서 진단 도구의 성능 또는 예측력을 평가하거나, 환자 진단 시에 절단점(cut-off value)을 찾기 위해 사용되는 방법이다(Obuchowski & Bullen, 2018). 본 연구에서는 청자들이 자극음을 정상 또는 비정상으로 판단하는 절단점을 구하기 위해 ROC 곡선 분석을 사용하였다. 나아가 청자들이 연장음을 비정상으로 지각하는 최소길이를 구하기 위해 Youden’s index를 사용하였다. Youden’s index는 이변량 척도를 사용하는 진단 도구의 수행력을 보여주는 지표로, ROC 곡선상에서 [민감도(sensitivity) + 특이도(specificity) - 1]로 구해지는 값이다 (Rücker & Schumacher, 2010). 먼저 ROC 곡선상에서 자극음이 연장된 길이(즉, 0, 20, …, 380, 400 ms)에 대한 민감도와 특이도를 각각 측정한 뒤, 해당 값들의 연산을 통해 Youden’s index가 최댓값이 되는 최적 절단점(optimal cut-off value)을 구하였다. 이를 통해 일본어의 홑자음(/s/), 겹자음(/ss/), 단모음(/i/), 장모음(/i:/) 각각에 대한 비정상적인 연장음 지각의 최소 길이를 측정하였으며, 아울러 최소길이에 대해 각 분절음의 원 길이 대비 증가 비율[즉, (분절음의 최소 연장길이 / 분절음의 원래 길이) × 100]도 측정하였다. 이 결과를 바탕으로 홑자음(/s/)과 겹자음(/ss/), 단모음(/i/)과 장모음(/i:/)이 연장음의 최소길이 및 원길이 대비 최소길이의 증가 비율에서 차이를 나타내는지를 분석하여, 분절음의 내재적 길이가 최소길이와 관련된 수량적 기준에 영향을 미치는지 알아보았다. ROC 곡선 분석을 위해 SPSS version 21.0(IBM Corp., Armonk, NY, USA)을 사용하였다.

RESULTS

자음(홑자음 대 겹자음)

ROC 곡선 분석 및 Youden’s index 검사 결과 일본인 청자들이 비정상으로 인식하는 각 자극음의 최소 연장길이는 홑자음 /s/의 경우 70 ms[민감도 = 93.7%, 특이도 = 94%, area under ROC curve (AUC) = 0.97, p < 0.001], 겹자음 /ss/의 경우 130 ms(민감도 = 91.1%, 특이도 = 73%, AUC = 0.90, p < 0.001)로 나타났다. 다시 말해서 자음의 경우 /s/는 원래 길이 66 ms에서 70 ms 연장된 136 ms일 때 비정상적인 말소리로 인식되기 시작하였으나, 이에 비해 겹자음 /ss/는 원래 길이 101 ms에서 130 ms 늘어난 231 ms일 때 비정상으로 인식되어, 홑자음과 겹자음의 최소 연장길이 사이에 최소 60 ms의 차이를 보였다.

더불어 일본인 청자들이 비정상으로 인식하는 연장음의 최소길이가 각 분절음의 원길이에서 얼마나 증가한 것인지 비율을 측정한 결과, 홑자음 /s/의 경우 원래 음소의 길이에서 106%[즉, (70 ms / 66 ms) × 100], 겹자음 /ss/의 경우 129%[즉, (130 ms / 101 ms) × 100] 증가한 값으로 겹자음이 홑자음보다 23% 더 높은 비율을 보였다.

모음(단모음 대 장모음)

ROC 곡선 분석 및 Youden’s index 검사 결과 일본인 청자들이 비정상으로 인식하는 각 자극음의 최소 연장길이는 단모음 /i/의 경우 70 ms(민감도 = 95.7%, 특이도 = 84.5%, AUC = 0.96, p < 0.001), 장모음 /i:/의 경우 170 ms(민감도 = 84.3%, 특이도 = 84.3%, AUC = 0.91, p < 0.001)로 나타났다. 다시 말해서 단모음 /i/는 원래 길이 60 ms에서 70 ms 연장된 130 ms에서, 장모음 /i:/는 원길이 123 ms에서 170 ms 연장된 293 ms에서 비정상으로 지각되었으며, 단모음과 장모음의 연장 길이 사이에는 최소 100 ms의 차이가 나타났다. 즉, 자음의 경우와 마찬가지로 청자들이 단모음과 장모음을 비정상적으로 인식하는 수량적 기준에도 차이가 나타났다.

더 나아가 청자들이 분절음을 비정상으로 인식하기 시작한 최소길이를 각 분절음의 원길이에 대한 증가 비율로 측정한 결과 단모음 /i/의 경우 117%[즉, (70 ms / 60 ms) × 100], 장모음 /i:/의 경우 138%[즉, (170 ms / 123 ms) × 100]인 것으로 나타났다. 자음에서의 양상과 마찬가지로 해당 비율에 대해 장모음이 단모음보다 21% 더 높은 수치를 보였다. Figure 3은 각 자극음에 대한 ROC 곡선을, Table 1은 자극음들의 ROC 곡선에 대한 AUC 및 최적 절단값에서 측정된 민감도와 특이도를 보여준다.

Figure 3.

Receiver operating characteristic curve graphs. A: /s/, B: /ss/, C: /i/, D: /i:/. x-axis: 1-specificity (or non-specificity), y-axis: sensitivity. The blue line represents the actual performance of the Japanese listeners’ perceptual judgments, while the green diagonal line represents the performance of random guess.

AUC and optimal cut-off values of different stimulus sounds

DISCUSSIONS

먼저 연구 결과를 요약하자면 일본어를 모국어로 하는 일반인 청자들은 일본어 단음과 장음(즉, /s/와 /ss/, /i/와 /i:/)을 비정상으로 인식하는 연장음의 최소길이에 있어 차이를 보였다. 자음의 경우 /s/는 136 ms 이상일 때 비정상적인 말소리로 인식되기 시작하였으나, 이에 비해 겹자음 /ss/는 231 ms 이상일 때 비정상으로 인식되었다. 모음의 경우 단모음 /i/는 130 ms 이상, 장모음 /i:/는 293 ms 이상일 때 비정상으로 지각되어 자음과 모음 모두에서 단음에 대한 비정상 지각의 최소길이가 장음의 최소길이보다 짧게 나타났다.

더 나아가 각 분절음의 원길이 대비 지각 한계치의 증가 비율도 자음과 모음 모두에서 단음과 장음 사이에 차이가 나타났다. 구체적으로는 /s/의 경우 106%, /ss/의 경우 129%, /i/의 경우 117%, 그리고 /i:/의 경우 138%로 나타나 자음과 모음 모두에서 장음보다 단음에 대해 낮은 비율이 관찰되었다.

이러한 연구 결과를 바탕으로 몇 가지 논의를 제시한다. 일본인 청자들이 비정상으로 인식하는 연장음의 최소길이와 분절음의 원길이 대비 증가 비율 모두에서 단음과 장음 사이에 차이가 나타났다. 일본인 청자들은 분절음의 비정상적인 정도를 평가함에 있어서 장음보다 단음에 대해 더욱 민감하게 반응하였다. 즉, 단음은 70 ms만(또는 원길이 대비 106%나 117%만) 연장되어도 비정상적으로 인식한 반면, 장음은 130 ms나 170 ms(또는 원길이 대비 129%나 138%) 연장되었을 때 비로소 비정상적인 말소리로 인식하였다. 이를 통해 음소가 가지고 있는 내재적 길이가 짧을수록 청자들이 분절음 길이의 증감에 민감하게 반응하고 있음을 알 수 있다. 이는 결국 분절음의 길이라는 언어 내재적 요인이 청자들의 연장음 지각에 영향을 미친다는 것을 보여주는 결과라고 할 수 있다. 나아가 이는 말더듬의 핵심행동 중 하나인 말소리 연장 지각과 관련해, 원음소의 내재적 길이가 비정상으로 지각하는 연장음의 최소길이에 유의하게 영향을 미치는 요인임을 시사하는 결과라 할 수 있다.

한편 Jones et al.(2005)에서는 원래 음소의 길이에서 38% 이상 길어졌을 때 이를 비정상적인 연장음으로 지각한다는 하나의 일반화된 규칙을 제시한 바 있다. 예를 들어 원래 분절음의 길이가 20 ms인 경우에는 원길이보다 8 ms(= 20 × 0.38) 이상 길어졌을 때(즉, 분절음의 전체 길이가 28 ms 이상일 때), 원래 분절음의 길이가 40 ms인 경우에는 원길이보다 15 ms(= 40 × 0.38) 이상 길어졌을 때(즉, 분절음의 전체 길이가 55 ms 이상일 때) 각각을 비정상적인 연장음으로 지각한다는 것이다.

그러나 일본어 단음과 장음을 비정상적으로 지각하는 최소 길이가 원래 분절음의 길이 대비 100% 이상(구체적으로는 106~138%) 증가한 값으로 나타난 본 연구의 결과는 원길이에서 38% 이상 길어졌을 때 비정상적인 연장음으로 인식된다는 Jones et al.(2005)의 결과보다는 유의하게 긴 최소길이의 양상을 보여주고 있다. 이러한 상대적인 비율에서 차이를 보이는 원인과 관련하여, 두 연구의 지각 실험에서 청자들이 수행한 과제의 종류가 달랐다는 점에 주목할 필요가 있다. 구체적으로 Jones et al. (2005)은 청자들에게 특정 분절음을 듣고 해당 말소리가 연장(‘a target sound to be prolonged’)되었는지에 대한 청지각적 평 가를 내리게 한 반면, 본 연구에서는 비정상적으로 길게 들리는지(‘a target sound to be abnormally long’)의 여부를 평가하도록 하였다. 즉, Jones et al.(2005)의 연구에 참여한 청자들은 ‘연장음’으로 인식되기 시작하는 분절음의 최소길이에 대한 평가를 내린 반면에, 본 연구에 참여한 일본인 청자들은 ‘비정상적인 연장음’으로 지각되는 최소길이와 관련해 평가하였다는 것이다. 평가 대상이 같은 연장음이라도 해당 소리가 다소 유창한 연장음(즉, 분절음의 길이가 길어 유창함이 다소 떨어지지만 정상적인 유창성 범위 내라고 수용할 수 있는 연장음)인지 혹은 비유창한 연장음(즉, 연장 길이가 매우 길어 더이상 정상적인 유창성 범위 내에 속한다고 할 수 없는 연장음)인지에 대한 청자들의 청지각적 평가 기준은 달리 존재할 수 있으며, 어떤 기준을 가지고 평가하였는지에 따라 분절음의 원길이 대비 연장음으로 인식되는 최소길이의 증가 비율도 38% 이상과 100% 이상으로 달리 나타났다고 볼 수 있을 것이다. 실제로 Kawai et al.(2005)은 지각 실험을 통해 청자들이 ‘정상(normal)’, ‘다소 유창함(slightly fluent)’, ‘다소 비유창함(slightly disfluent)’, ‘매우 비유창함(extremely disfluent or stuttered)’으로 지각하는 연장음의 길이에 유의한 차이가 나타났다는 결과를 보인 바 있다. 구체적으로는 영어 단어 ‘shape’의 첫소리인 /ʃ/의 길이가 120~170 ms일 때는 청자들이 해당 분절음을 ‘정상(normal)’으로, 171~268 ms일 때는 ‘다소 유창함(slightly fluent)’으로, 268~445 ms일 때는 ‘다소 비유창함(slightly disfluent)’으로, 그리고 445 ms 이상일 때는 ‘매우 비유창함(extremely disfluent or stuttered)’으로 평가했다고 보고하였다. 정상 범주 내의 /ʃ/의 원길이가 120 ms라고 하였을 때, ‘다소 유창함’으로 인식되기 시작하는 171 ms는 원길이 120 ms에서 42% 증가한 길이이며, ‘다소 비유창함’으로 인식되기 시작하는 268 ms의 경우, 원길이 대비 약 123% 길어진 수치이다. 다시 말해 이러한 결과는 연장음의 유창성 정도를 평가하는 다양한 청지각적 기준(‘다소 유창함’, ‘다소 비유창함’, ‘매우 비유창함’ 등)이 존재하며, 청자가 어떤 기준을 염두에 두고 연장음을 평가하는지에 따라 지각 한계치, 그리고 분절음의 원길이 대비 지각 한계치의 비율에도 차이가 나타날 수 있다는 점을 시사한다. 이와 같은 맥락에서 청자들에게 ‘연장음’으로 인식되기 시작하는 최소길이를 측정한 Jones et al.(2005)의 연구 결과(원길이 대비 38% 증가)와 ‘비정상적인 연장음’으로 인식되기 시작하는 최소길이를 측정한 본 연구의 결과(원길이 대비 106~138% 증가)가 보이는 차이 또한 청자에게 제시한 연장음 평가 기준(‘연장음’ 대 ‘비정상적인 연장음’)의 차이에서 발생하는 것으로 설명할 수 있다.

종합하자면 일본어 단음과 장음을 대상으로 일본인 청자들의 비정상적인 연장음에 대한 지각을 살핀 본 연구 결과를 통해 분절음의 종류, 청자 간 차이, 발화속도뿐만 아니라 분절음의 내재적 길이 차이 또한 연장음 지각에 영향을 미치는 또 다른 하나의 요인임을 알 수 있다. 또한 연장음의 지각 한계치 및 원길이 대비 증가 비율은 청자들이 분절음의 유창성 정도를 평가하는 척도(‘다소 유창함’, ‘다소 비유창함’, ‘매우 비유창함’ 등)에 따라 달라지는 것으로 보인다.

이러한 논의를 바탕으로 말더듬 연장에 대한 평가와 관련해 제안을 하자면, 먼저 비정상적으로 지각하는 최소길이가 분절음, 발화속도, 청자, 그리고 분절음의 내재적 길이 등과 같은 다양한 언어 내·외적 요인들의 영향을 받을 수 있기에 다양한 요인들을 고려한 좀 더 포괄적인 수준에서의 최소길이에 대한 수량적 기준을 제시할 필요가 있다고 하겠다. 이전 연구들의 결과를 종합해 볼 때(Jones et al., 2005; Lingwall & Bergstrand, 1979; Park et al., 2018; Susca & Healey, 2002; Zebrowski, 1991, 1994) 비정상적으로 지각되는 연장음의 최소길이가 235 ms에서 403 ms에 이른다는 점에서, 말소리가 0.5초(500 ms) 이상 지속되면 말더듬 연장으로 규정한다는 견해(Van Riper, 1982)는 여전히 고려될 수 있는 하나의 타당한 방안이 될 수 있을 것이다. 또한 연장음 지각에 있어 특정 분절음의 차이에 상관 없이 비교적 일정한 비율을 보인다는 점을 고려할 때(Jones et al., 2005), 절대적인 수치가 아닌 분절음의 원길이 대비 비율에 따른 평가 방식도 제안해 볼 수 있다. 하지만 본 연구의 결과를 통해 보았듯이, 분절음의 내재적 길이의 차이에 따라 비정상적으로 지각되는 최소길이뿐만 아니라 비율도 달라질 수 있기에 실제 사용에 주의가 요구된다고 하겠다. 마지막으로 유창성 평가에 있어 ‘다소 유창함’, ‘다소 비유창함’, ‘매우 비유창함’ 등과 같은 다양한 척도가 있을 수 있기에 유창성 정도를 평가하는 방법으로 연장음의 길이에 따른 차별적인 점수 부여 방식을 제안해 본다. 즉, 특정 수량적 기준(0.5초 이상)에 따라 단지 말더듬인지 아닌지에 대해 이분적(dichotomous)으로만 평가하는 것을 넘어, 조금 더 세밀한 분석을 위해서 연장 길이에 따라 매우 유창함, 다소 유창함, 다소 비유창함, 매우 비유창함 등으로 분류할 수 있는 수량적 기준을 마련하고, 이에 따라 차등적인 점수를 부여하는 것이다. 말더듬이 진전될수록 막힘이나 연장을 포함한 말더듬의 길이가 증가한다는 점을 고려할 때(Lee, 2005) 이러한 평가방식은 충분한 임상적 타당도를 지닌 가능한 평가 방안이 될 수 있을 것이라 사료된다.

후속연구에서 고려할 몇몇 사항을 짚어 본다. 첫째, 본 연구에서는 일본어의 특정 마찰음과 모음만을 대상으로 지각 연구를 수행하였다. 더불어 본 연구에서는 최소대립쌍을 구성하기 위하여 어중에 위치한 마찰음 및 어두에 위치한 모음만을 대상으로 하였다. 따라서 다른 분절음은 물론 어두(word-initial) 환경의 자음 등에 대해서도 지각 양상을 살피고 비교할 필요가 있다고 하겠다. 둘째, 본 연구에서는 실험 대상자들에게 이변량 척도(0, 1)로만 평가하게 하였다. 이러한 이변량 척도는 청자들의 지각 양상이 특정 최소길이를 기준으로 정상/비정상의 두 범주로 구분된다는 범주적 양상(categorical perception) (Lisker & Abramson, 1967; Pisoni et al., 1982; Pisoni et al., 1994)을 전제로 하고 있다. 하지만 기존의 연구(Kawai et al., 2005, 2007; Park et al., 2018)에서 마찰음에 대한 ‘매우 유창함’에서 ‘매우 비유창함’에 이르는 점진적이면서도 연속적인 지각 양상을 밝힌 바 있으므로, 후속연구에서는 자극음에 대해 1~100점 척도를 바탕으로 한 평가를 통해 연속적인 지각 양상이 나타나는지에 대해서도 살필 필요가 있다고 하겠다. 셋째, 논의에서도 언급한 바와 같이 청지각적 평가 기준(‘연장음’ 대 ‘비정상적 연장음’)을 어떤 것으로 설정하는지에 따라 연장음에 대한 청자들의 평가 결과가 다르게 나타날 수 있다. 따라서 후속연구에서는 적절한 실험 설계를 통해 이러한 평가 기준들이 연장음 지각의 최소길이와 관련해 미치는 영향에 대해서도 알아볼 필요가 있을 것이다(Kawai et al., 2005). 넷째, 본 연구에서는 20, 30대의 대상자 12명(남성 2명, 여성 10명)을 통해 결과를 제시하고 있는데, 비교적 다양한 성별이나 연령을 포함한 대규모의 대상자를 모집해 연장음 지각과 관련해 모집단(즉, 일본어 모국어 화자)의 특성을 좀 더 잘 보여주는 연구를 진행할 필요가 있겠다. 마지막으로 이를 통해 남녀 간의 차이뿐 아니라 연령대별로 지각 결과에 차이가 나타나는지에 대해서도 살펴볼 필요가 있을 것이다.

Acknowledgements

The authors are grateful to the Japanese speakers who participated in this study.

Notes

Ethical Statement

The entire procedure of this research was approved by the Institutional Review Board of Sogang University (IRB no. SGUIRB-A-1910-45).

Declaration of Conflicting Interests

There are no conflict of interests.

Funding

N/A

Author Contributions

M.K. designed and performed experiments, analyzed data, and wrote the paper; I.C. designed experiments, analyzed data, wrote the paper, and provided critical revision; J.P. designed experiments, analyzed data, provided statistical analysis, wrote the paper, and provided critical revision. Also, the authors discussed the results together and implications and commented on the manuscript at each stage.

References

1. Brown S. F.. 1945;The loci of stuttering in the speech sequence. The Journal of Speech Disorders 10(3):181–192.
2. Cordes A. K.. 2000;Individual and consensus judgments of disfluency types in the speech of persons who stutter. Journal of Speech, Language, and Hearing Research 43(4):951–964.
3. Gregory H. H., Campbell J. H., Gregory C. B., Hill D. G.. 2003. Stuttering Therapy: Rationale and Procedures Boston, MA: Allyn and Bacon.
4. Guitar B.. 1998. Stuttering: An Integrated Approach to Its Nature and Treatment 2nd edth ed. Baltimore, MD: Williams & Wilkins.
5. Jones K., Logan K. J., Shrivastav R.. 2005. Poster presented at the annual meeting of the American Speech-Language-Hearing Association: Duration, Rate, and Phoneme-Type Effects on Listeners’ Judgments of Prolongations San Diego, CA: San Diego Convention Center.
6. Kawahara S.. 2015. The phonetics of sokuon, or geminate obstruents. In : Kubozono H., ed. Handbook of Japanese Phonetics and Phonology p. 43–78. Berlin: De Gruyter Mouton.
7. Kawai N., Healey E. C.. 2012. Poster presented at the annual meeting of the American Speech-Language-Hearing Association: Listeners’ Perception of Digitally Manipulated Moments of Audible Hesitations Atlanta, GA: Georgia World Congress Center.
8. Kawai N., Healey E. C., Carrell T. D.. 2005. Poster presented at the annual meeting of the American Speech-Language-Hearing Association: Identification and Discrimination of Phoneme Prolongation San Diego, CA: San Diego Convention Center.
9. Kawai N., Healey E. C., Carrell T. D.. 2007;Listeners’ identification and discrimination of digitally manipulated sounds as prolongations. The Journal of the Acoustical Society of America 122(2):1102–1110.
10. Kubozono H., Itô J., Mester A.. 2009. Consonant gemination in Japanese loanword phonology. In : Linguistic Society of Korea, ed. Current Issues in Unity and Diversity of Languages: Collection of the Papers Selected from the 18th International Congress of Linguistics p. 953–973. Seoul: Dongam.
11. Lee S. W.. 2005. Fluency Disorders Seoul: Sigma Press.
12. Lingwall J. B., Bergstrand G. G.. 1979. Poster presented at the annual meeting of the American Speech-Language-Hearing Association: Perceptual Boundaries for Judgments of “Normal,” “Abnormal,” and “Stuttered” Prolongations Atlanta, GA: Georgia World Congress Center.
13. Lisker L., Abramson A. S.. 1967;Some effects of context on voice onset time in English stops. Language and Speech 10(1):1–28.
14. Logan K. J.. 2015. Fluency Disorders San Diego, CA: Plural Publishing.
15. Obuchowski N. A., Bullen J. A.. 2018;Receiver operating characteristic (ROC) curves: Review of methods with applications in diagnostic medicine. Physics in Medicine and Biology 63(7):07T. R01.
16. Park J., Jun J. P., Chung I.. 2018;Comparison of perception of the prolonged /s/ in Korean by average adult listeners and speech-language pathologists. Audiology and Speech Research 14(3):184–193.
17. Pisoni D. B., Aslin R. N., Perey A. J., Hennessy B. L.. 1982;Some effects of laboratory training on identification and discrimination of voicing contrasts in stop consonants. Journal of Experimental Psychology: Human Perception and Performance 8(2):297–314.
18. Pisoni D. B., Lively S. E., Logan J. S.. 1994. Perceptual learning of nonnative speech contrasts: Implications for theories of speech perception. In : Goodman J. C., Nusbaum H. C., eds. The Development of Speech Perception: The Transition from Speech Sounds to Spoken Words p. 121–166. Cambridge, MA: The MIT Press.
19. Rami M. K., Kalinowski J., Rastatter M. P., Holbert D., Allen M.. 2005;Choral reading with filtered speech: Effect on stuttering. Perceptual and Motor Skills 100(2):421–431.
20. Rücker G., Schumacher M.. 2010;Summary ROC curve based on a weighted Youden index for selecting an optimal cutpoint in meta-analysis of diagnostic accuracy. Statistics in Medicine 29(30):3069–3078.
21. Susca M., Healey E. C.. 2002;Listener perceptions along a fluency--disfluency continuum: A phenomenological analysis. Journal of Fluency Disorders 27(2):135–161.
22. Susca M., Healey E. C., Petsche D., Potter A., McCreery R.. 2001. Poster presented at the annual meeting of the American Speech-Language-Hearing Association: Effects of Age and Gender on Perceptions of Stuttering and Fluency New Orleans, LA: New Orleans Convention Center.
23. Tajima K., Kato H., Rothwell A., Akahane-Yamada R., Munhall K. G.. 2008;Training English listeners to perceive phonemic length contrasts in Japanese. The Journal of the Acoustical Society of America 123(1):397–413.
24. Tsujimura N.. 1996. An Introduction to Japanese Linguistics Oxford: Blackwell.
25. Van Riper C.. 1982. The Nature of Stuttering 2nd edth ed. Englewood Cliffs, NJ: Prentice-Hall.
26. Yune Y.. 2018;Native language interference in producing the Korean rhythmic structure: Focusing on Japanese. Phonetics and Speech Sciences 10(4):45–52.
27. Zebrowski P. M.. 1991;Duration of the speech disfluencies of beginning stutterers. Journal of Speech and Hearing Research 34(3):483–491.
28. Zebrowski P. M.. 1994;Duration of sound prolongation and sound/syllable repetition in children who stutter: Preliminary observations. Journal of Speech and Hearing Research 37(2):254–263.

Appendices

Appendix. Stimulus Sounds, Words, and Experimental Phrases

Article information Continued

Figure 1.

A sample Excel (Microsoft Corporation) file used during the perceptual experiment (0: normal, 1: abnormal).

Figure 2.

Spectrograms of sentence stimuli. A, B: The original, unaltered sentence stimulus. C, D: The sentence stimulus lengthened by 400 ms. The stimulus portions before and after lengthening are indicated with a black circle mark. A: /s/. B: /ss/. C: /i/. D: /i:/.

Figure 3.

Receiver operating characteristic curve graphs. A: /s/, B: /ss/, C: /i/, D: /i:/. x-axis: 1-specificity (or non-specificity), y-axis: sensitivity. The blue line represents the actual performance of the Japanese listeners’ perceptual judgments, while the green diagonal line represents the performance of random guess.

Table 1.

AUC and optimal cut-off values of different stimulus sounds

Stimulus AUC p-value Optimal cut-off value (ms) Sensitivity Specificity
/s/ 0.970 < 0.001 70.00 0.937 0.940
/ss/ 0.893 < 0.001 130.00 0.911 0.730
/i/ 0.959 < 0.001 70.00 0.957 0.845
/i:/ 0.910 < 0.001 170.00 0.843 0.843

AUC: area under receiver operating characteristic curve

Stimulus sounds Stimulus words Experimental phrases
/s/ /hasaN/ shachoo-ga shain-tachi-ni ii-mashi-ta
‘bankruptcy’ boss-NOM employee-PL-DAT say-POL-PST
‘The boss said to the employees.’
hukeeki-de kaisha-wa
economic.depression-due.to company-TOP
hasan-shi-mashi-ta
bankruptcy-do-POL-PST
‘The company went bankrupt due to economic depression.’
/ss/ /hassaN/ kinoo karaoke-ni iki-mashi-ta
‘release’ yesterday karaoke-to go-POL-PST
‘Yesterday, I went to karaoke.’
tomodachi-to sutoresu-o hassan-shi-mashi-ta
friend-with stress-ACC release-do-POL-PST
‘I got rid of stress with my friend.’
/i/ /itai/ byooin-de kangoshi-ga kiki-mashi-ta
‘sore’ hospital-LOC nurse-NOM ask-POL-PST
‘The nurse asked in the hospital.’
sono ato itai tokoro-wa ari-masen-ka
that after sore spot-TOP exist-POL.NEG-Q
‘Have you had any sore spots since then?’
/i:/ /i:tai/ keesatsu-ga hannin-ni kiki-mashi-ta
‘want to say’ police-NOM criminal-DAT ask-POL-PST
‘The police asked the criminal.’
nani-ka iitai koto-wa ari-masen-ka
what-Q want.to.say thing-TOP exist-POL.NEG-Q
‘Is there anything you want to say?’