Only when one of a system’s components is no longer accessible, do we realise the impact that component had on the system’s functioning, even when the latter still fulfils its function. This is applicable, for example, in the case of interaction with a person using a face mask as a respiratory system protection tool and we therefore have no access to the vision of their mouth. What we need here is hearing, not seeing the mouth, but the feeling is often that of hearing less. The speaker’s mouth represents the visible articulatory component of human language and is not necessary to the perception of sound itself, but it has an intrinsic value linked to the linguistic sound; analysis of its function may help us to understand how profoundly it permeates speech, not only in its function of producing words. Investigation into the articulatory and multimodal components of speech is the premise of this dissertation. The path it follows aims at understanding and framing the function of the human articulatory system and the relationship that exists between it and the speech it produces. The vibration of the vocal cords, consequent to the passage of air produces sound waves that propagate through the air and reach another human’s ear as voice. The phonatory system enables humans to produce speech: one of the most complex and most widely studied cognitive functions both at the phylogenetic level and at the ontogenetic level. Sound waves are longitudinal waves, namely, waves within which the vibrations produced by the sound source cause an alteration in the density of air molecules, which thus start moving parallel to the direction of the wave alternating compressions and rarefactions of the molecular density, until they return to a state of equilibrium and therefore to silence. Since speech production is not an automatic process, but rather a voluntary act, for it to have an origin and a destination, a linguistic sound wave needs a body (whose phonatory system acts as a sound source), a propagation medium (usually air), and a receiving system to process the sound wave. Speech is the result of a mechanical phenomenon that produces a sound wave which alters the air molecules’ average density. The sound wave, in the form of a linguistic sound, can then be received by the auditory system and processed by the nervous system of the hearer. Speech, therefore, amounts to a sort of transfer of molecular oscillations originated from a body and whose sound output is processed by another body. What is left of the bodily element that produces them, in the complex sequence of sound waves that create speech? What role does bodily experience play in the processing of these molecular oscillations? Could it be that, besides the acoustic information, speech sound waves transfer bodily information of verbal language which leads up to the acoustic processing? And finally, how could such bodily information play a part in the processing of speech sounds that are less clear or less familiar, such as those of a language other than one’s native language? Taking these questions as a starting-point, the aim of this work is to shed light on the role of the bodily dimension of language learning, specifically relating to the act that makes speech possible: the articulatory gesture. The articulatory gesture is the motor act effected by the vocal tract and facial muscles thanks to which language production is enacted. The visible part of the articulatory gesture is the speaker’s mouth movement. The first part of this work examines how seeing the speaker’s articulatory gesture and the multisensory integration of the dual input, visual (articulatory gesture) and auditory (voice), influences acoustic perception, by analysing the aspects linked to the incidence of linguistic experience on selective attention to articulatory cues and the importance they acquire in the processing of speech during development. In this part, the articulatory gesture is presented as the element that confers perceptual salience to the speaker’s face, enriching the context within which the speech input is situated and processed. This route which traces the role of articulatory gestures as a perceptual context that influences acoustic perception facilitates moving towards a more in-depth and embedded level of the relationship between the articulatory system and speech. The second part of the dissertation has its starting point in the data signalling a less efficient audiovisual processing of speech in individuals with a history of specific language impairment (Kaganovich et al., 2016) and in individuals diagnosed with dyslexia (van Laarhoven et al., 2018), (Schaadt et al., 2019), (Rüsseler et al., 2018) and aims to supply elements on the motor nature of speech’s productive and perceptive aspects. Together with a less efficient audiovisual integration of speech inputs (auditory and visual), an atypical speed in linguistic articulation is recorded in individuals with dyslexia: articulation is slower compared to controls both in speech production and in speech motor planning. Furthermore, good lip-reading abilities correlate to better speech production and articulation skills. The final part of the work examines the role that speech’s motor nature may play in the context of second language learning, explaining what the role of the articulatory component may point out in the relationship between the motor system, perception and production of speech. The ability to perceive the acoustic differences of the sounds of a language other than one’s native language cannot always be taken for granted. Japanese people for example have great difficulties in distinguishing the English phonemes /r/ and /l/ which are not differentiated in their language. The phoneme identification performance improves after specific training to allow better identification of the phoneme contrast. The improvement is not limited to perception abilities but extends to an improvement in production abilities for words containing the two phonemes /r/ and /l/ (Bradlow et al., 1997). Neurophysiological investigations carried out during the processing of linguistic sounds and during the vision of speech-producing lip movements alone, have detected the activation of motor areas of the brain involved in speech production. However, in the case of phonemes of a foreign language, there is a greater activation of the brain motor areas compared to the activation recorded when hearing a native language (Wilson & Iacoboni, 2006). This activation becomes greater as the difficulty in the phoneme identification increases, in exactly the same way as with the sounds /r/ and /l/ for Japanese speakers (Callan, Tajima et al., 2003), (Callan et al., 2004). The increase in brain activation in the areas involved in language production in response to the processing of difficult sounds of a language other than one’s native language and during the processing of linguistic sounds of one’s native language pronounced with a foreign accent (Callan et al., 2014) is the sign, for the authors of these studies, of a greater resort to the control systems of the articulatory-auditory feedback. The perceptual improvements following specific training (Callan, Tajima et al., 2003) are, from this viewpoint, the result of the acquisition of the articulatory-auditory and auditory-articulatory maps that intervene to facilitate phonetic identification and on which one needs to rely more for the processing of less easily recognisable sounds (Callan, Tajima et al., 2003), (Callan et al., 2004). The fact that audiovisual exposure to a verbal input (which therefore includes the auditory input associated with the relative articulatory gesture) gives better perceptual results than exposure to the auditory input alone in the processing of difficult phonetic contrasts and in distinguishing the differences in diphthong duration of a foreign language (Navarra & Soto-Faraco, 2007), (Hirata & Kelly, 2010) is compared with the latter studies by Callan and colleagues. The articulatory gesture is presented in this work as an optimal access key for the reconstruction of those auditory-articulatory maps needed for more efficient acoustic processing. Two levels of speech multimodality are identified: the first is an auditory-visual level, relating to the role of the articulatory gesture as a perceptual context for the acoustic input; the second is an auditory-articulatory level related to the increase in the activity in brain motor areas of speech during the processing of a foreign language and to the control systems of the articulatory-auditory feedback in response to a demanding linguistic input of an unfamiliar language. The improvement in perceptual abilities as a result of an audiovisual exposure to the input is explained by the fact that the visible articulatory gesture is the point at which the two levels of speech multimodality converge and thanks to which sound processing is enhanced and is thus a precious element that is not restricted to the processing of one’s native language but extends to the processing and production of linguistic sounds of a second language. It is specifically in the automatic process of the audiovisual integration of the linguistic auditory input and related articulatory gesture that it is possible to find an explicit cue for the creation of the articulatory-auditory and auditory-articulatory maps that enable a more accurate processing of the acoustic input, which may, in turn, be reflected in an improvement of speech production abilities.

È quando una delle componenti di un sistema non è più accessibile, che ci si rende conto dell’impatto, prima poco visibile nell’uso fisiologico, di quella componente sul funzionamento del sistema, anche se quest’ultimo continua comunque ad assolvere alla sua funzione. Questa considerazione è applicabile, per esempio, alla condizione in cui interagiamo con una persona che indossa una mascherina a protezione delle vie respiratorie e non abbiamo, quindi, accesso alla visione della sua bocca. Quello che ci interessa è sentire, non vedere la bocca, eppure la sensazione è spesso quella di sentire di meno. La bocca del parlante rappresenta la componente articolatoria visibile del linguaggio. Essa non è una componente necessaria per percepire il suono, ma ha un valore intrinseco legato al suono linguistico, la cui disamina può aiutare a comprendere in che modo essa permei il linguaggio verbale a un livello profondo, non solo nella funzione di produzione delle parole. L’indagine del ruolo della componente articolatoria e multimodale del linguaggio verbale sta alla base di questo lavoro. Il percorso che segue mira a comprendere e inquadrare la funzione del sistema articolatorio umano e la relazione che esso ha con il linguaggio verbale che produce. Al passaggio d’aria, la vibrazione delle corde vocali produce onde sonore che si propagano poi nell’aria e arrivano all’orecchio di un’altra persona sotto forma di voce. L’apparato di fonazione di cui è dotato, permette all’uomo di dare vita, attraverso la voce, a una delle funzioni cognitive più complesse e più studiate sia a livello filogenetico che ontogenico: il linguaggio verbale. Le onde sonore sono onde longitudinali, ossia onde in cui le vibrazioni prodotte dalla sorgente sonora producono un’alterazione nella densità delle molecole dell’aria, che iniziano così a muoversi parallelamente alla direzione dell’onda in un alternarsi di compressioni e rarefazioni della densità molecolare, fino al ritorno al punto di equilibrio e quindi al silenzio (Fishbane et al., 1993). Essendo l’atto verbale un atto non automatico, bensì volontario, perché possa avere origine e destinazione, l’onda sonora linguistica ha bisogno di un corpo (il cui sistema di fonazione agisce come sorgente sonora), di un mezzo di propagazione (solitamente l’aria), e di un sistema ricevente che processi ed elabori l’onda sonora. Il linguaggio verbale è il prodotto di un fenomeno meccanico che crea un’onda sonora che altera la densità media delle molecole dell’aria. L’onda sonora, nella forma di suono linguistico, può poi essere processata dal sistema uditivo ed elaborata da quello nervoso del ricevente. Il linguaggio verbale si configura quindi come una sorta di passaggio di oscillazioni molecolari che vengono originate da un corpo e il cui output sonoro viene processato ed elaborato da un altro corpo. Ma cosa rimane dell’elemento corporeo che le produce, nella complessa concatenazione di onde sonore che danno vita al linguaggio verbale? Che ruolo ha l’esperienza corporea nel processamento e nell’elaborazione di queste oscillazioni molecolari? È possibile che le onde sonore linguistiche trasferiscano, oltre all’informazione sonora, un’informazione corporea del linguaggio verbale, propedeutica al suo processamento? E, infine, in che modo tale eventuale informazione corporea può entrare in gioco nella percezione di input sonori poco chiari o poco familiari, come ad esempio quelli di una lingua diversa da quella materna? L’obiettivo di questo lavoro è quello di fare luce, partendo da queste domande, sul ruolo della dimensione corporea nell’apprendimento del linguaggio verbale proprio relativamente all’atto che lo realizza: il gesto articolatorio. Il gesto articolatorio è l’atto motorio compiuto dal tratto vocale e dai muscoli facciali grazie al quale si realizza la produzione linguistica. La parte visibile del gesto articolatorio è rappresentata dal movimento della bocca di chi parla. Nella prima parte di questo lavoro, si approfondisce in che modo la visione del gesto articolatorio altrui e l’integrazione multisensoriale del doppio input, visivo (gesto articolatorio) e acustico (voce), influenzino la percezione sonora, approfondendo gli aspetti legati all’incidenza dell’esperienza linguistica sull’attenzione selettiva agli indizi articolatori e sull’importanza che essi acquistano nel processamento dei suoni linguistici nel corso dello sviluppo. Il gesto articolatorio è presentato nel ruolo di elemento che attribuisce salienza percettiva al volto del parlante, arricchendo il contesto in cui è collocato e processato l’input verbale. Questo percorso attraverso il ruolo del gesto articolatorio quale contesto percettivo che influisce sul processamento sonoro permette di spostarsi con più agilità verso un livello più profondo e più radicato del rapporto tra sistema articolatorio e linguaggio verbale. A partire dal dato sulla minore efficienza nel processamento audiovisivo degli input verbali negli individui con storia di disturbo specifico del linguaggio (Kaganovich et al., 2016) e in quelli con diagnosi di dislessia (van Laarhoven et al., 2018), (Schaadt et al., 2019), (Rüsseler et al., 2018), si apre la seconda parte della trattazione, tesa a fornire elementi sulla natura motoria degli aspetti produttivi e percettivi del linguaggio verbale. Oltre a una minore efficienza nel processo di integrazione audiovisiva degli input verbali (acustico e visivo), infatti, è stata riscontrata negli individui con diagnosi di dislessia una anomalia nella velocità di articolazione dei suoni linguistici: essa risulta più lenta rispetto a quella del gruppo di controllo, sia relativamente alla produzione linguistica, sia relativamente alla pianificazione motoria del gesto articolatorio durante il flusso verbale (Fawcett & Nicolson, 2002). Inoltre, buone capacità di lettura del labiale sono correlate a migliori capacità di produzione e articolazione verbale (Heikkilä et al., 2017). Nella parte conclusiva si analizza il ruolo che la natura motoria del linguaggio verbale può avere nel contesto dell’apprendimento di una seconda lingua, spiegando che cosa possa segnalare il ruolo della componente articolatoria rispetto alla relazione tra sistema motorio, percezione e produzione del linguaggio. La capacità di percepire le differenze sonore tra i suoni di una lingua diversa da quella materna non è sempre scontata. I giapponesi, per esempio hanno grosse difficoltà nella distinzione sonora dei fonemi /r/ e /l/, che nella loro lingua non sono differenziati né acusticamente né produttivamente (Miyawaki et al., 1975). Tale capacità di identificazione migliora però a seguito di un training specifico per l’identificazione del contrasto fonetico. Il miglioramento non si limita all’incremento della capacità percettiva, ma si estende al miglioramento della capacità di produzione di parole contenenti i due fonemi /r/ e /l/ (Bradlow et al., 1997). Le indagini neurofisiologiche condotte durante il processamento dei suoni linguistici e durante la visione del solo movimento delle labbra relativo alla loro produzione rilevano l’attivazione di aree cerebrali motorie coinvolte nella produzione di linguaggio (Fadiga et al., 2002), (Watkins et al., 2003), (Wilson et al. 2004). Tuttavia, nel caso di fonemi di una lingua straniera, l’attivazione nelle aree motorie è maggiore rispetto a quella rilevata durante l’ascolto della lingua materna (Wilson & Iacoboni, 2006) e aumenta all’aumentare della difficoltà di identificazione dei fonemi, come nel caso dei suoni consonantici /r/ e /l/ per i giapponesi (Callan, Tajima et al., 2003), (Callan et al., 2004). L’incremento dell’attività cerebrale nelle aree deputate alla produzione linguistica in risposta al processamento di suoni difficili di una lingua che non è la propria lingua madre e durante il processamento di suoni della propria lingua materna pronunciati con un accento straniero (Callan et al., 2014) indica per gli autori di questi studi un maggiore ricorso, nel caso di un input sonoro con cui si ha poca o nessuna familiarità, ai sistemi di controllo del feedback articolatorio-uditivo. I miglioramenti percettivi a seguito di un training mirato (Callan, Tajima et al., 2003) sono, in quest’ottica, il risultato dell’acquisizione di mappe articolatorio-uditive e uditivo-articolatorie che intervengono a facilitare l’identificazione fonetica e alle quali serve fare maggiore ricorso nel caso di suoni più difficilmente riconoscibili (Callan, Tajima et al., 2003), (Callan et al., 2004). Il fatto che l’esposizione audiovisiva allo stimolo verbale (che includa dunque la presentazione dell’input sonoro associato al relativo gesto articolatorio) nel caso di contrasti fonetici difficili o di differenze nella durata dei dittonghi di una seconda lingua dia risultati percettivi migliori rispetto all’esposizione unicamente sonora (Navarra & Soto-Faraco, 2007), (Hirata & Kelly, 2010) è messo in relazione proprio con questi ultimi studi. Il gesto articolatorio viene presentato come una chiave d’accesso ottimale per la ricostruzione di quelle mappe uditivo-articolatorie utili a un più efficace processamento sonoro. Vengono infatti individuati due livelli di multimodalità del linguaggio verbale: il primo acustico-visivo, relativo al ruolo del gesto articolatorio quale contesto percettivo per l’input sonoro; il secondo, acustico-articolatorio relativo all’incremento dell’attività cerebrale nelle aree motorie del linguaggio per il processamento di una lingua straniera e al maggiore ricorso ai sistemi di controllo del feedback articolatorio-uditivo in risposta a un input linguistico impegnativo di una lingua non familiare. L’incremento della capacità percettiva con l’esposizione audiovisiva all’input, anziché unicamente sonora, si spiega col fatto che il gesto articolatorio visibile si configura come il punto nel quale i due livelli di multimodalità del linguaggio verbale (acustico-visiva e acustico-articolatoria) convergono e grazie al quale il processamento sonoro risulta facilitato. Il gesto articolatorio visibile si pone quindi come un elemento prezioso non solo nell’ambito del processamento della lingua materna, ma anche nell’ambito del processamento e della produzione di suoni linguistici di una seconda lingua. Proprio a partire dal processo automatico di integrazione audiovisiva tra input sonoro e gesto articolatorio, infatti, è possibile reperire un indizio esplicito per la creazione delle mappe articolatorio-uditive e uditivo-articolatorie funzionali al più accurato processamento dell’input sonoro, che può a sua volta riflettersi in un miglioramento della capacità di produzione linguistica orale.

Il corpo della voce - integrazione audiovisiva e gesto articolatorio nello sviluppo del linguaggio e nell'apprendimento di una seconda lingua

ARCOVITO, Marta
2021-03-10

Abstract

Only when one of a system’s components is no longer accessible, do we realise the impact that component had on the system’s functioning, even when the latter still fulfils its function. This is applicable, for example, in the case of interaction with a person using a face mask as a respiratory system protection tool and we therefore have no access to the vision of their mouth. What we need here is hearing, not seeing the mouth, but the feeling is often that of hearing less. The speaker’s mouth represents the visible articulatory component of human language and is not necessary to the perception of sound itself, but it has an intrinsic value linked to the linguistic sound; analysis of its function may help us to understand how profoundly it permeates speech, not only in its function of producing words. Investigation into the articulatory and multimodal components of speech is the premise of this dissertation. The path it follows aims at understanding and framing the function of the human articulatory system and the relationship that exists between it and the speech it produces. The vibration of the vocal cords, consequent to the passage of air produces sound waves that propagate through the air and reach another human’s ear as voice. The phonatory system enables humans to produce speech: one of the most complex and most widely studied cognitive functions both at the phylogenetic level and at the ontogenetic level. Sound waves are longitudinal waves, namely, waves within which the vibrations produced by the sound source cause an alteration in the density of air molecules, which thus start moving parallel to the direction of the wave alternating compressions and rarefactions of the molecular density, until they return to a state of equilibrium and therefore to silence. Since speech production is not an automatic process, but rather a voluntary act, for it to have an origin and a destination, a linguistic sound wave needs a body (whose phonatory system acts as a sound source), a propagation medium (usually air), and a receiving system to process the sound wave. Speech is the result of a mechanical phenomenon that produces a sound wave which alters the air molecules’ average density. The sound wave, in the form of a linguistic sound, can then be received by the auditory system and processed by the nervous system of the hearer. Speech, therefore, amounts to a sort of transfer of molecular oscillations originated from a body and whose sound output is processed by another body. What is left of the bodily element that produces them, in the complex sequence of sound waves that create speech? What role does bodily experience play in the processing of these molecular oscillations? Could it be that, besides the acoustic information, speech sound waves transfer bodily information of verbal language which leads up to the acoustic processing? And finally, how could such bodily information play a part in the processing of speech sounds that are less clear or less familiar, such as those of a language other than one’s native language? Taking these questions as a starting-point, the aim of this work is to shed light on the role of the bodily dimension of language learning, specifically relating to the act that makes speech possible: the articulatory gesture. The articulatory gesture is the motor act effected by the vocal tract and facial muscles thanks to which language production is enacted. The visible part of the articulatory gesture is the speaker’s mouth movement. The first part of this work examines how seeing the speaker’s articulatory gesture and the multisensory integration of the dual input, visual (articulatory gesture) and auditory (voice), influences acoustic perception, by analysing the aspects linked to the incidence of linguistic experience on selective attention to articulatory cues and the importance they acquire in the processing of speech during development. In this part, the articulatory gesture is presented as the element that confers perceptual salience to the speaker’s face, enriching the context within which the speech input is situated and processed. This route which traces the role of articulatory gestures as a perceptual context that influences acoustic perception facilitates moving towards a more in-depth and embedded level of the relationship between the articulatory system and speech. The second part of the dissertation has its starting point in the data signalling a less efficient audiovisual processing of speech in individuals with a history of specific language impairment (Kaganovich et al., 2016) and in individuals diagnosed with dyslexia (van Laarhoven et al., 2018), (Schaadt et al., 2019), (Rüsseler et al., 2018) and aims to supply elements on the motor nature of speech’s productive and perceptive aspects. Together with a less efficient audiovisual integration of speech inputs (auditory and visual), an atypical speed in linguistic articulation is recorded in individuals with dyslexia: articulation is slower compared to controls both in speech production and in speech motor planning. Furthermore, good lip-reading abilities correlate to better speech production and articulation skills. The final part of the work examines the role that speech’s motor nature may play in the context of second language learning, explaining what the role of the articulatory component may point out in the relationship between the motor system, perception and production of speech. The ability to perceive the acoustic differences of the sounds of a language other than one’s native language cannot always be taken for granted. Japanese people for example have great difficulties in distinguishing the English phonemes /r/ and /l/ which are not differentiated in their language. The phoneme identification performance improves after specific training to allow better identification of the phoneme contrast. The improvement is not limited to perception abilities but extends to an improvement in production abilities for words containing the two phonemes /r/ and /l/ (Bradlow et al., 1997). Neurophysiological investigations carried out during the processing of linguistic sounds and during the vision of speech-producing lip movements alone, have detected the activation of motor areas of the brain involved in speech production. However, in the case of phonemes of a foreign language, there is a greater activation of the brain motor areas compared to the activation recorded when hearing a native language (Wilson & Iacoboni, 2006). This activation becomes greater as the difficulty in the phoneme identification increases, in exactly the same way as with the sounds /r/ and /l/ for Japanese speakers (Callan, Tajima et al., 2003), (Callan et al., 2004). The increase in brain activation in the areas involved in language production in response to the processing of difficult sounds of a language other than one’s native language and during the processing of linguistic sounds of one’s native language pronounced with a foreign accent (Callan et al., 2014) is the sign, for the authors of these studies, of a greater resort to the control systems of the articulatory-auditory feedback. The perceptual improvements following specific training (Callan, Tajima et al., 2003) are, from this viewpoint, the result of the acquisition of the articulatory-auditory and auditory-articulatory maps that intervene to facilitate phonetic identification and on which one needs to rely more for the processing of less easily recognisable sounds (Callan, Tajima et al., 2003), (Callan et al., 2004). The fact that audiovisual exposure to a verbal input (which therefore includes the auditory input associated with the relative articulatory gesture) gives better perceptual results than exposure to the auditory input alone in the processing of difficult phonetic contrasts and in distinguishing the differences in diphthong duration of a foreign language (Navarra & Soto-Faraco, 2007), (Hirata & Kelly, 2010) is compared with the latter studies by Callan and colleagues. The articulatory gesture is presented in this work as an optimal access key for the reconstruction of those auditory-articulatory maps needed for more efficient acoustic processing. Two levels of speech multimodality are identified: the first is an auditory-visual level, relating to the role of the articulatory gesture as a perceptual context for the acoustic input; the second is an auditory-articulatory level related to the increase in the activity in brain motor areas of speech during the processing of a foreign language and to the control systems of the articulatory-auditory feedback in response to a demanding linguistic input of an unfamiliar language. The improvement in perceptual abilities as a result of an audiovisual exposure to the input is explained by the fact that the visible articulatory gesture is the point at which the two levels of speech multimodality converge and thanks to which sound processing is enhanced and is thus a precious element that is not restricted to the processing of one’s native language but extends to the processing and production of linguistic sounds of a second language. It is specifically in the automatic process of the audiovisual integration of the linguistic auditory input and related articulatory gesture that it is possible to find an explicit cue for the creation of the articulatory-auditory and auditory-articulatory maps that enable a more accurate processing of the acoustic input, which may, in turn, be reflected in an improvement of speech production abilities.
10-mar-2021
È quando una delle componenti di un sistema non è più accessibile, che ci si rende conto dell’impatto, prima poco visibile nell’uso fisiologico, di quella componente sul funzionamento del sistema, anche se quest’ultimo continua comunque ad assolvere alla sua funzione. Questa considerazione è applicabile, per esempio, alla condizione in cui interagiamo con una persona che indossa una mascherina a protezione delle vie respiratorie e non abbiamo, quindi, accesso alla visione della sua bocca. Quello che ci interessa è sentire, non vedere la bocca, eppure la sensazione è spesso quella di sentire di meno. La bocca del parlante rappresenta la componente articolatoria visibile del linguaggio. Essa non è una componente necessaria per percepire il suono, ma ha un valore intrinseco legato al suono linguistico, la cui disamina può aiutare a comprendere in che modo essa permei il linguaggio verbale a un livello profondo, non solo nella funzione di produzione delle parole. L’indagine del ruolo della componente articolatoria e multimodale del linguaggio verbale sta alla base di questo lavoro. Il percorso che segue mira a comprendere e inquadrare la funzione del sistema articolatorio umano e la relazione che esso ha con il linguaggio verbale che produce. Al passaggio d’aria, la vibrazione delle corde vocali produce onde sonore che si propagano poi nell’aria e arrivano all’orecchio di un’altra persona sotto forma di voce. L’apparato di fonazione di cui è dotato, permette all’uomo di dare vita, attraverso la voce, a una delle funzioni cognitive più complesse e più studiate sia a livello filogenetico che ontogenico: il linguaggio verbale. Le onde sonore sono onde longitudinali, ossia onde in cui le vibrazioni prodotte dalla sorgente sonora producono un’alterazione nella densità delle molecole dell’aria, che iniziano così a muoversi parallelamente alla direzione dell’onda in un alternarsi di compressioni e rarefazioni della densità molecolare, fino al ritorno al punto di equilibrio e quindi al silenzio (Fishbane et al., 1993). Essendo l’atto verbale un atto non automatico, bensì volontario, perché possa avere origine e destinazione, l’onda sonora linguistica ha bisogno di un corpo (il cui sistema di fonazione agisce come sorgente sonora), di un mezzo di propagazione (solitamente l’aria), e di un sistema ricevente che processi ed elabori l’onda sonora. Il linguaggio verbale è il prodotto di un fenomeno meccanico che crea un’onda sonora che altera la densità media delle molecole dell’aria. L’onda sonora, nella forma di suono linguistico, può poi essere processata dal sistema uditivo ed elaborata da quello nervoso del ricevente. Il linguaggio verbale si configura quindi come una sorta di passaggio di oscillazioni molecolari che vengono originate da un corpo e il cui output sonoro viene processato ed elaborato da un altro corpo. Ma cosa rimane dell’elemento corporeo che le produce, nella complessa concatenazione di onde sonore che danno vita al linguaggio verbale? Che ruolo ha l’esperienza corporea nel processamento e nell’elaborazione di queste oscillazioni molecolari? È possibile che le onde sonore linguistiche trasferiscano, oltre all’informazione sonora, un’informazione corporea del linguaggio verbale, propedeutica al suo processamento? E, infine, in che modo tale eventuale informazione corporea può entrare in gioco nella percezione di input sonori poco chiari o poco familiari, come ad esempio quelli di una lingua diversa da quella materna? L’obiettivo di questo lavoro è quello di fare luce, partendo da queste domande, sul ruolo della dimensione corporea nell’apprendimento del linguaggio verbale proprio relativamente all’atto che lo realizza: il gesto articolatorio. Il gesto articolatorio è l’atto motorio compiuto dal tratto vocale e dai muscoli facciali grazie al quale si realizza la produzione linguistica. La parte visibile del gesto articolatorio è rappresentata dal movimento della bocca di chi parla. Nella prima parte di questo lavoro, si approfondisce in che modo la visione del gesto articolatorio altrui e l’integrazione multisensoriale del doppio input, visivo (gesto articolatorio) e acustico (voce), influenzino la percezione sonora, approfondendo gli aspetti legati all’incidenza dell’esperienza linguistica sull’attenzione selettiva agli indizi articolatori e sull’importanza che essi acquistano nel processamento dei suoni linguistici nel corso dello sviluppo. Il gesto articolatorio è presentato nel ruolo di elemento che attribuisce salienza percettiva al volto del parlante, arricchendo il contesto in cui è collocato e processato l’input verbale. Questo percorso attraverso il ruolo del gesto articolatorio quale contesto percettivo che influisce sul processamento sonoro permette di spostarsi con più agilità verso un livello più profondo e più radicato del rapporto tra sistema articolatorio e linguaggio verbale. A partire dal dato sulla minore efficienza nel processamento audiovisivo degli input verbali negli individui con storia di disturbo specifico del linguaggio (Kaganovich et al., 2016) e in quelli con diagnosi di dislessia (van Laarhoven et al., 2018), (Schaadt et al., 2019), (Rüsseler et al., 2018), si apre la seconda parte della trattazione, tesa a fornire elementi sulla natura motoria degli aspetti produttivi e percettivi del linguaggio verbale. Oltre a una minore efficienza nel processo di integrazione audiovisiva degli input verbali (acustico e visivo), infatti, è stata riscontrata negli individui con diagnosi di dislessia una anomalia nella velocità di articolazione dei suoni linguistici: essa risulta più lenta rispetto a quella del gruppo di controllo, sia relativamente alla produzione linguistica, sia relativamente alla pianificazione motoria del gesto articolatorio durante il flusso verbale (Fawcett & Nicolson, 2002). Inoltre, buone capacità di lettura del labiale sono correlate a migliori capacità di produzione e articolazione verbale (Heikkilä et al., 2017). Nella parte conclusiva si analizza il ruolo che la natura motoria del linguaggio verbale può avere nel contesto dell’apprendimento di una seconda lingua, spiegando che cosa possa segnalare il ruolo della componente articolatoria rispetto alla relazione tra sistema motorio, percezione e produzione del linguaggio. La capacità di percepire le differenze sonore tra i suoni di una lingua diversa da quella materna non è sempre scontata. I giapponesi, per esempio hanno grosse difficoltà nella distinzione sonora dei fonemi /r/ e /l/, che nella loro lingua non sono differenziati né acusticamente né produttivamente (Miyawaki et al., 1975). Tale capacità di identificazione migliora però a seguito di un training specifico per l’identificazione del contrasto fonetico. Il miglioramento non si limita all’incremento della capacità percettiva, ma si estende al miglioramento della capacità di produzione di parole contenenti i due fonemi /r/ e /l/ (Bradlow et al., 1997). Le indagini neurofisiologiche condotte durante il processamento dei suoni linguistici e durante la visione del solo movimento delle labbra relativo alla loro produzione rilevano l’attivazione di aree cerebrali motorie coinvolte nella produzione di linguaggio (Fadiga et al., 2002), (Watkins et al., 2003), (Wilson et al. 2004). Tuttavia, nel caso di fonemi di una lingua straniera, l’attivazione nelle aree motorie è maggiore rispetto a quella rilevata durante l’ascolto della lingua materna (Wilson & Iacoboni, 2006) e aumenta all’aumentare della difficoltà di identificazione dei fonemi, come nel caso dei suoni consonantici /r/ e /l/ per i giapponesi (Callan, Tajima et al., 2003), (Callan et al., 2004). L’incremento dell’attività cerebrale nelle aree deputate alla produzione linguistica in risposta al processamento di suoni difficili di una lingua che non è la propria lingua madre e durante il processamento di suoni della propria lingua materna pronunciati con un accento straniero (Callan et al., 2014) indica per gli autori di questi studi un maggiore ricorso, nel caso di un input sonoro con cui si ha poca o nessuna familiarità, ai sistemi di controllo del feedback articolatorio-uditivo. I miglioramenti percettivi a seguito di un training mirato (Callan, Tajima et al., 2003) sono, in quest’ottica, il risultato dell’acquisizione di mappe articolatorio-uditive e uditivo-articolatorie che intervengono a facilitare l’identificazione fonetica e alle quali serve fare maggiore ricorso nel caso di suoni più difficilmente riconoscibili (Callan, Tajima et al., 2003), (Callan et al., 2004). Il fatto che l’esposizione audiovisiva allo stimolo verbale (che includa dunque la presentazione dell’input sonoro associato al relativo gesto articolatorio) nel caso di contrasti fonetici difficili o di differenze nella durata dei dittonghi di una seconda lingua dia risultati percettivi migliori rispetto all’esposizione unicamente sonora (Navarra & Soto-Faraco, 2007), (Hirata & Kelly, 2010) è messo in relazione proprio con questi ultimi studi. Il gesto articolatorio viene presentato come una chiave d’accesso ottimale per la ricostruzione di quelle mappe uditivo-articolatorie utili a un più efficace processamento sonoro. Vengono infatti individuati due livelli di multimodalità del linguaggio verbale: il primo acustico-visivo, relativo al ruolo del gesto articolatorio quale contesto percettivo per l’input sonoro; il secondo, acustico-articolatorio relativo all’incremento dell’attività cerebrale nelle aree motorie del linguaggio per il processamento di una lingua straniera e al maggiore ricorso ai sistemi di controllo del feedback articolatorio-uditivo in risposta a un input linguistico impegnativo di una lingua non familiare. L’incremento della capacità percettiva con l’esposizione audiovisiva all’input, anziché unicamente sonora, si spiega col fatto che il gesto articolatorio visibile si configura come il punto nel quale i due livelli di multimodalità del linguaggio verbale (acustico-visiva e acustico-articolatoria) convergono e grazie al quale il processamento sonoro risulta facilitato. Il gesto articolatorio visibile si pone quindi come un elemento prezioso non solo nell’ambito del processamento della lingua materna, ma anche nell’ambito del processamento e della produzione di suoni linguistici di una seconda lingua. Proprio a partire dal processo automatico di integrazione audiovisiva tra input sonoro e gesto articolatorio, infatti, è possibile reperire un indizio esplicito per la creazione delle mappe articolatorio-uditive e uditivo-articolatorie funzionali al più accurato processamento dell’input sonoro, che può a sua volta riflettersi in un miglioramento della capacità di produzione linguistica orale.
multimodality, articulatory gesture; audiovisual integration; speech; speech processing; language acquisition; second language learning; second language acquisition, SLA
multimodalità; gesto articolatorio; integrazione audiovisiva; linguaggio verbale; processamento del linguaggio; acquisizione del linguaggio; apprendimento di una seconda lingua; acquisizione di una lingua seconda
File in questo prodotto:
File Dimensione Formato  
Marta Arcovito - Integrazione audiovisiva e gesto articolatorio nello sviluppo del linguaggio e nell’apprendimento di una seconda lingua.pdf

accesso aperto

Descrizione: Tesi integrale
Tipologia: Tesi di dottorato
Licenza: Creative commons
Dimensione 1.55 MB
Formato Adobe PDF
1.55 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11570/3199805
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact