Teoria targetu jest oparta na tradycyjnym twierdzeniu, że każda samogłoska zawiera stosunkowo ustaloną część artykulacyjną, i co za tym idzie akustyczną, która jest podstawą jej identyfikacji. Target (ang. target) to forma kanoniczna samogłoski (ang. canonical form), idealna jej reprezentacja, najlepiej wyrażona w izolacji lub w kontekście powodującym minimalną koartykulację (Daniloff, Hammarberg 1973).
Pod względem artykulacyjnym forma kanoniczna jest reprezentowana przez statyczny układ narządów mowy, uzyskiwany wówczas, gdy mówiący wypowiada przedłużoną monoftongiczną samogłoskę. Pod względem akustycznym forma kanoniczna jest reprezentowana przez część samogłoski, w której formanty ukazują najmniejszy stopień zmian spektralnych (Harrington 2010). Za reprezentację targetu uważa się najczęściej punkt w czasie ustalonego trwania samogłoski, który jest wyznaczany przez wartości dwóch lub trzech pierwszych formantów. Dla większości samogłosek można przyjąć, że znajduje się on w przybliżeniu w połowie czasu trwania samogłoski (Jassem 1973, 1974; Joos 1948; Peterson 1952).
Liczne prace potwierdzają dobrą separację samogłosek na podstawie ich części ustalonej i potwierdzają teorię, że przynajmniej dla monoftongów, wartość docelowa (target) może być podstawą ich identyfikacji (Harrington, Cassidy 1994; Hillenbrand, Gayvert 1993; Jassem 1973; Miller 1989; Nearey 1989).
W mowie spontanicznej mamy do czynienia z szeregiem istotnych zmian w realizacji samogłosek, nawet w wypowiedziach jednej osoby. Samogłoski wymawiane w izolacji lub w kontekście neutralnym, za który w języku polskim uważane jest otoczenie spółgłosek twardych (Dukiewicz 1995), uważane są za bliskie idealnym realizacjom samogłosek, tzw. formom kanonicznym (ang. canonical forms, canonical realization). Szereg czynników, takich jak kontekst spółgłoskowy, akcent czy tempo mówienia, obecnych w mowie spontanicznej, zmienia jednak formy kanoniczne samogłosek, powodując, że idealny target samogłoskowy nie zostaje osiągnięty (van Son 1993). Różnice pomiędzy realizacjami kanonicznymi samogłosek i występującymi w mowie ciągłej stanowią podstawę zjawiska, które nazwano redukcją samogłosek (ang. target-undershoot), por. (Lindblom 1963, 1983) i które było badane w różnych warunkach, segmentalnych i suprasegmentalnych, przede wszystkim na materiale języka angielskiego (van Son 1993).
Redukcja samogłosek przejawia się w dwóch zjawiskach – centralizacji i koartykulacji (Harrington 2010).
Centralizacja to tendencja w obrębie samogłosek do osiągnięcia bardziej neutralnej pozycji w mowie ciągłej w porównaniu z izolacją, co skutkuje skurczeniem się przestrzeni samogłosek. Rezultatem centralizacji jest zmniejszenie kontrastu pomiędzy samogłoskami (Koopmans-van Beinum 1980; Miller 1981). Samogłoski zredukowane mają tendencję do przesuwania się w kierunku centrum czworoboku artykulacyjnego i zaczynają przypominać głoskę neutralną (ang. schwa). Zjawisko to zaznacza się szczególnie wyraźnie, kiedy samogłoski są nieakcentowane i wymawiane w szybkim tempie.
Zjawisko koartykulacji polega na wzajemnym oddziaływaniu na siebie segmentów w ciągu fonicznym i jest w znacznym stopniu wynikiem fizyczno-fizjologicznych uwarunkowań wytwarzania mowy (Daniloff, Hammarberg 1973; Jassem, Richter 1992). W wyniku koartykulacji granice między głoskami stają się mniej wyraźne, a każda głoska w mniejszym lub większym stopniu posiada niektóre cechy kontekstu poprzedzającego i następującego. Koartykulacja sprawia, że różnice w spektrum sąsiadujących fonemów stają się mniejsze. W niektórych przypadkach kontekst może powodować także centralizację samogłosek (Lindblom 1963; Stevens, House 1963).
Istnieje bogata literatura dotycząca samego zjawiska koartykulacji oraz stopnia i rodzaju wpływu poszczególnych kontekstów spółgłoskowych na wartości częstotliwości formantów samogłosek w różnych językach (Bell-Berti, Harris 1982; Bengeurel, Cowan 1974; Benguerel, McFadden 1989; Bladon, Nolan 1977; Farnetani i in. 1985; Flege 1988; Gelfer i in. 1989; Lindblom 1963; Moon, Lindblom 1994; Stevens, House 1963; Stevens i in. 1966; van Bergem, 1993; dla języka polskiego Dukiewicz 1967; Richter 1992; Kudela 1968; Wierzchowska 1965, 1967).
Pod względem fonetycznym redukcja samogłosek jest procesem, który przejawia się w centralizacji i koartykulacji. Fakt ten nie budzi wątpliwości - wątpliwości budzą przyczyny i prawidłowości rządzące tym zjawiskiem. W literaturze przedmiotu zwraca się uwagę na związek redukcji z czasem trwania samogłoski, kontekstem (Lindblom 1963; Stevens, House 1963), obecnością akcentu, tempem mowy (Engstrand 1988; Fry 1965; Gay 1978; Łobacz 1970, 1976a, 1976b), pozycją w wyrazie (Nord, 1986; van Bergem 1993) czy stylem mówienia (Flege 1988; Kuehn, Moll 1976).
I tak na przykład K. N. Stevens i A. S. House (1963) stwierdzili, że sąsiedztwo spółgłosek ma wpływ na wartości formantów samogłosek, przede wszystkim drugiego, poprzez przesunięcie ich w kierunku bardziej centralnych wartości. T. Gay (1978) wykazał, że wraz ze wzrostem tempa mowy spada iloczas samogłoski, ale nie musi to powodować redukcji. Udowodnił, że przy tym samym tempie, to samogłoski nieakcentowane (nawet jeśli są tej samej długości co akcentowane) wykazują zawsze większą redukcję. Wyniki te sugerują większy wpływ akcentu niż tempa na redukcję samogłosek. O. Engstrand (1988) analizowała samogłoski języka szwedzkiego w kontekście VCV w kontrolowanych pod względem akcentu i tempa mowy warunkach, wykorzystując do badań filmy rentgenograficzne w powiązaniu z analizą akustyczną. Charakterystyka spektralna samogłosek zmieniała się w sposób istotny pod wpływem akcentu, natomiast zmiany tempa nie miały znaczącego na nią wpływu.
W języku polskim także występuje zjawisko redukcji. Samogłoski w izolacji różnią się od tych w mowie ciągłej przede wszystkim wartościami F2, a różnice dotyczą przede wszystkim samogłosek tylnych. W tekście F2 tych samogłosek może być średnio o 400 Hz wyższe niż w izolacji. Różnice te są mniejsze między samogłoskami w izolacji a samogłoskami w wyrazach niż między samogłoskami w izolacji i w zdaniach (Łobacz 1976a; Kleśta 2000). Maksymalna centralizacja samogłosek /a/, /o/, /e/ do szwy może mieć miejsce w polszczyźnie potocznej na końcu wypowiedzi, co wiąże się utratą precyzji ruchów artykulacyjnych. Samogłoski wysokie mogą natomiast ulegać całkowitemu zanikowi przede wszystkim w pozycji poakcentowej w przypadku akcentu na trzecią sylabę od końca, np. prezdent ‘prezydent’, nieco rzadziej w pozycji przed akcentem, np. orginalny ‘oryginalny’ (Sawicka 1995). Na stopień redukcji polskich samogłosek ma wpływ szereg czynników takich jak kontekst spółgłoskowy, akcent, styl mówienia czy tempo mowy.
Dla języka polskiego ogólnego za kontekst nieznacznie modyfikujący realizację samogłosek uważa się otoczenie spółgłosek twardych, a za mający największy wpływ otoczenie spółgłosek palatalnych i w dalszej kolejności nosowych, które mogą powodować nazalizację samogłosek (Dukiewicz 1995; Kleśta 2000; Richter 1991; Dukiewicz 1967; Nowak 2006; Sawicka 1995). Wpływ kontekstu poprzedzającego jest silniejszy niż następującego, a kontekstu obustronnego silniejszy niż jednostronnego, chociaż stwierdzone różnice nie zawsze są istotne statystycznie (Łobacz 1976 a,b; Gonet 1993; Richter 1992). Wpływ sąsiednich spółgłosek wzrasta wraz ze spadkiem iloczasu samogłoski (Łobacz 1970). Koartykulacja jest tym większa, im większy jest ruch artykulacyjny konieczny przy przejściu od jednej głoski do następnej (Lindblom 1963). I tak np. w opisach fonetycznych niskiej samogłoski /a/ w kontekście palatalnym w polszczyźnie ogólnej zwraca się uwagę na silne przesunięcie masy języka ku przodowi jamy ustnej oraz znaczną wypukłość jego grzbietu, co powoduje, że samogłoska ta staje się głoską szeregu przedniego (Wierzchowska 1967). Zmiany te potwierdzają badania akustyczne - samogłoska /a/ wykazuje podwyższenie wartości F2 z równoczesnym obniżeniem F1 w sąsiedztwie głosek palatalnych (Richter 1992). Natomiast przesunięcie częstotliwości F1 i F2 w tym samym sąsiedztwie nie zachodzi w przypadku wysokiej i przedniej samogłoski /i/, gdyż przejście od spółgłoski do samogłoski i na odwrót nie wymaga wprowadzania zasadniczych zmian w układzie toru głosowego, dzięki czemu koartykulacja zostaje zredukowana do minimum (Richter 1992).
Według B. Lindbloma (1963) redukcja samogłosek jest zjawiskiem charakterystycznym dla języków, które mają silnie wyrażony akcent, skorelowany z długością samogłoski. Samogłoski nieakcentowane są krótsze i co za tym idzie bardziej zredukowane niż akcentowane. Badania nad wpływem akcentu na wartości formantów samogłosek polskich pokazały, że w pozycji nieakcentowanej wykazują one pewną tendencję do centralizacji, zachowując jednak wyrazistość fonologiczną (Strycharczuk, Jurgec 2008). Być może brak większych różnic w wartościach formantów spowodowanych przez akcent jest wynikiem niewielkiej różnicy iloczasowej między samogłoskami akcentowanymi i nieakcentowanymi obserwowanej w polszczyźnie. W języku polskim iloczas samogłoskowy pełni podrzędną rolę w realizacji akcentu (Demenko 1999). Stosunek długości samogłosek akcentowanych do nieakcentowanych wynosi średnio 1,17 : 1 (Jassem 1962) lub 1,22 : 1 (Nowak 2006). Dla porównania w języku angielskim stosunek ten wynosi 2:1 dla monoftongów i 1,5:1 dla dyftongów (Crystal, House 1988).
Studia nad innymi językami wykazały, że stopień redukcji samogłosek może zależeć także od stylu mówienia (Flege 1988; Kuehn, Moll 1976; Moon, Lindblom 1994). Samogłoski w języku polskim są mniej zredukowane w bardziej starannej wymowie. Wpływ stylu mówienia jest szczególnie wyraźny dla F1 samogłosek średnich i niskiej (Nowak 2006).
Wpływ tempa mowy na samogłoski języka polskiego był badany w sylabach CVC oraz w zdaniach (Łobacz 1970, 1976a, 1976b). Wykazano, że tempo mowy ma wpływ na iloczas samogłosek – im szybsze było tempo tym krótszy był czas ich trwania, ale na zmienność częstotliwości docelowej formantów największy wpływ ma kontekst, a następnie iloczas związany z tempem mowy.
Samogłoski przed spółgłoskami sonornymi m, n, ń, r, l, ł ulegają w gwarach znacznym zmianom. Samogłoski wysokie, zwłaszcza /i/, /y/, rzadziej /u/, mogą rozszerzać swoją artykulację, co powoduje powstanie samogłosek pośrednich między /i/, /y/ oraz /e/, a także między /u/ i /o/ lub odpowiednich samogłosek średnich, czyli /e/, /o/, por: jendyk ‘indyk’, czem ‘czym’, gront ‘grunt’, tele ‘tyle’, mjert ‘mirt’, fjeranka ‘firanka’, kora ‘kura’, beł ‘był’.
Wpływ /ł/, zwłaszcza wałczonego, w pozycji tautosylabicznej, może powodować cofnięcie i obniżenie artykulacji samogłosek /i/, /y/, np. buł ‘był’, pjuł ‘pił’.
Sąsiedztwo spółgłosek sonornych również może mieć wpływ na realizację samogłosek /e/ oraz /o/. Silniej zaznaczają się tutaj zmiany spowodowane sąsiedztwem spółgłosek nosowych. Charakterystyczne dla ich artykulacji opuszczanie podniebienia miękkiego może rozpoczynać się już pod koniec trwania czynności artykulacyjnych właściwych dla samogłosek. Wskutek tego odległość między położeniem masy języka, potrzebnym do wymówienia /e/ lub /o/, a górną częścią jamy ustnej zmniejsza się i kanał ustny staje się węższy, podobny do tego, jaki jest przy artykulacji /é/, /ó/, a nawet /y/, /i/ czy /u/ (Dejna 1993), por. narzeńdzim ‘narzędziem’, spaluny ‘spalony’, w schrunie ‘w schronie’.
Spółgłoski nosowe mogą mieć też wpływ na artykulację samogłoski /a/, powodując jej podwyższenie i przesunięcie ku przodowi jamy ustnej do głoski pośredniej między /a/ oraz /e/ lub /e/, np. peńi ‘pani’, sema ‘sama’ (Dejna 1993).
Rezultaty badań prowadzonych nad wpływem kontekstu palatalnego na wymowę samogłosek /a/, /e/, /o/ w gwarze kurpiowskiej są w dużym stopniu zgodne z ustaleniami poczynionymi dla polszczyzny ogólnej. W kontekście lewo-, prawo- i obustronnie palatalnym regularnie obserwowano wzrost wartości F2 /e/. Nieco mniej regularnie wystąpił spadek wartości F1 /e/ w kontekście lewo- i obustronnie palatalnym, wzrost wartości F2 /a/ w kontekście prawostronnie palatalnym oraz wzrost wartości F2 /o/ w kontekście lewostronnie palatalnym.
Tylko u niektórych badanych osób powyższe zmiany wykazały istotność statystyczną (Garczyńska 2015a).
Różnic w zakresie akcentu między polszczyzną ogólną i gwarami mazowieckimi jest niewiele. W większości gwar akcent jest taki sam jak w języku ogólnym i ma niewielki wpływ na realizację samogłosek. Jednakże w gwarach pogranicza północno-wschodniego, tj. w gwarach podlasko-suwalskich, mogą pojawić się różnice w obrębie samogłosek nieakcentowanych, związane z akaniem, polegającym na wymawianiu samogłosek /e/ oraz /o/ jak /a/ i ukaniem, czyli zastępowaniem /o/ przez /u/, np. z chlebam ‘z chlebem’, pamidory ‘pomidory’, gutowali ‘gotowali’ (Rembiszewska 2002)
Istnieją duże różnice akustyczne pomiędzy samogłoskami wymawianymi przez kobiety i mężczyzn. Różnice te mają dwa możliwe źródła - fizjologiczne, a więc uniwersalne i kulturowe, a więc zdeterminowane przez właściwy dla danej płci sposób mówienia. Poniżej omówiono różnice wynikające z budowy narządów mowy u obu płci.
Między kobietami i mężczyznami istnieją różnice w rozmiarach kanału głosowego powyżej głośni, co ma istotne konsekwencje dla produkowanych przez nich dźwięków (Chiba, Kajiyama 1941). Średnia długość kanału głosowego dla kobiet (dystans od fałdów głosowych do ust) to średnio 14-14,5 cm, zaś średnia długość dla mężczyzn to 17-18 cm. Istnieje zależność formantów dźwięków mowy od długości kanału głosowego, przejawiająca się w tym, że formanty dźwięków wytwarzanych przez narządy mowy o większych rozmiarach są niższe, formanty zaś dźwięków wytwarzanych przez narządy mowy o mniejszych rozmiarach – wyższe. Zatem formanty dźwięków wymawianych przez kobiety będą wyższe niż formanty tych samych dźwięków wymawianych przez mężczyzn, por. rys. 1. U dzieci, które mają narządy mowy mniejsze niż kobiety formanty dźwięków mowy będą jeszcze wyższe (Wierzchowska 1967).
Rys. 1. Średnie wartości F1 i F2 dla samogłosek języka polskiego (k – kobiety; m – mężczyźni )
Pod względem akustycznym na zróżnicowanie wymowy głosek ma wpływ szereg czynników segmentalnych i suprasegmentalnych, a także płeć mówiącego. Lingwiści zwrócili uwagę także na socjalne uwarunkowania zjawisk językowych.
Analiza wariantywności języka miast i wsi na tle uwarunkowań społecznych pozwoliła wyodrębnić wiele czynników socjalno-komunikatywnych, motywujących genezę i użycie danych zjawisk językowych. Wśród nich najczęściej wymienia się płeć, wiek, pochodzenie społeczne, wykształcenie, zawód oraz czynniki związane z samą sytuacją komunikacyjną jak: typ kontaktu, kodu, kontekst, miejsce, relacja między uczestnikami aktu mowy (Kleszcz 2001; Kucharzyk 2003; Kurek 1986, 1987, 1988, 1990, 1995).
Chyba najczęściej uwzględnianym w badaniach dialektologicznych czynnikiem jest wiek respondentów. Najczęściej spotyka się podział na trzy grupy wiekowe, czyli pokolenie najstarsze, średnie i najmłodsze (Czyżewski 1977; Gołąb 1954; Ożóg 1978), chociaż stosowane są także podziały na cztery czy pięć grup wiekowych (Kąś 1988). Podział wiekowy powinien odzwierciedlać rzeczywistą sytuację językową badanego terenu. Wszyscy badacze potwierdzają zanikanie gwary u osób młodszych.
Wykształcenie jest czynnikiem bardzo ważnym w procesie odchodzenia od gwary, bowiem przyczynia się do lepszego opanowania polszczyzny ogólnej oraz daje poczucie przynależności do grupy inteligencji, w obrębie której należy unikać form gwarowych. Osoby pochodzące ze wsi, które zdobyły wykształcenie bardzo niechętnie przyznają się do mówienia gwarą, co wiąże się z negatywnym jej wartościowaniem, i dużą wagę przywiązują do poprawności językowej (Kucharzyk 2006). Badania dotyczące języka inteligencji pochodzenia chłopskiego osiadłej w Warszawie pokazały, że na wyzbywanie się cech gwarowych wśród osób wykształconych największy wpływ miał poziom ambicji językowych oraz chęć mówienia zgodnie z normą, związane najczęściej z pełnieniem wyeksponowanych funkcji społecznych. Rodzaj wykształcenia nie miał tu większego znaczenia (Fabisiak 1980). Badacze zwracają jednak uwagę na fakt, że stopień odejścia od gwary może być związany z rodzajem studiów. Czasami studia stanowią jedynie przerwę w używaniu rodzimej gwary, a ich zakończenie łączy się z powrotem do rodzinnego kodu, jak to ma miejsce na przykład na Śląsku (Kleszcz 2006).
Związek z wykształceniem ma wykonywany zawód. Użycie określonego kodu, gwarowego czy ogólnego, jest tutaj zależne przede wszystkim od miejsca pracy i zajmowanego stanowiska. Osoby pracujące na roli oraz jako robotnicy lepiej zachowują gwarę, zaś osoby reprezentujące zawody inteligenckie chętniej posługują się polszczyzną ogólną. H. Kurek (1990) zarówno w kontaktach nieoficjalnych, jak i oficjalnych stwierdziła istnienie silnej korelacji pomiędzy używaniem form gwarowych a wykształceniem i zawodem respondentów. Po formy literackie sięgały osoby z wykształceniem średnim i wyższym oraz chłopi-urzędnicy.
Wpływ płci na stopień zachowania gwary jest jeszcze słabo udokumentowany. Uważa się, że kobiety ze środowisk wiejskich lepiej zachowują gwarę w związku z mniejszą aktywnością zawodową (Gołąb 1954; Kleszcz 2006). Z drugiej strony kobiety wykształcone pochodzące ze wsi wykazują większą świadomość językową i lepiej opanowują polszczyznę ogólną, ponieważ silniej identyfikują się z miejskim typem kulturowym (Fabisiak 1980; Kurek 2006).
W każdym z podsystemów języka wpływ wymienionych czynników może być inny. Na przykład na zróżnicowanie fonetyczne w gwary podhalańskiej wpływ miał wiek oraz świadomość językowa respondentów. Z kolei na zróżnicowanie słownikowe tejże gwary miały wpływ przede wszystkim wiek, płeć mówiącego oraz zawód (Gołąb 1954).
Scharakteryzowane wyżej parametry socjalne nie wyczerpują zestawu czynników wpływających na wariantywność języka wsi. Charakteryzując sytuację językową na wsi powinno uwzględniać się także takie czynniki pozajęzykowe jak m.in. dostęp do środków masowego przekazu, oddalenie wsi od miasta, ruch turystyczny czy czytelnictwo książek i prasy.