Applying Zipf's Law to English words in Croatian: A comparative study of frequency and word length
Na minha lista:
| Publicado no: | Suvremena Lingvistika vol. 51, no. 99 (2025), p. 21-39 |
|---|---|
| Autor principal: | |
| Outros Autores: | , |
| Publicado em: |
Croatian Philological Society, Faculty of Humanities and Social Sciences
|
| Assuntos: | |
| Acesso em linha: | Citation/Abstract Full Text Full Text - PDF |
| Tags: |
Sem tags, seja o primeiro a adicionar uma tag!
|
| Resumo: | In corpus linguistics, the negative correlation between word frequency and word length is a welldocumented phenomenon referred to as Zipfs law. This linguistic universal observed by Zipf, which posits that the length of a word is in an inverse relation to its frequency (but not necessarily proportional to), has also been confirmed by numerous studies, and its implications can be observed in different fields such as language teaching and cognitive language processing. However, there is a gap in research data when it comes to studying this phenomenon from the perspective of loanwords. Even though it has been observed that translation equivalents in Croatian generally exist for loanwords or English words that appear 5000 times or more in the Croatian corpus (ENGRI corpus), the question still remains why speakers of Croatian resort to using English words in such cases where first language (LI) equivalents exist. This paper examines the systematicity of the language universal that shorter words are more frequent when it comes to foreign (primarily English) words in the (Croatian) language, i.e. whether the most frequent English words are shorter than their Croatian equivalents. For the purpose of this research, the Database of English words and their equivalents in Croatian was examined. Results indicate that some degree of systematicity between word length and frequency can be observed, but they also highlight the need for incorporating a semantic component into the analysis. The results contribute to the theoretical discussion on language universals, and explain why Croatian users prefer English words and whether language economy is one of the reasons for the use of English words in Croatian. Engleske riječi u hrvatskom jeziku proučavalo se iz različitih perspektiva, ponajviše sa stajališta kontaktne lingvistike, kontrastivne lingvistike, translatologije i leksikologije. No, u ovom radu engleske riječi promatramo iz nove perspektive, točnije pokušava se istražiti postoji li veza između čestote i dužine engleskih riječi u hrvatskom jeziku te koriste li se engleske riječi češće od svojih prijevodnih istovrijednica u hrvatskome upravo zato jer su krače. U tu svrhu testirana je hipoteza da su češče riječi i kraće, a na kojoj se temelji Zipfov zakon (1936., 1949.). U nastojanju da se utvrdi imaju li riječi s većom čestotom tendenciju da budu kraće, provedeno je korpusno ispitivanje mrežnog korpusa engleskog jezika (enTenTen 21) i mrežnog korpusa hrvatskog jezika (MaC°Cu Croatian Web v. 2 (2020.-2021.). Analiza je pokazala da se najčešće riječi u engleskom korpusu sastoje od jednog do tri znaka, a da najučestalije riječi u hrvatskom također slijede taj obrazac. Kako bismo vidjeli vrijedi li isto i za engleske riječi u hrvatskom, analizirali smo čestote iz Baze engleskih riječi i njihovih ekvivalenata u hrvatskom (Bogunović, Jelčić Čolakovac and Borucinsky, 2022). U sljedećem koraku ustanovili smo broj znakova (tj. duljinu niza) svake engleske riječi i svake hrvatske istovrijednice, podijelili engleske riječi u skupine (npr. riječ s tri niza, riječ s četiri niza, itd.) te zatim analizirali duljinu prijevodnih istovrijednica (ukoliko iste postoje u Bazi) za svaku pojedinu skupinu engleskih riječi. Rezultati su pokazali daje najčešća duljina niza engleskih riječi 4, 5, 6 i 7 znakova, što čini 65% svih riječi u skupu podataka. Sto se tiče hrvatskih riječi, prijevodne istovrijednice se ponekad sastoje od dvije ili čak tri riječi (npr. mrežni dnevnik' za blog), stoje rezultat morfosin taktičkih razlika između dvaju jezika. Podaci о duljini niza za hrvatske riječi sugeriraju da su hrvatske istovrijednice od 2 i 3 znaka prilično rijetke (samo 3%), dok riječi s 4 znaka čine 8% podataka, a večina ostalih riječi pripada kategoriji od 5 do 8 znakova (ukupno 53%). Nadalje, analiza prosječnih čestota istovrijednica u svakoj skupini ukazala je da su one znatno veče od prosječnih čestota engleskih riječi. S obzirom daje to očekivano u korpusu hrvatskih tekstova, smatramo da su za dokaz hipoteze potrebni i drugi kriteriji, poput semantičke kategorije i informativnosti. Zaključujemo da podaci prikupljeni analizom ukazuju na potrebu daljnjeg istraživanja fenomena engleskih riječi u hrvatskom jeziku, ali uz uključivanje semantičke komponente kao utjecajnog čimbenika. |
|---|---|
| ISSN: | 0586-0296 1847-117X |
| DOI: | 10.22210/suvlin.2025.099.02 |
| Fonte: | Research Library |