Dab tsi yog corpus linguistics?

Cov txheej txheem:

Dab tsi yog corpus linguistics?
Dab tsi yog corpus linguistics?
Anonim

Ntau xyoo dhau los, cov kws tshawb fawb tsuas yog npau suav ntawm kev siv cov lus tshawb fawb. Kev ua haujlwm tau ua tiav los ntawm tes, ntau tus tub ntxhais kawm tau koom nrog hauv nws, muaj qhov tshwm sim tseem ceeb ntawm "kev tsis txaus siab" yuam kev, thiab qhov tseem ceeb tshaj plaws, nws tau siv sijhawm ntau, ntau lub sijhawm.

Nrog rau kev txhim kho ntawm cov cuab yeej siv computer, nws tau dhau los ua kev tshawb fawb sai dua, thiab niaj hnub no ib qho kev cog lus hauv kev kawm lus yog corpus linguistics. Nws lub ntsiab feature yog siv cov ntaub ntawv loj loj, sib sau ua ke rau hauv ib lub database, cim rau hauv ib txoj kev tshwj xeeb thiab hu ua corpus.

Hnub no, muaj ntau lub koom haum tsim los rau cov hom phiaj sib txawv, raws li cov ntaub ntawv sib txawv, suav nrog ntau lab mus txog kaum lab lab ntawm lexical units. Qhov kev taw qhia no tau lees paub tias yog kev cog lus thiab qhia tau tias muaj kev vam meej hauv kev ua tiav cov hom phiaj siv thiab tshawb fawb. Cov kws tshaj lij, ib txoj hauv kev lossis lwm qhov kev daws teeb meemlus ntuj, nws raug nquahu kom koj paub koj tus kheej nrog cov ntawv corpora yam tsawg kawg ntawm theem pib.

History of corpus linguistics

Kev tsim ntawm qhov kev taw qhia no txuas nrog kev tsim ntawm Brown Corps hauv Asmeskas thaum ntxov 60s ntawm lub xyoo pua xeem. Kev sau ntawm cov ntawv tsuas yog 1 lab cov ntaub ntawv, thiab niaj hnub no lub cev ntawm cov ntim no yuav tsis muaj kev sib tw kiag li. Qhov no feem ntau yog vim muaj kev loj hlob ntawm kev siv tshuab computer, nrog rau kev xav tau ntau ntxiv rau cov kev tshawb fawb tshiab.

Nyob rau hauv lub 90s, corpus linguistics tau tsim rau hauv ib tug tag nrho-fledged kev qhuab qhia thiab ywj siab, sau cov ntawv tau muab tso ua ke thiab cim rau ob peb lub kaum os lus. Lub sijhawm no, piv txwv li, British National Corpus tau tsim rau 100 lab lo lus siv.

corpus lus
corpus lus

Raws li qhov kev taw qhia ntawm kev hais lus no txhim kho, qhov ntim ntawm cov ntawv yuav loj dua (thiab nce mus txog ntau lab ntawm cov ntsiab lus), thiab cov ntawv cim tau ntau thiab ntau haiv neeg. Niaj hnub no, hauv Is Taws Nem, koj tuaj yeem pom cov ntaub ntawv sau thiab hais lus ntawm qhov ncauj, ntau hom lus thiab kev kawm, tsom mus rau cov ntawv tseeb lossis cov ntaub ntawv kawm, nrog rau ntau yam ntxiv.

muaj dab tsi tshwm sim

Corpus hom hauv corpus linguistics tuaj yeem sawv cev rau ntau txoj hauv kev. Nws yog intuitively tseeb hais tias lub hauv paus rau kev faib yuav ua tau hom lus ntawm cov ntawv (Lavxias teb sab, German), nkag mus rau hom (qhib qhov chaw, kaw qhov chaw, coj mus muag), hom ntawm cov khoom siv (zaj dabneeg.ntaub ntawv, documentary, kev kawm, sau xov xwm).

cov txheej txheem ntawm corpus linguistics
cov txheej txheem ntawm corpus linguistics

Nyob rau hauv ib txoj kev nthuav, tiam ntawm cov ntaub ntawv uas sawv cev ntawm qhov ncauj yog nqa tawm. Txij li kev txhob txwm tshaj tawm cov lus hais no yuav tsim cov xwm txheej zoo rau cov neeg teb, thiab cov khoom siv tsis tuaj yeem hu ua "spontaneous", niaj hnub corpus linguistics mus rau lwm txoj kev. Tus neeg ua haujlwm pub dawb tau nruab nrog lub microphone, thiab thaum nruab hnub txhua qhov kev sib tham uas nws koom tau raug kaw. Cov neeg nyob ib puag ncig, tau kawg, tsis tuaj yeem paub tias nyob rau hauv chav kawm ntawm kev sib tham txhua hnub lawv tau txhawb nqa kev tshawb fawb.

Tom qab ntawd, cov ntaub ntawv tau txais tau muab khaws cia rau hauv lub txhab nyiaj cov ntaub ntawv thiab nrog rau cov ntawv luam tawm zoo li cov ntawv sau tseg. Ua li no, lub cim xav tau los tsim lub cev ntawm kev hais lus txhua hnub ua tau.

Daim ntawv thov

Qhov twg siv tau cov lus, nws tseem tuaj yeem siv cov ntawv sau. Lub hom phiaj ntawm kev siv corpus txoj hauv kev hais lus tuaj yeem yog:

  • Tsim cov kev xav tau uas tau siv dav hauv kev nom kev tswv thiab kev lag luam txhawm rau taug qab cov lus pom zoo thiab tsis zoo los ntawm cov neeg xaiv tsa thiab cov neeg siv khoom, raws li.
  • Kev sib txuas cov ntaub ntawv rau cov phau ntawv txhais lus thiab cov neeg txhais lus los txhim kho lawv cov kev ua tau zoo.
  • Ntau yam kev tshawb fawb uas ua rau muaj kev nkag siab txog cov qauv ntawm cov lus, keeb kwm ntawm nws txoj kev loj hlob thiab kev kwv yees ntawm nws qhov kev hloov pauv yav tom ntej.
  • Txhim kho cov ntaub ntawv rho tawm raws li morphological,syntactic, semantic thiab lwm yam nta.
  • Kev ua kom zoo ntawm kev ua haujlwm ntawm ntau hom lus, thiab lwm yam.

Siv cov plhaub

Cov peev txheej cuam tshuam zoo ib yam li lub tshuab tshawb nrhiav thiab ua rau tus neeg siv nkag mus rau qee lo lus lossis kev sib txuas ntawm cov lus los tshawb nrhiav infobase. Ntxiv rau daim ntawv thov, koj tuaj yeem siv cov ntawv txuas ntxiv, uas tso cai rau koj nrhiav cov ntaub ntawv los ntawm yuav luag txhua hom lus.

computer thiab corpus linguistics
computer thiab corpus linguistics

Lub hauv paus rau kev tshawb nrhiav tuaj yeem yog:

  • yog ib pab pawg ntawm cov lus hais;
  • grammatical nta;
  • semantics;
  • stylistic thiab kev xav xim.

Tsis tas li, koj tuaj yeem sib txuas cov kev tshawb fawb rau ib ntu ntawm cov lus: piv txwv li, pom txhua qhov tshwm sim ntawm cov lus qhia nyob rau hauv lub sijhawm tam sim no, thawj tus neeg, cov lus ua raws li cov lus qhia "hauv" thiab cov npe hauv rooj plaub.. Kev daws qhov haujlwm yooj yim no yuav siv sijhawm tus neeg siv ob peb lub vib nas this thiab tsuas yog ob peb nas nas nyem rau hauv qhov chaw muab.

txheej txheem tsim

Kev tshawb nrhiav nws tus kheej tuaj yeem ua tiav ob qho tib si hauv txhua qhov chaw subcorpuses, thiab hauv ib qho, tshwj xeeb xaiv, nyob ntawm qhov xav tau thaum ua tiav lub hom phiaj tshwj xeeb:

  1. Ua ntej tshaj plaws, nws tau txiav txim siab tias cov ntawv twg yuav tsim lub hauv paus ntawm lub cev. Rau cov tswv yim, cov ntawv xov xwm, cov ntaub ntawv xov xwm, cov lus hauv Internet feem ntau siv. Hauv cov haujlwm tshawb fawb, feem ntauntau hom corpora, tab sis cov ntawv yuav tsum raug xaiv rau qee qhov hauv paus.
  2. Cov ntawv sau tau raug ua ua ntej, qhov ua yuam kev raug kho, yog tias muaj, cov ntaub ntawv thiab cov lus piav qhia ntxiv ntawm cov ntawv tau npaj.
  3. Txhua cov ntaub ntawv tsis yog ntawv raug lim tawm: duab, duab, rooj raug tshem tawm.
  4. Tokens, feem ntau cov lus, raug faib rau kev ua haujlwm ntxiv.
  5. Thaum kawg, morphological, syntactic thiab lwm yam cim ntawm cov txiaj ntsig ntawm cov ntsiab lus tau ua tiav.

Qhov tshwm sim ntawm txhua qhov kev ua haujlwm tau ua yog cov qauv sib xyaw nrog cov txheej txheem faib rau nws, rau txhua qhov ntawm ib feem ntawm kev hais lus, grammatical thiab, qee qhov, cov ntsiab lus tau txhais.

Kev nyuaj hauv kev tsim rooj plaub

Yuav tsum nkag siab tias kom tau lub cev, nws tsis txaus los sau ntau lo lus lossis kab lus. Ntawm ib sab, ib phau ntawv sau yuav tsum sib npaug, uas yog, nthuav tawm ntau hom ntawv hauv qee qhov kev faib ua feem. Ntawm qhov tod tes, cov ntsiab lus ntawm rooj plaub yuav tsum raug cim rau hauv txoj kev tshwj xeeb.

Zakharov corpus linguistics
Zakharov corpus linguistics

Thawj qhov teeb meem yog daws los ntawm kev pom zoo: piv txwv li, kev sau suav nrog 60% ntawm cov ntawv sau tsis tseeb, 20% ntawm cov ntawv sau cia, ib qho kev faib ua feem raug muab rau kev sau ntawv nthuav tawm ntawm qhov ncauj, kev cai lij choj, cov ntaub ntawv tshawb fawb, thiab lwm yam.. Daim ntawv qhia zoo tshaj plaws rau lub cev sib npaug niaj hnub no tsis muaj.

Lo lus nug thib ob hais txog cov ntsiab lus kos npe nyuaj dua los daws. Muaj cov kev pabcuam tshwj xeeb thiab cov txheej txheem siv rau kev sau cov ntawv tsis siv neeg, tab sis lawv tsis muab 100% tshwm sim, tuaj yeem ua rau tsis ua haujlwm thiab yuav tsum tau ua kom zoo dua phau ntawv. Cov cib fim thiab cov teeb meem hauv kev daws qhov teeb meem no tau piav qhia meej hauv kev ua haujlwm ntawm V. P. Zakharov ntawm corpus linguistics.

Cov ntawv cim tau ua nyob rau ntau theem, uas peb yuav teev hauv qab no.

Morphological markup

Los ntawm lub rooj zaum hauv tsev kawm ntawv, peb nco ntsoov tias hauv lus Lavxias muaj qhov sib txawv ntawm kev hais lus, thiab lawv txhua tus muaj nws tus yam ntxwv. Piv txwv li, ib qho lus qhia muaj pawg ntawm kev xav thiab kev nruj uas lub npe tsis muaj. Ib tus neeg hais lus tsis kam lees cov npe thiab sib txuas lus tsis muaj kev cuam tshuam, tab sis kev siv tes ua haujlwm tsis haum rau kev kos npe ntawm 100 lab lo lus siv. Txhua yam haujlwm tsim nyog tuaj yeem ua tau los ntawm lub computer, txawm li cas los xij, rau qhov no nws yuav tsum tau qhia.

Morphological markup yog qhov tsim nyog rau lub khoos phis tawj kom "nkag siab" txhua lo lus raws li qee feem ntawm kev hais lus uas muaj qee yam qauv sau ntawv. Txij li thaum ib tug xov tooj ntawm cov kev cai tsis tu ncua ua hauj lwm nyob rau hauv Lavxias teb sab (raws li nyob rau hauv lwm yam) lus, nws muaj peev xwm tsim ib tug tsis siv neeg txheej txheem rau morphological tsom xam los ntawm muab ib tug xov tooj ntawm algorithms rau hauv lub tshuab. Txawm li cas los xij, muaj kev zam rau txoj cai, nrog rau ntau yam cuam tshuam. Raws li qhov tshwm sim, kev tshuaj ntsuam xyuas lub computer ntshiab niaj hnub no yog qhov tsis zoo, thiab txawm tias 4% yuam kev muab tus nqi ntawm 4 lab lo lus hauv lub cev ntawm 100 lab units, xav tau kev kho kom zoo.

Qhov teeb meem no tau piav qhia meej los ntawm V. P. Zakharov phau ntawv "Corpus Linguistics".

Syntatic markup

Syntactic tsom xam lossis parsing yog txheej txheem uas txiav txim siab txog kev sib raug zoo ntawm cov lus hauv kab lus. Nrog kev pab los ntawm cov txheej txheem algorithms, nws tuaj yeem txiav txim siab cov ntsiab lus, kwv yees, ntxiv, thiab ntau yam kev hais lus hauv cov ntawv nyeem. Los ntawm kev txheeb xyuas cov lus hauv kab lus twg yog qhov tseem ceeb thiab qhov twg yog nyob ntawm, peb tuaj yeem tshem tawm cov ntaub ntawv los ntawm cov ntawv nyeem thiab cob qhia lub tshuab kom rov qab tsuas yog cov ntaub ntawv peb xav tau los teb rau kev tshawb nrhiav.

Laboratories ntawm corpus linguistics nyob rau hauv Russia universities
Laboratories ntawm corpus linguistics nyob rau hauv Russia universities

Los ntawm txoj kev, niaj hnub kev tshawb fawb xyaw siv qhov no los muab cov lej tshwj xeeb es tsis txhob sau cov ntawv ntev hauv cov lus teb rau cov lus nug xws li: "muaj pes tsawg calories nyob rau hauv ib lub txiv apple" lossis "nyob deb ntawm Moscow mus rau St. Petersburg". Txawm li cas los xij, kom nkag siab txawm tias qhov tseem ceeb ntawm cov txheej txheem piav qhia, koj yuav tsum paub koj tus kheej nrog "Introduction to Corpus Linguistics" lossis lwm phau ntawv qhia yooj yim.

Semantic markup

Lub semantics ntawm ib lo lus yog, hauv cov ntsiab lus yooj yim, nws lub ntsiab lus. Ib txoj hauv kev siv tau dav hauv kev txheeb xyuas semantic yog qhov tshwm sim ntawm cov cim npe rau ib lo lus, xav txog nws cov koom nrog hauv pawg semantic thiab subcategories. Cov ntaub ntawv zoo li no muaj txiaj ntsig zoo rau kev ua kom zoo dua cov ntawv nyeem kev xav txog kev txheeb xyuas algorithms, tsis siv neeg xa mus, thiab ua lwm yam dej num uas siv corpus linguistics txoj kev.

Muaj ntau "cov cag" ntawm tsob ntoo, uas yog cov lus paub daws teeb meem uas muajdav heev semantics. Raws li cov ceg ntoo no, cov nodes tau tsim muaj ntau thiab ntau cov ntsiab lus tshwj xeeb. Piv txwv li, lo lus "tsiaj" tuaj yeem txuam nrog cov ntsiab lus xws li "tib neeg" thiab "tsiaj". Thawj lo lus yuav txuas ntxiv mus rau ntau txoj haujlwm, cov ntsiab lus ntawm kev sib raug zoo, haiv neeg, thiab qhov thib ob - rau hauv chav kawm thiab hom tsiaj.

Kev siv cov ntaub ntawv rov qab

Spheres ntawm kev siv corpus linguistics npog ntau qhov chaw ntawm kev ua ub no. Corpora yog siv los sau thiab kho cov phau ntawv txhais lus, tsim cov tshuab txhais lus tsis siv neeg, sau cov ntsiab lus, rho tawm qhov tseeb, txiav txim siab txog kev xav thiab lwm yam kev sau ntawv.

corpus linguistics corpus hom
corpus linguistics corpus hom

Ntxiv rau, cov peev txheej zoo li no tau siv zog los kawm txog cov lus ntawm lub ntiaj teb thiab cov txheej txheem ntawm kev ua haujlwm ntawm cov lus tag nrho. Kev nkag mus rau qhov ntim loj ntawm cov ntaub ntawv npaj ua ntej ua rau muaj kev tshawb fawb sai thiab dav ntawm cov ncauj lus hauv kev txhim kho cov lus, tsim cov neologisms thiab kev hais lus ruaj khov, kev hloov pauv hauv lub ntsiab lus ntawm lexical units, thiab lwm yam.

Vim tias kev ua haujlwm nrog cov ntaub ntawv loj li no yuav tsum muaj kev siv tshuab hluav taws xob, niaj hnub no muaj kev sib raug zoo ntawm lub computer thiab corpus linguistics.

National Corpus ntawm Lavxias teb sab lus

Lub cev no (ua luv ua NKRC) suav nrog ntau lub cev subcorpuses uas tso cai siv cov peev txheej los daws ntau yam haujlwm.

Cov ntaub ntawv hauv NCRA database muab faib ua:

  • ntawm kev tshaj tawm hauv xov xwm ntawm 90s thiab 2000sxyoo, ob lub teb chaws thiab txawv teb chaws;
  • recording ntawm qhov ncauj;
  • accentologically cim cov ntawv (piv txwv li nrog cov cim npe);
  • lus hais;
  • poetic works;
  • khoom nrog syntactic markup, thiab lwm yam.

Cov ntaub ntawv xov xwm tseem suav nrog cov neeg ua haujlwm subcorpuses nrog cov lus txhais ua ke ntawm kev ua haujlwm los ntawm Lavxias mus rau Askiv, German, Fabkis thiab ntau yam lus (thiab lwm yam).

Tsis tas li, cov ntaub ntawv muaj ib ntu ntawm cov ntawv keeb kwm uas sawv cev rau cov lus sau hauv Lavxias hauv ntau lub sijhawm ntawm nws txoj kev loj hlob. Kuj tseem muaj kev cob qhia corpus uas yuav pab tau rau cov pej xeem txawv teb chaws hauv kev paub lus Lavxias.

Lub teb chaws lub cev ntawm cov lus Lavxias suav nrog 400 lab lexical units thiab ntau txoj hauv kev yog ua ntej ntawm ib feem tseem ceeb ntawm lub cev ntawm cov lus European.

Prospects

Qhov tseeb hauv kev pom zoo ntawm thaj chaw no raws li kev cog lus yog qhov muaj cov chaw soj ntsuam kev paub lus hauv Lavxias hauv tsev kawm qib siab, nrog rau cov neeg txawv tebchaws. Nrog rau kev siv thiab kev tshawb fawb nyob rau hauv lub moj khaum ntawm kev txiav txim siab los muab cov ntaub ntawv pov thawj, kev txhim kho ntawm qee qhov chaw hauv kev siv thev naus laus zis, cov lus nug-lus teb yog txuam nrog, tab sis qhov no tau tham saum toj no.

keeb kwm ntawm corpus linguistics
keeb kwm ntawm corpus linguistics

Kev txhim kho ntxiv ntawm corpus linguistics yog kwv yees nyob rau txhua theem, los ntawm kev ua haujlwm, hais txog kev qhia txog cov algorithms tshiab uas ua kom zoo dua cov txheej txheem ntawm kev tshawb nrhiav thiab ua cov ntaub ntawv, nthuav dav lub peev xwm ntawm cov khoos phis tawj, nce kev ua haujlwm.nco, thiab xaus nrog tsev neeg, raws li cov neeg siv pom ntau thiab ntau txoj hauv kev los siv cov peev txheej no hauv lub neej txhua hnub thiab tom haujlwm.

In xaus

Nyob rau hauv nruab nrab ntawm lub xyoo pua xeem, 2017 zoo li lub neej yav tom ntej nyob deb, nyob rau hauv lub spacecraft surf lub expanses ntawm lub ntiaj teb no thiab robots ua tag nrho cov hauj lwm rau tib neeg. Qhov tseeb tiag, txawm li cas los xij, kev tshawb fawb tau ua tiav nrog "qhov chaw dawb paug" thiab tab tom ua qhov kev sim siab los teb cov lus nug uas muaj teeb meem rau noob neej rau ntau pua xyoo. Cov lus nug ntawm kev ua haujlwm ntawm cov lus ua rau muaj kev txaus siab ntawm qhov chaw ntawm no, thiab kev siv lus thiab kev suav lej tuaj yeem pab peb teb rau lawv.

Kev ua tiav cov ntaub ntawv ntau tso cai rau koj txhawm rau txheeb xyuas cov qauv uas yav tas los nkag tsis tau, kwv yees kev txhim kho ntawm qee yam lus, taug qab cov lus tsim yuav luag nyob rau lub sijhawm.

Ntawm qhov ua tau zoo thoob ntiaj teb, corpora tuaj yeem txiav txim siab, piv txwv li, yog lub peev xwm los ntsuas cov kev xav ntawm pej xeem - Is Taws Nem yog cov ntaub ntawv hloov kho tsis tu ncua ntawm ntau cov ntawv tsim los ntawm cov neeg siv tiag: cov no yog cov lus pom, tshuaj xyuas, cov ntawv, thiab ntau hom kev hais lus.

Tsis tas li ntawd, kev ua haujlwm nrog corpora pab txhawb kev txhim kho ntawm tib txoj kev txhais tau tias koom nrog cov ntaub ntawv rov qab, paub peb los ntawm Google lossis Yandex cov kev pabcuam, tshuab txhais lus, phau ntawv txhais lus hluav taws xob.

Nws muaj kev nyab xeeb hais tias kev hais lus corpus tsuas yog ua thawj kauj ruam thiab yuav txhim kho sai sai tom ntej no.

Pom zoo: