Cruthachadh, Colaistean agus oilthighean
Dè tha Corpas Cànanachas?
Dìreach beagan deicheadan bho chionn gu bog cànanach rannsachaidh, luchd-saidheans a-mhàin a b 'urrainn bruadar. Chaidh an obair a dhèanamh le làimh, tha ea 'tarraing àireamh mhòr de dh'oileanaich, tha coltas mòr "neo-chùramach" mhearachdan, agus as cudromaiche buileach - tha seo uile a ghabh fada, ùine fhada.
Le bhith a 'leasachadh teicneòlas coimpiutaireachd air a bhith comasach air rannsachadh a dhèanamh air an òrdugh meudachd nas luaithe, agus an-diugh aon de na stiùiridhean gealltanach ann an rannsachadh cànain a tha cànanachais corpais. Tha a 'phrìomh fheart a tha a' cleachdadh tòrr mòr de teacs fiosrachadh, fiosrachadh a-steach do aon stòr-dàta, ann an dòigh shònraichte agus ghairm e an corp chomharraichte.
Gu ruige seo, tha mòran togalaichean a chruthachadh le diofar adhbharan air bunait cànain diofar stuth a 'dol thairis bho milleanan ri deichean de billeanan de briathrachais aonadan. Stiùireadh seo air aithneachadh mar gealltanach agus a 'sealltainn adhartas cudromach a dh'ionnsaigh an t-iarrtas agus a chum rannsachaidh. Eòlaichean, aon dòigh no eile a 'dèiligeadh le nàdarra a' chànain, tha ea 'moladh a dhol an eòlas a' chuirp de theacsaichean co-dhiù aig ìre bhunaiteach.
Eachdraidh cànanachais corpais
Tha cruthachadh an gluasad seo air sgàth 'cruthachadh na Stàitean Aonaichte aig Brown chorp ann an tràth-60 a thighinn am follais an linn mu dheireadh. Tha an cruinneachadh a 'gabhail a-steach theacsaichean a h-uile facal 1 millean de fhoirmean, agus an-diugh a' bhuidheann den mheudachd seo a bhiodh gu tur uncompetitive. Tha seo gu mòr air sgàth astar an leasachadh teicneòlas coimpiutaireachd, cho math ri fàs iarrtasan airson rannsachadh ùr goireasan.
Anns na 90an cànanachais corpais nochd a-steach iomlan agus neo-eisimeileach smachd, cruinneachadh de theacsaichean air a bhith air an tarraing suas agus air an comharrachadh airson dusanan de chànanan. Anns an ùine seo bha e air a chruthachadh, mar eisimpleir, Nàiseanta Bhreatainn Corpas 100 millean chomharran.
Le leasachadh an sgìre seo de cànanachas, teacsa leabhraichean a 'fàs barrachd is barrachd (agus ruighinn billeanan de faclair aonadan), agus an cruth a' fàs nas eadar-mheasgte. Gu ruige seo, tha an eadar-lìon rùm Gheibhear closaichean a sgrìobhadh agus a 'bruidhinn cànan, ioma-chànanach, agus ionnsachadh-amas ealanta no acadaimigeach litreachas, cho math ri mòran ghnèithean eile.
Dè an taigheadais
Buidheann sheòrsa ann an corp an cànanachas dh'fhaodadh a bhith air a thoirt seachad airson grunn adhbharan. Intuitively, na bhun-stèidh airson an seòrsachadh a bhith teacs cànain (Russian, Gearmailtis), an cothrom modh (còd fosgailte, dùinte, coimearsalta), an gnè de na bun-stuthan (ficsean, aithriseachd, acadaimigeach, naidheachdas).
Interesting dòigh gineadh stuthan labhairt a 'chànain. Bhon a dh'aona ghnothach clàradh a leithid de òraid a chruthachadh fuadain àrainneachd airson luchd-freagairt, agus na stuth nach b 'urrainn a bhith air a ghairm "gun ullachadh", nuadh-cànanachais corpais air a dhol an rathad eile. A saor-thoileach a tha uidheamaichte le microfòn, agus rè an là a 'dèanamh clàr de na còmhraidhean, anns a bheil e a' gabhail pàirt. Daoine mun cuairt, gu dearbh, faodaidh nach eil fios agad gur ann a 'chùrsa còmhradh làitheil a' cur ri leasachadh saidheans.
Às dèidh sin fhuair chlàr a stòradh ann an stòr-dàta agus tha an cois teacsa clò-bhuailte tar-sgrìobhadh seòrsa. Mar sin, tha ea 'fàs comasach markup feum a chruthachadh bheòil làitheil òraid taigheadas.
iarrtas
Far an urrainnear an cànan a chleachdadh, agus 's dòcha a' cleachdadh thogalaichean theacsaichean. Dòighean-obrach a chur an sàs ann an cànanachas hull a dh'fhaodadh a bhith:
- Cruthachadh prògram co-dhùnadh na prìomh, tha gan cleachdadh ann am poilitigs agus gnothachais a chumail air adhartach is àicheil freagairtean an luchd-bhòtaidh agus an luchd-ceannach, fa leth.
- Connection siostam fiosrachaidh ri faclairean agus eadar-theangairean gus piseach a thoirt air an coileanadh.
- Tha diofar gnìomhan rannsachaidh a 'cur ri an tuigse air a' chànan aonad, an eachdraidh a leasachadh agus Ro-aithris air atharrachaidhean ann an faisg air àm ri teachd.
- Leasachadh fiosrachadh a lorg siostaman stèidhichte air an morphological, syntactic, Semantic agus feartan eile.
- Optimization na diofar siostaman agus cànanach dhaoine eile.
Cleachdadh na togalaichean
coltach goireas eadar-aghaidh le àbhaisteach search engine, agus Spreagadh an neach-cleachdaidh a-steach facal no measgachadh de na faclan a lorg airson a 'bhun-stèidh fiosrachaidh. Apart chruthachadh an dearbh cheist a chleachdadh nas dreach, a leigeas a lorg theacsail fiosrachadh air cha mhòr sam bith cànanach slatan-tomhais.
rannsachadh bonn a dh'fhaodadh a bhith:
- ballrachd shònraichte buidheann de gràmair;
- gràmar feartan;
- semeantaig;
- stoidhle agus dath faireachail.
Urrainn dhut cuideachd rannsachadh slatan-tomhais airson sreath de dh'fhaclan, mar eisimpleir, gus faighinn a h-uile Buidheann den ghnìomhair ann an-diugh tràth, a 'chiad neach singilte, a tha a' tighinn às dèidh an roimhear "ann an" agus an noun ann an accusative chùis. Tha fuasgladh a leithid sìmplidh obair a 'toirt an neach-cleachdaidh diogan Feumaidh ach beagan luchag cliogan a shònrachadh ann an achaidhean.
Tha am pròiseas a 'cruthachadh
Tha an rannsachadh fhèin a dhèanamh air a h-uile subcorpus agus aon sònraichte a chaidh a thaghadh, a rèir feumalachdan ann an bhith a 'coileanadh amas gu sònraichte:
- Tha a 'chiad cheum a bhith a' mìneachadh theacsaichean a tha a 'bhunait airson a' chùis. Airson adhbharan practaigeach, tha e tric a 'cleachdadh luchd-naidheachd, naidheachdan, beachdan air-loidhne. Bha am pròiseact rannsachaidh a tha a 'cleachdadh measgachadh farsaing de sheòrsaichean pasgan, ach an teacsa bu chòir a bhith air an taghadh a rèir cuid cumanta talamh.
- Tha an chruinneachadh de theacsaichean air a smachdachadh gu pretreatment, tha ceartachadh mhearachdan, ma sam bith, air an ullachadh le leabhraichean agus cànanach taobh a-tuairisgeul an teacsa.
- Air a chur às a h-uile neo-theacsail fiosrachaidh: 'glanadh na grafaigeachd, dealbhan, bùird.
- Is riarachadh de chomharran, a tha mar as trice òraid, airson tuilleadh giollachd.
- Mu dheireadh, tha e a 'giùlan morphological, syntactical agus comharraidhean eile fhaighinn iomadalachd nan eileamaidean.
B 'e toradh na h-uile Gnìomhan dhèanamh le syntactic structar leis a sgaoileadh ann an iomadalachd nan eileamaidean, gach aon a tha air a chomharrachadh mar phàirt de cainnte, gràmar agus, ann an cuid de chùisean, Semantic buadhan.
Duilgheadasan ann an cruthachadh togalaichean
Tha e cudromach a thuigsinn nach eil gu leòr gus a chur ri chèile seata de faclan no na seantansan airson a 'chuirp. Air an aon làimh, cruinneachadh de theacsaichean bu chòir a bhith cothromach, 'se sin, a' riochdachadh diofar sheòrsaichean teacsa ann an cuid co-chuidean. Air an làimh eile - a th 'ann an cuairteachadh bu chòir rùm gu leòr ann an dòigh sònraichte.
Tha a 'chiad trioblaid a' fuasgladh le aonta: mar eisimpleir, anns a 'chruinneachadh gabhail a-steach 60% de litreachais theacsaichean, 20% de aithriseachdan, àireamh shònraichte sa cheud ga thoirt sgrìobhte riochdachadh an cànan labhairteach, reachdas, saidheansail oibre, etc. foirfe reasabaidh a chothromachadh bhuidheann an-diugh nach eil ...
Tha an dara ceist, a thaobh an t-susbaint a-mach, a 'fuasgladh dùbhlanach. Tha prògraman sònraichte agus aontaran a chleachdadh airson fèin-ghluasadach, a 'comharrachadh de theacsaichean, ach chan eil iad a' toirt foirfe thoradh air sin, faodaidh an-dràsta agus feumaidh làimhe Rework. Cothroman agus na dùbhlain ann an dèiligeadh ris an trioblaid seo a tha air a mhìneachadh gu mionaideach ann am pàipear V. P. Zaharova de cànanachais corpais.
Teacsa markup a chur an gnìomh aig grunn ìrean, a tha sinn an liosta gu h-ìosal.
morphological no tagadh a chleachdadh
Bho sgoil, a chuimhnicheas sinn ann an Ruisis an cànan sin, tha diofar phàirtean den òraid, agus gach aon dhiubh aig a bheil feartan aca fhèin. Mar eisimpleir, a 'ghnìomhair Tha roinnean de bhreithneachadh agus an ùine aig nach eil noun. ghlùin gun teagamh 'chrìonadh ainmearan agus ghnìomhairean neo-chuingichte, ach a' comharrachadh a 'bhuidheann de 100 millean. dh'ionnsaigh obair-làimhe throm nach bi ag obair. A h-uile riatanach obraichean urrainn cur an gnìomh a 'choimpiutair, ge-tà, airson seo dh'fheumas ea bhith a' teagasg.
Morphological no tagadh a chleachdadh, feumaidh a 'choimpiutair "tuigsinn" gach facal mar phàirt sònraichte de òraid a bhith gràmair feartan. Bho àm an Ruisis (agus cànan sam bith eile) a 'ruith grunn riaghailtean gu cunbhalach, tha e comasach a thogail modh fèin-obrachail airson an morphological mion-sgrùdadh, a' tasgadh ann an càr airson grunn aontaran. Ach, tha do nach buin an riaghailt, a thuilleadh air diofar fhactaran a bhith toinnte. Mar thoradh air, lìon coimpiutair mion-sgrùdadh air an-diugh tha e fada bho freagarrach, agus fiù 4% mearachd faighear luach 4 mln. Words air a 'bhodhaig de 100 millean. Aonadan, ag iarraidh làimhe Rework.
Leabhar a 'toirt iomradh mionaideach air an duilgheadas Zaharova V. P. "cànanachais corpais."
syntactic nota
Parsadh no parsadh - modh-obrach a tha a 'dearbhadh an dàimh eadar na facail ann an seantans. Cleachdadh seata de aontaran e comasach co-dhùnadh an teacsa a 'chuspair, predicate, a chur ris, ioma seach cainnt. Lorg a-mach a tha briathran na prìomh òrdugh, agus a tha - an urra ri, is urrainn dhuinn gu h-èifeachdach air fiosrachadh fhaighinn bho teacsa agus a theagasg an inneal a thoirt seachad, a 'freagairt iarrtas rannsachadh a-mhàin am fiosrachadh inntinneach dhuinn.
Co-dhiù, nua-innealan rannsachaidh seo a chleachdadh a thoirt a-mach sònraichte àireamhan an àite fada theacsaichean ann am freagairt iomchaidh ceistean leithid "cia mheud calaraidh ann an ubhal" no "an t-astar eadar Moscow agus St. Petersburg." Ach, fiù 's a' tuigsinn na bunaitean a 'phròiseas air a mhìneachadh leis an fheum airson co-chomhairleachadh an "Ro-ràdh an Corpas Linguistics" no eile bunasach.
Semantic markup
Tha semeantaig an fhacail - 'S e, ann an dòigh shìmplidh, tha an ciall. Farsaing iomchaidh a bhith a 'mion-sgrùdadh air Semantic facal Attribution tags, a' sealltainn a bhuineas do seata de Semantic roinnean-seòrsa agus san roinn-seòrsa. Tha fiosrachadh mar sin luachmhor airson fhearr aontaran sgrùdaich teacs tòna, fèin-ghluasadach summarization agus obair eile dòighean cànanachais corpais.
Tha grunn de "root" na craoibhe, a 'riochdachadh an eas-chruthach le facal gu math farsaing a semeantaig. Mar meur na craoibhe a tha àiteachan a chruthachadh, anns a bheil barrachd is barrachd eileamaidean sònraichte briathrachais. Mar eisimpleir, am facal "creutair" a dh'fhaodadh a bhith co-cheangailte ri bun-bheachdan a leithid sin mar "daonna" agus "beathach". Tha a 'chiad facal Leanaidh meur-mach dhan dreuchdan eadar-dhealaichte, a thaobh dàimhe, nàiseantachd, agus an dàrna - air clasaichean agus seòrsa de bheathaichean.
Tha cleachdadh na siostaman fiosrachadh a lorg
Raointean de cleachdadh cànanachais corpais a 'còmhdach eadar-mheasgte achaidhean de ghnìomhachd. Housings air an cleachdadh airson a bhith ag ullachadh agus ceartachadh, faclairean, fèin-obrachail a chruthachadh eadar-theangachadh siostaman, annotating, faighinn fìrinn, a 'dearbhadh an tòna agus teacsa eile giollachd.
A bharrachd, leithid goireasan a tha gu gnìomhach a chleachdadh ann an rannsachadh an t-saoghail cànain agus dòighean air obrachadh a 'chànain san fharsaingeachd. Cothrom air meudan mòra de ro-fhiosrachadh a dh'ullaich a 'furastachadh luath agus sgrùdadh farsaing a dhèanamh de na gluasadan de leasachadh cànain, agus stàball cruthachadh nuadh-fhaclan òraid luaths atharrachaidh a' cur luach briathrachais aonadan agus feadhainn eile.
Bho obair le leithid suimean mòra de Feumaidh dàta fèin-ghluasad, an-diugh tha dlùth eadar-obrachadh eadar a 'choimpiutair agus cànanachais corpais.
Russian Nàiseanta Corpas
Tha seo ceangailte (giorrad NKRYA) gabhail a-steach àireamh de subcorpus, a 'toirt cothrom air cleachdadh na ghoireas airson raon farsaing de ghnìomhan obrach.
Tha na stuthan ann an stòr-dàta air an roinn NKRYA:
- gu foillseachaidhean anns na meadhanan a '90an agus 2000an, an dà chuid san dachaigh agus cèin;
- clàradh cainnt;
- aktsentologicheski comharrachadh teacsaichean (i.e., na comharran de dh'uallach);
- dualchainnt cainnt;
- bàrdachd;
- Stuthan le syntactic agus comharraidhean eile.
Tha am fiosrachadh cuideachd a 'gabhail a-steach siostam Subcorpus co-shìnte le eadar-theangachaidhean de dh'obraichean bho Ruisis gu Beurla, Gearmailtis, Fraingis agus mòran chànan eile (agus a chaochladh).
Cuideachd anns an stòr-dàta tha earrann de theacsaichean eachdraidheil, a 'riochdachadh a' sgrìobhadh òraid ann an Ruis ann an diofar amannan a leasachadh. Tha cuideachd trèanadh corp, a dh'fhaodas a bhith feumail airson cèin shaoranaich ann an ionnsachadh cànain na Ruis.
Russian Nàiseanta Corpas gabhail a-steach 400 millean briathrachais aonadan, agus ann an iomadh dòigh air adhart na phàirt mòr de chànanan na Roinn Eòrpa buidhnean.
dùilean
Fact ann am fàbhar na chomharra air an gluasad seo mar a tha an cothrom air a 'gealltainn obair-lann cànanachais corpais ann Russian oilthighean, cho math ri dùthchannan cèin. Leis a 'cleachdadh agus a' rannsachadh ann an fhrèam seo fiosrachadh agus goireasan rannsachaidh an lùib a 'leasachadh an cuid de sgìrean ann an achadh àrd teicneòlasan, ceist-siostaman-freagairt, ach tha e air a dheasbad gu h-àrd.
Nas fhaide air leasachadh cànanachais corpais thathar an dùil aig gach ìre, bho teicnigeach agus a thaobh buileachadh ùr-aontaran a bharrachadh air na pròiseasan a lorg agus làimhseachadh fiosrachaidh, cumhachdachadh coimpiutairean, tuilleadh RAM, agus do luchd-cleachdaidh, a chionn luchd-cleachdaidh a tha barrachd is barrachd dhòighean gus a bhith a 'cleachdadh an seòrsa seo de ghoireas ann làitheil aca beatha agus obair.
Ann an co-dhùnadh
Ann am meadhan na linne mu dheireadh ann an 2017 bha coltas fada air falbh san àm ri teachd, far an-fànais a 'siubhal tro na cruinne-cè agus innealan-fuadain a dhèanamh a h-uile obair do na daoine. Gu dearbh, tha saidheans replete le "spotan" èiginn agus a 'dèanamh oidhirpean gus na ceistean a fhreagairt a' chinne-daonna airson linntean dragh. Ceistean obrachadh a 'chànain seo a' fuireach na àite urram, agus caibineat an riaghaltais agus computational cànanachas urrainn dhur ar cuideachadh a 'freagairt orra.
Processing of mòr seataichean dàta urrainn lorg phàtrain, roimhe seo doirbh faighinn thuice, ro-innse a 'leasachadh cànan feartan sònraichte gus sùil a chumail a' cruthachadh faclan ann an cha mhòr fìor-ùine.
On ìre phractaigeach, na cruinne pàircean Chithear, mar eisimpleir, mar a dh'fhaodadh a bhith na inneal gus measadh a dhèanamh poblach sunnd - an eadar-lìon a tha daonnan ùrachadh làitheil diofar theacsaichean a chruthachadh le fìor luchd-cleachdaidh: seo beachdan agus ath-sgrùdaidhean, agus artaigilean, agus mòran eile foirmean cainnte.
A bharrachd, ag obair le buidhnean a 'cur ri leasachadh an aon bathar-cruaidh, a tha an sàs ann am fiosrachadh air ais, tha sinn eòlach air an t-seirbheis "Google" no "Yandex", inneal eadar-theangachadh, faclairean dealanach.
Faodaidh sinn misneachd cumail a mach gu bheil an cànanachais corpais a 'dèanamh ach a' chiad cheumannan a ghabhail, agus anns an àm ri teachd bidh faisg air soirbheachadh.
Similar articles
Trending Now