Tvorba korpusů a vytěžování jazykových dat: metody, modely, nástroje

· Vydavatelství Filozofické fakulty Univerzity Palackého v Olomouci
Ebook
286
Pages

About this ebook

Kniha nabízí systematický vhled do problematiky technického zpracování jazykových dat, efektivního vytěžování dat a prezentuje možnosti a prostředky, jak sestavit vlastní textovou databázi (jazykový korpus).

Mezi nejdůležitější části textu patří pasáže zaměřené na anotaci a technické aspekty tvorby korpusů, zejm. na formát dat a kódování znaků, segmentaci textu či využití značkovacího jazyka XML, jenž v současnosti představuje nejrozšířenější mezinárodní standard pro anotaci korpusových databází. Prezentovány jsou rovněž vybrané softwarové nástroje pro vytěžování korpusových dat, od nejjednodušších aplikací určených pro dílčí či základní korpusové operace až po komplexní korpusové nástroje. Technicky nejnáročnějšími pasážemi monografie jsou pak kapitoly, jež se věnují možnostem automatického zpracování textu do strukturované databáze prostřednictvím softwarových nástrojů a počítačových skriptů. Postupně tak jsou v monografii představeny všechny fáze počítačového zpracování dat: nastavení či konverze kódování znaků, konců řádků i souborového formátu, segmentace či tokenizace textu, jeho zpracování do některého z korpusových formátů (např. do tzv. vertikály), proces anotace různého typu a rozsahu (zejm. lemmatizace a taggování) atd.

Discover more

Rate this ebook

Tell us what you think.

Reading information

Smartphones and tablets
Install the Google Play Books app for Android and iPad/iPhone. It syncs automatically with your account and allows you to read online or offline wherever you are.
Laptops and computers
You can listen to audiobooks purchased on Google Play using your computer's web browser.
eReaders and other devices
To read on e-ink devices like Kobo eReaders, you'll need to download a file and transfer it to your device. Follow the detailed Help Center instructions to transfer the files to supported eReaders.