Види комп’ютерного редагування та комп'ютерний словник. Реферат

Ступені автоматизації комп’ютерного редагування. Етапи опрацювання тексту; комп’ютерний словник. Роль електронного словника для редагування текстів. Методи реконструкції

Ступені автоматизації комп’ютерного редагування

Комп’ютерне редагування має особливості, які відрізняють його від традиційного. В ньому виділяють такі ступені автоматизації:

Комп’ютеризоване редагування (операції контролю і виправлення здійснює людина; комп’ютер використовують лише як "електронне перо"). Прикладом СР (систем редагування, які дають змогу здійснювати комп’ютеризоване редагування) є ТП (текстові процесори).
Автоматизоване редагування (більшу частину операцій контролю й виправлення виконує СР, а людина - меншу частину операцій контролю та більшість операцій виправлення. Автоматичне редагування (більшу частину операцій контролю й виправлення виконує СР, а меншу - людина; крім того, людина приймає рішення в неформалізованих конфліктних ситуаціях).

Етапи опрацювання тексту

Комп’ютерне редагування має свої специфічні розмежовані в часі етапи опрацювання тексту:

передредагування, тобто попереднє ручне розмічування оригіналу, яке виконує людина з метою наступного автоматизованого чи автоматичного редагування, наприклад, задання для рубрик спеціальних стилів їх оформлення, розставлення міток у бібліографічному описі тощо;
інтерредагування, яке виконує сама СР, проводячи операції контролю й виправлення тексту;
постредагування, яке виконує людина, проводячи ті операції контролю й виправлення тексту, що їх не змогла виконати СР.

Комп’ютерне редагування здійснюють послідовно: від однієї одиниці до іншої. Закінчивши опрацювання на одному рівні, переходять до наступного (в напрямі від нижчих рівнів до вищих).

"Специфіка порівневого опрацювання полягає в тому, що переходити до вищого рівня можна лише тоді, коли на нижчому всі помилки вже усунуті (наявність помилки на нижчих рівнях унеможливлює опрацювання вищих). Для порівняння вкажемо, що під час традиційного редагування людина опрацьовує текст інтегрально, тобто охоплює одночасно кілька сусідніх рівнів".

Комп’ютерний словник

Роль електронного словника для редагування текстів. Комп’ютерний словник для СР найчастіше створюють на основі частотного словника потрібної мови. Це викликане тим, що слова в тексті за частотою розподіляються згідно із законом Ципфа.

Цей закон формулюють так: якщо для якогось досить великого тексту скласти список усіх слів, що вживаються в ньому, полічити для кожного слова частоту його вживання, розмістити слова в порядку спадання цих частот, перенумерувати ці слова від 1 (номер "1" присвоюють найбільш частому слову) до R, то добуток порядкового номера (рангу, r) будь-якого слова списку на його частоту появи в тексті (1) буде майже сталою величиною (с):

f∙r = c

На практиці це означає, що, коли перша тисяча слів частотного словника покриває близько 75% слів будь-якого тексту, то перші дві тисячі слів лише 80%, перші п’ять тисяч - лише 85% і т. д. Тобто, покриття тексту словами частотного словника відбувається дуже нерівномірно: невелика кількість слів із верхньої частини частотного словника покриває три чверті тексту, а більшість слів із нижньої його частини - решту, лише четверту частину.

Щоби забезпечити максимальне покриття тексту, яке істотно залежить від семантичного наповнення словника, часто чинять так: у комп’ютерному словнику виділяють словник загальновживаної лексики (загальний словник) і лексику окремих галузей знань (галузеві словники). У кожний галузевий словник, крім термінів і номіналів, включають також персоналії (власні імена й прізвища людей), географічні назви, скорочення та абревіатури. Далі для контролю тексту якоїсь конкретної галузі використовують загальний словник, а також добирають потрібний галузевий словник.

Комп’ютерні словники, які використовують для редагування текстів, класифікують:

за типом лексичних одиниць - словники словоформ, в яких слова подають у всіх їх словозмінних формах, і словники основ, у яких до основи кожного слова вказують всі її можливі закінчення;
за наявністю блоків для аналізу морфем (префіксів, суфіксів, закінчень), за допомогою яких від основ можна утворювати нові похідні слова.

Для аналітичних мов (на зразок англійської) частіше використовують словники словоформ, а для синтетичних (як українська) - словники основ.

Кожен із цих словників має свої недоліки і переваги. Так, словник словоформ дуже легко можна створити, опрацювавши на комп’ютері достатньо великий масив текстів і записавши всі однакові слова у вигляді словника на комп’ютерний носій інформації. На жаль, такий словник за обсягом у кілька разів буде перевищувати аналогічний словник основ, який можна створити лише нетрадиційним способом. Тому інколи для синтаксичних мов використовують комбінований тип словників, в яких для найуживаніших словоформ подають також усі інші можливі закінчення.

Методи реконструкції. Операції виправлення значно складніші, ніж операції контролю. Вони дають змогу автоматично виправляти лише окремі знаки в словах. Серед цих методів найвідоміший абревіатурний, алфавітний, базовий, комбінаторний та цифровий. Розглянемо їх на прикладі алфавітного методу.

Для алфавітного методу кожен запис у реконструюючому словнику утворюють із чотирьох полів:

для запису правильного (нормованого) слова;
для запису довжини слова в знаках;
для запису алфавіту від "а" до "я";
для позиційного запису кількості входжень літер у правильне слово.

Подамо приклад такого запису:

поле 1: структура
поле 2: 9
поле 3: а б в г ґ д е є ж з и і ї й к л м н о п р с т у ф х ц ч ш щ ю я
поле 4: 112122

У такому словнику всі записи сортують за довжинами слів. Слова, довжина яких менша, ніж три літери, до словника не входять; їх реконструюють на основі окремого словника часто вживаних слів. Редакторові як підказку видають слів-кандидатів для виправлення тексту (найчастіше до 10), з яких редактор повинен вибрати потрібне. Таке слово за командою редактора автоматично вставляється в текст на місце помилкового.

Ефективність алфавітного методу реконструкції за певних умов може досягати 0,8. Недоліками цього та інших методів реконструкції є те, що вони для слів малої довжини видають порівняно велику кількість слів-кандидатів.

Метод повністю автоматизованої реконструкції полягає в тому, що помилки в деяких часто вживаних словах є однаковими у великій кількості людей, а тому можна задати їх автоматичне виправлення за допомогою реконструюючого словника підстановок (наприклад, завжди заміняти зпід на з-під, свойого на свого тощо). За допомогою такого словника можна контролювати й автоматично заміняти суржик і типові часто повторювані помилки.

Дата публікації: 02.10.2011