А   Б  В  Г  Д  Е  Є  Ж  З  І  Ї  Й  К  Л  М  Н  О  П  Р  С  Т  У  Ф  Х  Ц  Ч  Ш  Щ  Ю  Я 


Імовірність - буква

Ймовірності букв, які не брали участі в об'єднанні, і отримана сумарна ймовірність знову розташовуються в порядку убування ймовірностей в додатковому стовпці, а дві останні об'єднуються. Процес продовжується до тих пір,поки не отримаємо єдину допоміжну букву з ймовірністю, яка дорівнює одиниці.

Вектору або точці Q симплекса відповідають також ймовірності букв на виході.

Найбільший ефект стиснення виходить у випадку, коли ймовірності букв являють собоюцілочисельні негативні ступеня двійки. Середнє число символів на букву в цьому випадку точно так само ентропії.

Це означає, що для кожного виходу береться сума ймовірностей букв на вході, з яких цей вихід може бути досягнутий. Вхідні ймовірності вибираютьсятак, щоб отримати мінімум найбільшою з цих сум, і Re, одно взятому зі знаком мінус логарифму цієї мінімаксного суми. Звідси можна побачити, що R 0 за винятком того випадку, коли будь-який вихід є недосяжним принаймні з одного входу.

Так як буквистатистично не пов'язані, ймовірно блоків визначаються як добуток ймовірностей складових букв.

Для дискретного каналу без пам'яті з перехідними ймовірностями pt (/) і ймовірностями вхідних букв Pt наступні три твердження є еквівалентними.

Отримані результати дозволяють зробити висновок про те, що надмірність, а отже, і нерівномірність розподілу ймовірностей букв джерела А2 - латинського алфавіту - більше, ніж у джерела А1 - російського алфавіту.

Продовжуючи антіентропійний процес далі,ми, в кінцевому рахунку, прийдемо до ситуації, що відповідає гранично великої диференціації ймовірностей букв - коли одна з букв (наприклад, буква А) має ймовірність 1 а всі інші літери мають нульову ймовірність.

Щоб довести це, припустимо, що пропускназдатність каналу з перехідними ймовірностями rt (j) досягається, коли ймовірності букв на вході рівніPм.

З теорелія II випливає, що асимптотично оптимальне взаємно однозначна кодування блоками зростаючої довжини існує і в тому випадку, коли розподілймовірностей букв вихідного алфавіту заздалегідь не відомо.

Ці формули можна отримати безпосередній підстановкою у формули для RIZ і Rz або ж, помітивши, що при передачі по напрямку 1 - 2 канал діє подібно прати каналу, а по напряму 2 - 1 поводиться якдвійковий канал без шуму при нерівних ймовірностях вхідних літер.

Джерело має алфавіт з 4 букв. Ймовірності букв і два можливих безлічі двійкових кодових слів для джерела наведені нижче.

Максимальна ентропія (рівна L In D) такій послідовностідосягається при розподілі для кожної букви, незалежному від сусідніх букв і при рівноймовірно розподілі по всьому алфавітом. Але ймовірності букв однозначно визначаються ймовірностями повідомлень і вибором коду.

Ансамбль кодів визначений наступним чином.Безліч ймовірностей букв разом з цими перехідними ймовірностями задає міру Q (Z) в просторі відтворених слів.

При деякому зменшенні Н нижче одного біта на букву ми перейдемо від літературних текстів до текстів спеціалізованим, зрозумілим лишедля відповідних фахівців. Зростання ступеня диференціації ймовірностей букв у цих текстах пов'язано зі збільшенням частоти застосування якихось певних слів і словосполучень, словесних штампів. При цьому зменшується ступінь варіативності мови за рахунокзниження ступеня його образності і емоційності. Текст стає більш інформаційним, більш суворим, більш впорядкованим. І в той же час (правильніше сказати: з тієї ж причини) він стає більш незрозумілим для непосвячених (інакше кажучи, недостатньоінформованих) споживачів цього тексту.

При відомому k - м стовпчику будується (k 1) - й стовпчик за тим же принципом, що і попередній, з тією лише різницею, що літери, зазначені у попередньому стовпчику двійковими символами, в подальшому стовпчику відсутні. У новому стовпчику їх представляє одна складова буква зі значенням імовірності, що дорівнює сумі ймовірностей доданків букв.

Тепер ми отримаємо для оцінки, зазначеної в теоремі 1 інший вираз, яке порівняно легко може бути обчислене по відомим параметрам каналу. Припустимо спочатку, що приписані словами в теоремі 1 ймовірностіP(І) дорівнюють добутку ймовірностей букв, складових ці слова.

У § 3.4 явно вказуємо універсальний код для монотонних джерел. Вони породжують кінцеве безліч букв, ймовірності появи яких впорядковані однаковим для всіх джерел чином. Якщо ймовірності букв невідомі, але відомо, яка з двох букв більш імовірна, то мова йде про монотонному джерелі. Саме така ситуація при побудові визначників (ключів) рослин і тварин. Ймовірності невідомі, але відомо, який вигляд більш численний.

Порівнюючи AfpaBH з М'М2 М', М4 ми мимоволі приходимо до висновку, що нерівномірний код більш економний, ніж рівномірний. Однак питання про ступінь економності коду визначається аж ніяк не тільки загальним числом М двійкових цифр у кодовій ланцюжку. Іншими словами, треба враховувати, наскільки часто використовуються ті чи інші літери. Це, однак, залежить від імовірностей літер. Цілком може виявитися, що більш економний код на рис. 1 у чому ми якраз і переконаємося в наступному параграфі.

На всі ці питання є фактичні відповіді, і все ж людська інтуїція і здогади в загальному ведуть до помилок. Наприклад, більшість людей, коли їх запитують про появу літери К, говорять, що найчастіше вона зустрічається на початку слова, ніж на третій позиції, що суперечить дійсності. Чому люди невірно оцінюють ці події. Згідно Тверські і Канеману, люди при відповіді на це питання намагаються спочатку генерувати слова, що починаються з К, а потім слова, де К стоїть на третьому місці. Якщо ви спробуєте зробити це самі, ви зрозумієте, чому люди невірно відповідають на це питання. Причина переоцінки частотності початкових літер криється в тому, що слова з першою літерою До більш доступні, ніж слова з К на третьому місці. Оцінка ймовірності букв грунтується на узагальненні, зробленому на дуже обмеженому наборі слів, доступних в результаті генерації.