Скачиваний:   2
Пользователь:   ivanstudent
Добавлен:   24.12.2014
Размер:   925.5 КБ
СКАЧАТЬ

Но да будет слово ваше: «да», «да», «нет»,

«нет»; а что сверх этого, то от лукавого.

Евангелие от Матфея, 5:37

3  МАТЕМАТИЧЕСКИЕ ОСНОВЫ ИНФОРМАТИКИ

3.1 ОСНОВЫ ТЕОРИИ ИНФОРМАЦИИ И КОДИРОВАНИЯ

3.1.1 Количество информации. Энтропия

В основе всей теории информации лежит открытие, что информация допускает количественную оценку. В простейшей комбинаторной форме эта идея была выдвинута Р. Хартли в 1928 году [11,12], но завершенный вид ей придал Клод Шеннон в 1948 году.

Шенноновская теория информации исходит из элементарного альтернативного выбора между двумя знаками (битами) О и L, где L может отождествляться с 1, “да”, “истина” и т.п., а O с 0, “нет”, “ложь”. Такой выбор соответствует приему сообщения, состоящего из одного двоичного знака, и, тем самым, мы снимаем имеющуюся неопределенность в выборе.

Количество информации, содержащееся в таком сообщении, принимается за единицу и также называется битом. Так что бит – это и двоичный знак, и единица измерения количества информации, определяемая как количество информации в выборе с двумя взаимоисключающими равновероятными исходами.

Отметим, что при таком определении под информацией понимается сообщение, уменьшающее неопределенность у получателя сообщения, и количество информации не зависит от формы и содержания сообщения, а только от вероятности получения сообщения о том или ином событии.

Если выбор состоит в том, что некоторый знак выбирается из множества знаков n ³ 2, то эту процедуру можно выполнить с помощью выборочного каскада.

Пример 1. Пусть дано множество, состоящее из 7 знаков (рис.3.1). Разобьем данное множество на два непустых подмножества, каждое из которых точно так же разбиваются дальше,  и так далее, пока не получим одноэлементные подмножества. В предложенном выборочном каскаде для того, чтобы выбрать а и e  необходимо сделать два альтернативных выбора (количество информации = 2 бита), для того, чтобы выбрать b, c, f – три альтернативных выбора и т.д. [11].

 

 

 

 

127-202 

 

 

 

 

 

 

 

 

 

 

 


Если один знак встречается часто, то, естественно, количество выборов, требующихся для его опознавания, стремятся сделать как можно меньше. Соответственно, для опознавания более редких знаков можно использовать большее число альтернативных выборов. Иными словами, часто встречающиеся знаки содержат малое количество информации, а редкие знаки – большое количество информации. Это вполне согласуется с обыденным смыслом сообщений: чем неожиданнее новость, тем больше ее информативность[1].

Итак, если i- й знак выделяется после Ki  альтернативных выборов, то вероятность его появления Pi   равна  127-202 . Наоборот, 127-202                Ki  = ld(1/Pi). [2]

Количество информации, содержащееся в знаке, задается частотой появления этого знака: ld(1/Pi )  бит.

Тогда среднее количество информации, приходящееся на один произвольный знак, равно

127-202  бит,  причем   127-202.                              (3.1)

Это – основное определение теории информации Шеннона.

Величина H  называется информацией на знак (на один символ сообщения), или энтропией источника сообщений.

Энтропия характеризует данное множество (ансамбль) сообщений с заданным алфавитом и является мерой неопределенности, которая имеется в этом множестве.

Из формулы (3.1) непосредственно вытекают свойства энтропии:

1) энтропия заранее известного сообщения равна 0;

2) во всех других случаях H > 0.

Чем больше энтропия системы, тем больше степень ее неопределенности. Поступающее сообщение полностью или частично снимает эту неопределенность. Поэтому количество информации можно измерять тем, насколько понизилась энтропия системы после поступления сообщения. Уменьшая неопределенность, мы получаем информацию – в этом и заключается смысл научного познания!

Величину H можно интерпретировать как число двоичных вопросов, то есть таких вопросов, ответы на которые позволяют выбрать одну из альтернатив.

 

Пример 2. Пусть в колоде из 32 карт необходимо выбрать одну карту, например, туза пик. Необходимо и достаточно получить ответы «да» и «нет» на пять вопросов. Такими вопросами могут быть:

 

Вопросы

Ответы

1

Карта красной масти?

 Нет

2

Трефы?

 Нет

3

Одна из четырех старших?

 Да

4

Одна из двух старших?

 Да

5

Король?

 Нет

 

Ответами на эти вопросы мы уменьшаем неопределенность в 2, 4, 8, 16, 32 раза. В конце неопределенности не остается. Количество информации на знак (энтропия) совпадает с количеством двоичных вопросов:

127-202

В приведенном примере вероятности появления той или иной карты одинаковы : Pi = 1/32. Для источника сообщений с n знаками и произвольными Pi

127-202,                                              (3.2)

то есть энтропия достигает максимального значения, когда вероятности сообщений одинаковы. Это еще одно свойство энтропии дискретных сообщений.

 

Пример 3. Важной практической задачей является определение энтропии естественных языков. Если считать, что в русском языке 31 буква и пробел равновероятны, то при 32 знаках получаем: H = ld 32 = 5 бит/знак. Если же учесть вероятности появления различных букв, приведенные в таблице 3.1, полученной по литературному тексту, содержащему            10000 букв [11], то получим H = 4,35)[3].

Таблица 3.1 - Вероятности отдельных букв в русском языке

Буква

О

Е,Ё

А

И

Т

Н

С

Р

В

Л

Pi

0,175

0,090

0,072

0,062

0,062

0,053

0,053

0,045

0,040

0,038

0,035

Буква

К

М

Д

П

У

Я

Ы

З

Ь,Ъ

Б

Г

Pi

0,028

0,026

0,025

0,023

0,021

0,018

0,016

0,016

0,014

0.014

0,013

Буква

Ч

Й

Х

Ж

Ю

Ш

Ц

Щ

Э

Ф

 

Pi

0,012

0,010

0,009

0,007

0,006

0,006

0,004

0,003

0,003

0,002

 

 

Термодинамическая и информационная энтропия

Термин «энтропия» заимствован из термодинамики и статистической физики. Известно, что движения молекулы в жидкостях и газах подчинены вероятностным законам распределения. Для характеристики состояния системы, состоящей из молекул, вводят понятие энтропии. Эта величина является мерой необратимости процесса преобразования тепловой энергии в механическую. В необратимых процессах величина энтропии определяет энергию, потерянную безвозмездно при ее преобразовании. Больцман показал, что необратимые процессы в замкнутых системах приводят к наиболее вероятному состоянию, при этом возрастает энтропия, которая становится максимальной в равновесном положении системы.

Поэтому естественно предположить, что энтропия является функцией вероятности состояния системы, т.е. S = f(p).

Было показано, что S = -Kln(p)+const. Если положить аддитивную константу равной нулю, то выражения для термодинамической энтропии S = -Kln(2)ld(p) и для информационной энтропии H = -ld(p) совпадут с точностью до множителя. Разницу в множителях можно рассматривать как результат разных единиц измерения термодинамической и информационной энтропии.

Тесная связь термодинамической и информационной энтропии дает основание дать определение информации как меры неоднородности распределения материи и энергии в пространстве и времени, меры изменений, которыми сопровождаются все протекающие в мире процессы[4].

3.1.2 Кодирование источника сообщений.

                  Процедура Шеннона - Фано

Как уже отмечалось, результат одного отдельного альтернативного выбора может быть представлен как 0 или 1. Тогда выбору всякого знака соответствует некоторая последовательность двоичных знаков 0 или 1, то есть двоичное слово. Это двоичное слово называют кодировкой знака, а множество кодировок всех знаков источника сообщений – кодом источника сообщений. Если количество знаков представляет собой степень двойки (n = 2N) и все знаки равновероятны Pi = (1/2)N, то все двоичные слова имеют длину N  и H=N=ld(n). Такие коды называют равномерными кодами.

В примере 2 выбор дамы пик можно закодировать последовательностью из 5 двоичных символов: 00110.

Если ld(n) не целое число, то это означает, что ld(n) не может быть одинаковым для всех знаков количеством необходимых альтернативных выборов. Тем не менее, выбор из n знаков всегда можно осуществить с помощью N альтернативных выборов, где N-1< ld(n) £ N. Для этого достаточно разбивать всякое множество знаков так, чтобы количество знаков в двух получающихся подмножествах различалось не более, чем на 1. Таким образом, для источника с n знаками всегда существует кодирование словами постоянной длины N, где N-1< ld(n) £ N.

Например, кодирование массива символов в примере 1 (рис.3.1) можно провести следующим способом (см. таблицу 3.2).

 

         Таблица 3.2 - Кодирование словами постоянной длины

Буква

a

b

c

d

e

f

g

Кодировка

000

001

010

011

100

101

110

 

ld(7)»2,807 и N=3.

Поэтому имеет смысл использовать основное определение количества информации, содержащееся в знаке, как ld(1/Pi) бит и тогда, когда вероятности не являются целочисленными степенями двойки или когда нельзя произвести точного разбиения на равновероятные подмножества.

Так как в практических случаях отдельные знаки почти никогда не встречаются одинаково часто, то равномерное кодирование в большинстве случаев избыточно. Несмотря на это, такое кодирование применяют довольно часто, руководствуясь техническими соображениями, в частности, возможностью параллельной передачи, когда для N – разрядного слова используется N параллельных каналов передачи. Кроме того, при последовательной передаче в двоичных кодах с постоянной длиной кодовых слов слова могут следовать друг за другом непосредственно, так что получается единая последовательность двоичных знаков. А расположение стыков, то есть исходная группировка кодовых слов, устанавливается с помощью отсчета, и, тем самым, сообщение, составленное из кодовых слов, однозначно декодируемо.

Применение равномерных кодов позволяет использовать для кодирования двоичный алфавит, как наиболее простой. Чем меньше букв в алфавите, тем проще будет устройство для распознавания (декодирования) информационного сообщения. Но, с другой стороны, чем меньше букв в алфавите, тем большим их количеством (большей длиной кода) может быть записана одна и та же информация.

Если же при некотором кодировании источника сообщений i – й знак имеет длину Ni, то вводят  среднюю длину слов, которая определяется по формуле 127-202.

Таблица 3.3 - Процедура Шеннона-Фано

Знак

Вероятность

Кодировка

Длина

Вероятность´Длина

a

e

f

c

b

d

g

¼

¼

1/8

1/8

1/8

1/16

1/16

00

01

100

101

110

1110

1111

2

2

3

3

3

4

4

0,5

0,5

0,375

0,375

0,375

0,25

0,25

Снова обратимся к примеру 1. Проведем кодирование, разбивая исходное множество знаков на равновероятные подмножества, то есть так, чтобы при каждом разбиении суммы вероятностей для знаков одного подмножества и для другого подмножества были как можно близки друг к другу (таблица 3.3).

Тогда вначале в первую группу попадает a, e (с суммарной вероятностью 0,5), а в другую все остальные (с той же вероятностью). Приписываем первой группе кодовый символ 0, второй 1. Затем первую группу разделим на две: в одну попадает a, в другую e. Этим двум подгруппам приписываем 0 и 1 , соответственно. Таким образом, кодирование символов a и е закончено. Оставшиеся пять символов разделяем на две группы: f, с и  b, d, g с суммарной вероятностью 0,4 каждая. Присваиваем этим группам символ 0 и 1 и продолжаем процесс дальше, причем каждый раз удается проводить разбиение на равновероятные подмножества.

Особенность построенного кода состоит в том, что, во-первых, он неравномерный, во-вторых, никакое кодовое слово не является началом другого кодового слова (условие Фано). Следовательно, этот код однозначно декодируем. Например, последовательность 110001110111101 можно расшифровать только как badge.

 

Такая процедура построения оптимального неравномерного кода называется процедурой Шеннона - Фано.

Средняя длина слова в этом коде равна

L=Н=0,5+0,5+0,375+0,375+0,375+0,25+0,25 = 2,625.

В общем случае связь между L и энтропией H  источника сообщений дает следующая теорема кодирования Шеннона:

1) имеет место неравенство L ³ H, причем L – H = 0 тогда, когда набор знаков можно разбить на точно равновероятные подмножества;

2) всякий источник сообщений можно закодировать так, что разность                L – H  будет как угодно мала.

Разность L–H называют избыточностью кода (мера бесполезно совершаемых альтернативных выборов).

Чтобы получить кодирование, о котором говорится в п.2 теоремы, следует не просто кодировать каждый знак в отдельности, а рассматривать вместо этого двоичные кодирования для nk групп по k знаков. Тогда длина кода  i - го знака  Zi вычисляется так:

Ni = (средняя длина всех кодовых групп, содержащих Zi)/k.

Чем больше берется k, тем точнее можно придти к разбиению на равновероятные подмножества. Часто уже при  k = 2 или k = 3 достигается практически приемлемое приближение. Следует отметить, что увеличение k имеет и свои негативные стороны. Во-первых, усложняются устройства кодирования и декодирования. Во-вторых, нельзя немедленно передавать каждое элементарное сообщение, а необходимо ждать, пока наполнится группа, что иногда бывает неприемлемо для получателя.

 

Пример 4. Пусть ансамбль сообщений содержит три знака, встречающихся с разной вероятностью (см. таблицу 3.4). Сравним кодирование отдельных знаков и отдельных пар.

 

 

 

 

         Таблица 3.4 - Кодирование отдельных знаков

Знак

Вероятность

Кодировка

Длина

В´Д

A

0,7

0

1

0,7

B

0,2

01

2

0,4

C

0,1

11

2

0,2

 

Средняя длина слова получилась L = 0,7+0,4+0,2=1,3.

Среднее количество информации, содержащееся в знаке:

H = 0,7*ld(1/0,7) + 0,2*ld(1/0,2) + 0,1*ld(1/0,1) = 0,7*0,515 +                       + 0,2*2,322 + 0,1*3,322 = 1,1571.

Избыточность L - H=0,1429.

 

             Таблица 3.5 - Кодирование пар

Знак

Вероятность

Кодировка

Длина

В´Д

AA

0,49

0

1

0,49

AB

0,14

100

3

0,42

BA

0,14

101

3

0,42

AC

0,07

1100

4

0,28

CA

0,07

1101

4

0,28

BB

0,04

1110

4

0,16

BC

0,02

11110

5

0,10

CB

0,02

111110

6

0,12

CC

0,01

111111

6

0,06

Средняя длина кодовой группы из 2-х знаков равна

 

2,33

 

Вначале производим разбиение, при котором в первую группу попадает одно сообщение АА (вероятностью 0,49), а во вторую – все остальные сообщения с суммарной вероятностью 0,51. Первому сообщению приписываем кодовый символ 0, остальным 1. Так как первая группа далее неделима, то 0 остается окончательной кодовой комбинацией для сообщения АВ. Оставшиеся восемь сообщений разбиваем на две группы с примерно равными вероятностями; тогда в первую группу попадут сообщения АВ и ВА (суммарная вероятность 0,28), а в другую - остальные с суммарной вероятностью 0,23. Так определится второй символ кода: 0 для первой группы (АВ и ВА) и 1 – для остальных.

Теперь беремся по отдельности за каждую группу. Разбиваем первую группу на две части и приписываем 0 для АВ и 1 для ВА. Таким образом, получили еще две кодовые комбинации: 100 для АВ и 101 для ВА. Оставшиеся шесть сообщений продолжаем делить на примерно равновероятные группы (0,14 и 0,9; 0,04 и 0,05; 0,2 и 0,3) и последовательно присваивать им кодовые символы.

Средняя длина кода одного знака равна 2,33/2=1,165 – уже ближе к энтропии. Избыточность равна 0,008.

Именно теорема кодирования является оправданием для определения энтропии как меры неопределенности по формуле 127-202 Действительно, H – это нижняя граница для количества затрачиваемых альтернативных выборов при наилучшем возможном кодировании.

 

Пример 5. К неравномерным кодам относится знаменитый код Морзе. Это двоичный код с набором знаков « ·, - » и словами различной длины не более 5 знаков для кодирования букв и цифр. Точке соответствует краткая посылка тока, тире – длинная (три продолжительности точки). Эти посылки тока разделяются паузами, такой же продолжительностью, что и точка. Три паузы (пропуск) отмечают конец буквы, пять пауз (длинный пропуск) – конец слова. Поэтому, строго говоря, код Морзе следует считать троичным кодом, так как  следует добавить в качестве третьего знака “паузу”, являющуюся необходимым разделителем. В связи с этим при отсчете кодовой длины нельзя просчитаться, нельзя “сбиться с ритма”, что ведет к усложнению передачи с технической точки зрения.

Этот код, как и любой конечный двоичный код, можно описать с помощью кодового дерева (рис. 3.2).

Кодирование начинается с вершины. В каждом узле поворот налево добавляет в коде буквы точку, а поворот направо - тире.

Отметим, что для русского языка система кодирования Морзе не является оптимальной, так как наиболее вероятной букве «о» (см. таблицу 3.1) соответствует не самая короткая кодовая комбинация. Это понятно – она разрабатывалась для английского языка, где наиболее встречающаяся буква - буква «е».

 

 

 

 

Цифры кодируются словами одинаковой длины:

 

1

2

3

4

5

6

7

8

9

0

·----

··---

···--

····-

·····

-····

--···

---··

----·

-----

 

 

127-202                                                                  ·                                -

 

                                             е (е)

                                                                                                                                      т (t)

 

                      и (i)

 

                                                                                                                    н (n)

                                                             а(а)                                                                          м (m) 

 

   c (s)                                               p (r)                    в (w)           

                                                                                                   д (d)            к (k)           г (g)

                                  у (u)                                                                                                                  o (o)

 

                                                  л (l)                п (p)

      ж (v)          ф (f)       ю                        я   

                                                                                          б (b)       ъ, ь      ц        ы      з        щ       ч       ш

 х (h)                                                                            й (j)                (x)    (c)     (y)    (z)      (q)

 

                   э 

 

Рис. 3.2 - Кодовое дерево для азбуки Морзе (в скобках латинский алфавит)

Таким образом, для неравномерных кодов расположение стыков в общем случае восстановить нельзя, то есть сообщение либо вообще не будет декодироваться, либо декодироваться неоднозначно. Поэтому необходимо вводить специальные разделители, как в коде Морзе, или строить код, удовлетворяющий условию Фано, например, с помощью  процедуры Шеннона – Фано.

 

3.1.3 Кодирование при наличии шумов. Избыточность.

                 Помехоустойчивость

Наиболее интересные и важные результаты были получены при рассмотрении передачи информации по каналам связи с шумами. Шум, или помеха – это искажение сигнала. В результате происходит потеря информации, что, в свою очередь, приводит к необходимости принятия дополнительных мер по обеспечению помехоустойчивости кодов.

Один из способов борьбы с влиянием помех - введение избыточности в сигнал. В ряде случаев помогает естественная избыточность языков. Ведь если в принятом словесном тексте телеграммы будет искажено несколько букв, то это обычно не мешает адресату абсолютно точно понять ее содержание. Но язык цифр такими свойствами уже не обладает. Отправляя телеграмму, мы обязательно напишем словами: «Встречайте тридцатого, поезд двенадцать», ведь любое искажение чисел 30 или 12 введет адресата в заблуждение, но маловероятно искажение до неузнаваемости слов «тридцатого», «двенадцать».

Из приведенного ранее примера с энтропией русского алфавита (c 32 –мя символами) следует: если бы все буквы алфавита имели одинаковую вероятность, то энтропия алфавита составляла бы H0 = ld (n) = ld (25) = =5 бит. Соответствующий равномерный код потребовал бы 5 двоичных символов на одну букву. В действительности вероятность появления различных букв в тексте весьма различны – от 0,09 («О») до 0,002 («Ф»). Пробел – 0,175. С учетом всех таких вероятностей энтропия русского текста сокращается до Н1 = 4,35 бита, то есть соответствующий неравномерный код позволяет в среднем затрачивать 4,35 двоичных символа на букву (пробел и буква «О» – трехзначные обозначения, «Ф» – девятизначное – исходя из принципа Шеннона - Фано).

Но различные сочетания букв не являются равновероятными. Поэтому, если при подсчете энтропии русского текста исходить из двухбуквенных сочетаний, то она уменьшается еще более – примерно до                 Н2 = 3,5 бита. С учетом трехбуквенных сочетаний энтропия сокращается до Н3 = 2,98 бит, а если иметь в виду еще более длинные сочетания, то приблизительно до Н4 = 2,5 бита[5]. Каждая буква имеет в среднем информацию около 2,5 бита, то есть примерно половину букв в осмысленных текстах можно было бы выбросить; при этом по оставшимся буквам текст может быть понят и восстановлен. В теории информации говорят, что наш язык обладает избыточностью порядка 50%. Это и есть естественная избыточность.

 

Пример 6. Прочитав объявление в черноморской вечерке «Сд. пр. ком. в. уд. в. н. м. од. ин. хол.», Остап Бендер сразу понял, о чем идет речь: «Сдается прекрасная комната со всеми удобствами и видом на море одинокому интеллигентному холостяку». Конечно же, в этом случае ему помогла естественная избыточность русского языка!

Пример 7. В орфографическом словаре русского языка под редакцией С.Г.Бархударова (изд. 15) содержится 105 тысяч слов. Эти слова кодируют определенные смысловые единицы. Поставим задачу определения минимальной длины слова, при которой возможно построение всех           105 тысяч слов при использовании всех 33 букв русского алфавита [13].

Очевидно, что с алфавитом объемом m может быть построено mk слов длины k. Тогда однобуквенных слов имеем 33, двухбуквенных 332=1089, трехбуквенных 333=35937, четырехбуквенных 334=1185921. Суммируя, получаем, что число различных слов, длина которых не превышает четыре символа (при алфавите объемом 33 символа), составляет 1222980, что более чем достаточно, чтобы закодировать все слова этого словаря.

Тем не менее, слова русского языка по числу символов часто значительно превышают четырехбуквенные, то есть естественный язык уже на уровне отдельных слов обладает большой избыточностью.

 

Таким образом, можно сделать вывод: количество информации, которое несет сигнал, обычно меньше чем то, которое он мог бы нести по своей физической природе.

Для описания этого свойства сигналов и введено понятие избыточности. Ранее мы уже вводили это понятие, как разность между средней длиной слов в сообщении L и энтропией источника сообщений H. Введем количественную оценку (меру) избыточности.

Пусть сигнал длиной N символов содержит количество информации I. Если это представление информации страдает избыточностью, то такое же количество информации I может быть представлено с помощью меньшего числа символов. Пусть N0 – то самое наименьшее число символов, необходимое для представления I без потерь. В первом случае на каждый символ приходится I1 = I/N бит информации, во втором  I1max = I/N0 .

Очевидно, I1N = I1max N0 .

В качестве меры избыточности принимается относительное удлинение сигнала

127-202.                              (3.3)

В дискретном случае имеются две причины избыточности: неравновероятность символов и наличие между ними статистической связи.

В непрерывном случае – это неэкстремальность распределений плотности вероятности (то есть отклонение от распределений, обладающих максимальной энтропией, см. п. 3.1.10).

Итак, избыточность кода – явление отнюдь не отрицательное. В информационных системах обрабатывается, главным образом, цифровая информация и защищать ее от помех можно практически лишь путем введения искусственной избыточности. Простейший способ повышения надежности приема информации – многократное повторение сообщений.

Этот способ повышения помехоустойчивости основывается на том предположении, что помеха носит случайный характер. Поэтому возможны как положительные, так и отрицательные значения помехи, и многократной передачей одного и того же сигнала можно свести ее влияние к нулю.

 

Пример 8. При передаче двоичных сообщений их обязательно повторяют несколько раз. Будем считать, что помеха не искажает единицу (посылку тока) и искажает нуль (отсутствие тока). Вследствие этого для повышения помехоустойчивости вводят накопитель, который суммирует единицы по модулю 2, но там, где хоть раз появился нуль, так и выдается нуль.

 

Передаваемая информация

01001

  Первая принимаемая комбинация

01011

Вторая принимаемая комбинация

11001

Третья принимаемая комбинация

01101

Комбинация на выходе накопителя

01001

 

Легко видеть, что этот метод повышает помехоустойчивость и надежность передачи сообщения.

Можно ввести и количественную меру помехоустойчивости при заданных условиях связи. Появление помехи (т.е. ошибки принятого сообщения) может быть охарактеризовано вероятностью ее появления Р0 . Надежность или помехоустойчивость обратно пропорциональна этой величине. В силу малости Р0 удобнее выбрать логарифмический масштаб. Выбор основания логарифма не имеет значения, но удобнее пользоваться десятичным. Тогда помехоустойчивость

127-202.

При n – кратной передаче (если считать отдельную ошибку независимым событием)

127-202.                                   (3.4)

Кстати, на этом же принципе основан метод дублирования аппаратуры для повышения надежности: надежность n – кратно резервированной системы повышается в n раз.

Но способ накопления хотя и используется в очень ответственных случаях, но слишком уж неэкономичен. Чаще применяются специальные коды с избыточностью, позволяющие обнаруживать и даже исправлять ошибки, вызванные помехами.

 

Рассмотрим некоторые принципы построения кодов с обнаружением и исправлением ошибок.

3.1.4 Корректирующие коды

Рассмотрим равномерное кодирование. Сразу отметим, что если в равномерных двоичных кодах длины N используются все n = 2N возможных кодовых комбинаций (то есть любая из n кодовых комбинаций сопоставляется с символом исходного алфавита), то такой код будет безызбыточным.  Ошибка любой кратности в какой – либо кодовой комбинации всегда приведет к ошибочному декодированию этой комбинации. Таким образом, избыточность кода означает, что для представления знаков используются не все возможные двоичные комбинации. Тогда используемые для кодирования двоичные слова можно взять такими, чтобы вероятность получения неверного знака была минимальна.

Основная идея построения корректирующих кодов заключается в том, что наряду с кодовой группой, несущей полезную информацию, передаются дополнительные знаки, с помощью которых удается обнаруживать ошибки и даже корректировать их. Такая процедура (как уже отмечалось выше) вносит избыточность, снижает скорость передачи, но повышает ее помехоустойчивость [12, 13].

Пример 9. Рассмотрим простейшую ситуацию. Пусть N = 3, то есть имеется восемь основных комбинаций:

 

Основные

комбинации

 

000

 

001

 

010

 

011

 

100

 

101

 

110

 

111

Комбинации с контрольным символом

 

0000

 

0011

 

0101

 

0110

 

1001

 

1010

 

1100

 

1111

Добавим к кодовым комбинациям еще один (контрольный) символ по следующему правилу: при нечетном числе единиц – 1, при четном числе единиц – 0. Тогда в любой из вновь образованных четырехзначных комбинаций число единиц обязательно будет четным.

Предположим, что при передаче этим кодом произошло искажение одного сигнала: вместо 1 принят 0 или вместо 0 принята 1. Тогда в принятой комбинации число единиц окажется нечетным – это сигнал, что произошла ошибка. Но такой код – с контрольным битом четности -  позволяет лишь обнаружить одиночную ошибку, но не в состоянии ее локализовать и исправить.

Не только обнаружить, но и исправить ошибку можно, например, с помощью так называемых корректирующих кодов Хэмминга.

Добавим к N0 – значному двоичному коду еще один знак, а число кодовых комбинаций n оставим неизменным. Тогда длина нового кода N=N0+1 и

127-202.

Следовательно, можно так подобрать кодовые комбинации, что они будут отличаться двумя знаками. При этом будет использоваться только половина всех возможных комбинаций от 2N , вторая половина образует запрещенные комбинации: любое появление одиночной ошибки превращает ее в запрещенную и, тем самым, ошибка обнаруживается.

Если же дополнить код таким количеством знаков, которое даст возможность двум кодовым комбинациям отличаться тремя знаками при неизменном числе n, то такой код позволит не только обнаружить, но и исправить одиночную ошибку. Количество битов, в которых кодовые слова поразрядно не совпадают, называется кодовым расстоянием, или расстоянием Хэмминга.

Поясним это на простом примере.

 

Пример 10. Для передачи двух возможных сообщений используются комбинации 0 и 1. Дополним их двумя знаками таким образом, чтобы ни один символ поразрядно не совпадал : 010 и 101. Пусть фактически была принята комбинация 011. Если предположить, что имела место одна ошибка, то ясно, что была передана комбинация 010, а не 101. Идея исправления ошибок заключается в том, что принятая искаженная информация отождествляется с ближайшим к ней разрешенным кодовым словом. Нетрудно технически реализовать устройство, автоматически исправляющее такие ошибки: если приняты комбинации 000, 010, 011, 110, то их записать как 010, все остальные комбинации – как 101.

 

В теории кодирования доказывается, что для обеспечения возможности исправления ошибок кратности  не более r , кодовое расстояние должно быть больше 2r. Обычно оно выбирается по формуле d = 2r+1.

При надлежащем подборе достаточно больших N и d такой способ значительно эффективнее простого повторения. Но, правда, при этом возрастает сложность кодирующих и декодирующих устройств.

3.1.5 Представление и кодирование информации

        в компьютере

Как уже отмечалось, двоичное кодирование удобно для представления информации в компьютере, как с теоретической, так и с практической точки зрения.

Во–первых, это кодирование с минимально возможным числом элементарных символов, во–вторых, оно легко реализуется технически: электронные схемы для обработки двоичных кодов должны находиться в одном из двух состояний: есть сигнал / нет сигнала или высокое напряжение / низкое напряжение. Правда, числа в двоичной системе счисления получается довольно длинными, но в компьютере легче иметь дело с большим числом простых элементов, чем с небольшим числом сложных.

Каждый бит информации хранится в одном разряде памяти компьютера, а разряды объединяются в ячейки памяти фиксированного размера. Ячейка размером 8 разрядов называются байт, 16 разрядов – слово,          32 разряда – двойное слово. Эти три размера фактически являются стандартом для современных персональных компьютеров.

Для измерения большого количества информации  введены понятия килобайт (1 Кб = 210 = 1024 байта), мегабайт (1 Мб =220 = 1048576 байта), гигабайт (1 Гб = 230 = 1073741824 байта). В последнее время в связи увеличением емкости запоминающих устройств стало появляться понятие терабайт (1 Тб = 240 байта). Для примера: 1 Гб – это около 8 часов аудиозаписи высокого качества, или 2-х часовой фильм формата MPEG-1, или 150 цветных фотографий 4´5 см, или 500000 страниц текста[6].

Но не всякое число может быть записано в один байт или даже двойное слово. Конечно, есть выход: большие числа записывать в большем числе байтов, но тогда операции над ними придется вести по правилам работы с байтами, словами или двойными словами.

Кодирование чисел. Рассмотрим, как осуществляется кодирование целых чисел на примере байта. В восьмиразрядную ячейку можно записать 28 = 256 вариантов расположения нулей и единичек. Из этих комбинаций одна кодирует нуль, половина – положительные числа, другая половина – отрицательные числа. Нуль кодируется комбинацией из 8 нулей, положительные числа от 1 до 127 кодируются в двоичной системе, причем слева дописывают недостающие до полных восьми разрядов нули:

1 –00000001; 2 – 00000010; ... , 126 – 01111110; 127 – 01111111.

Отрицательные числа кодируются следующим образом. Пусть необходимо в байт поместить –1. Добавляем к этому числу 28, получаем 255. Это число и переводится в двоичную систему. Получаем 11111111. В первом разряде появилась единица. Она и будет признаком того, что в ячейке отрицательное число. Таким образом, в байт можно записать 128 отрицательных чисел (-1, -2, ... , -127, -128).

В итоге в байте можно разместить целые числа от –128 до 127.

Аналогично можно показать, что в слово можно записать целые числа от –32768 = -215 до 32767 = 215-1, а в двойное слово – от –2147483648 = -231 до 2147483647 = 231-1.

Действительные числа хранятся в памяти компьютера в экспоненциальной форме (т.н. формат числа с плавающей запятой). В этом формате значение числа без десятичной точки (мантисса) и показателя степени (экспонента, или порядок) записываются как целые числа и хранятся отдельно.

Например, 3,45×10-3 = 345Е-05. В двоичном виде кодируются целые числа 345 и 5.

Для действительного числа (с одинарной точностью) отводится           4 байта: первый разряд под знак числа, 8 разрядов – под порядок[7], 23 разряда – под мантиссу. Поэтому используемые действительные числа лежат в диапазоне от –3,4×1038 до 3,4×1038 .

Кодирование текста.  Кодирование текстовой информации в компьютере сводится к кодированию отдельных символов, составляющих текст: букв, цифр, знаков препинания, любых других символов.

Для хранения символа в большинстве компьютеров отводится один байт. В него, как уже отмечалось выше, можно всего записать 256 символов, что вполне достаточно для кодирования необходимой символьной информации[8].

Кодовые таблицы, где каждому символу присвоен какой-либо код – десятичное число в диапазоне от 0 до 255, носят название кодовые страницы (CP – Code Page).

В настоящее время мировым стандартом для кодирования символов фактически стал стандарт США ASCII (American Standard Code for Information Interchange –американский стандартный код для обмена информацией). Русифицированный вариант этой кодировки используется и в России. Собственно, русификация свелась к тому, что на место относительно редко встречающихся символов (буквы с умляутом, знаки денежных единиц и пр.), греческих букв и некоторых математических символов были размещены символы кириллицы (позиции 128 – 175,                                  224 – 241). Такая кодировка получила название модифицированная альтернативная кодировка ГОСТа[9].

Ее фрагмент приведен в таблице 3.6. Первые 127 символов совпадают с кодировкой ASCII. Не вошедшие в таблицу символы кодируют специальные знаки и действия с клавиатуры. Например, 8 –Backspace, 9 – Tab, 12 – разрыв (начать новую страницу), 30 – длинное тире, 252 - № и т.д. Соответствие символов и кодировки можно посмотреть, набрав с клавиатуры компьютера соответствующий десятичный код с помощью малой цифровой клавиатуры при нажатой клавише Alt (не забудьте включить NumLock!). Если вы находитесь в Norton Commander, соответствующие символы будут появляться в командной строке, если в текстовом редакторе, то на странице.

Таким образом, любой символ, вводимый в компьютер с клавиатуры или из файла на диске, преобразовывается в определенный, уникальный набор нулей и единиц.

Общим недостатком однобайтового кодирования информации является то, что в коде символа отсутствует информация о том, с помощью какого кода проводилось кодирование. Это приводит к недоразумениям при воспроизводстве текста различными программами и к необходимости использовать специальные программы – перекодировщики.

 

Таблица 3.6. Фрагменты русифицированной таблицы символов ASCII

Кодировка

Символ

Кодировка

Символ

Кодировка

Символ

Десятичная

Двоичная

Десятичная

Двоичная

Десятичная

Двоичная

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

00100000

00100001

00100010

00100011

00100100

00100101

00100110

00100111

00101000

00101001

00101010

00101011

00101100

00101101

00101110

00101111

00110000

00110001

00110010

00110011

00110100

00110101

00110110

00110111

00111000

00111001

00111010

00111011

00111100

00111101

00111110

00111111

01000000

01000001

01000010

01000011

01000100

01000101

01000110

01000111

01001000

01001001

01001010

01001011

01001100

01001101

01001110

01001111

01010000

01010001

01010010

01010011

01010100

01010101

 

 

!

"

#

$

%

&

'

(

)

*

+

,

-

.

/

0

1

2

3

4

5

6

7

8

9

:

;

=

?

@

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

 

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

 

01010110

01010111

01011000

01011001

01011010

01011011

01011100

01011101

01011110

01011111

01100000

01100001

01100010

01100011

01100100

01100101

01100110

01100111

01101000

01101001

01101010

01101011

01101100

01101101

01101110

01101111

01110000

01110001

01110010

01110011

01110100

01110101

01110110

01110111

01111000

01111001

01111010

01111011

01111100

01111101

01111110

01111111

10000000

10000001

10000010

10000011

10000100

10000101

10000110

10000111

10001000

10001001

10001010

10001011

 

V

W

X

Y

Z

[

\

]

^

_

`

a

b

c

d

e

f

g

h

i

j

k

l

m

n

o

p

q

r

s

t

u

v

w

x

y

z

{

|

}

~

 

А

Б

В

Г

Д

Е

Ж

З

И

Й

К

Л

 

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

10001100

10001101

10001110

10001111

10010000

10010001

10010010

10010011

10010100

10010101

10010110

10010111

10011000

10011001

10011010

10011011

10011100

10011101

10011110

10011111

10100000

10100001

10100010

10100011

10100100

10100101

10100110

10100111

10101000

10101001

10101010

10101011

10101100

10101101

10101110

10101111

11100000

11100001

11100010

11100011

11100100

11100101

11100110

11100111

11101000

11101001

11101010

11101011

11101100

11101101

11101110

11101111

11110000

11110001

М

Н

О

П

Р

С

Т

У

Ф

Х

Ц

Ч

Ш

Щ

Ъ

Ы

Ь

Э

Ю

Я

а

б

в

г

д

е

ж

з

и

й

к

л

м

н

о

п

р

с

т

у

ф

х

ц

ч

ш

щ

ъ

ы

ь

э

ю

я

Ё

ё

 

В 1991 году некоммерческой организацией Unicode Consortium была предложена другая система кодировки символов, которая использует два байта (16 битов) для представления одного символа (стандарт Unicode). Это позволяет включать в код символа информацию о том, какому языку принадлежит символ и как его надо воспроизводить. Кодовые страницы становятся ненужными. Графический интерфейс и файловая система современных операционных систем реализованы с применением Unicode.

3.1.6 Кодирование экономической информации

Для автоматизированной обработки экономической информации ее необходимо систематизировать и упорядочить, то есть проклассифицировать. Классификация используется как основа для кодирования признаков в обозначении различных экономических объектов. Кодирование, в свою очередь, обеспечивает уникальную идентификацию объектов, которая в совокупности с принятой системой классификации полностью определяет сущность объекта. Это особенно важно для этапа моделирования при выделении информационных объектов и структурных связей между ними    (см. гл. 3.2).

В России разработана Единая система классификации и кодирования технико-экономической и социальной информации (ЕСКК). Сфера ее применения – ведомства, организации и предприятия всех форм собственности, функционирующие на внутреннем рынке. Документы, в которых содержатся наименования объектов, описание классификационных группировок (то есть подмножеств объектов) и структура кода, называются классификаторами.

 

Пример 11.  Все плательщики налога на добавленную стоимость обязаны составлять счета-фактуры и сопутствующие им документы. В них содержится графа – код товара (работы, услуги) по ОКДП.

ОКДП - это Общероссийский классификатор видов экономической деятельности, продукции и услуг, входящий в состав ЕСКК [14].

Объекты классификации ОКДП являются основными квалификационными признаками любого предприятия, поэтому использование кодов ОКДП совместно с утвержденными на государственном уровне первичными регистрационными документами предприятий и формами их финансово-бухгалтерской отчетности, позволяет увязать адресно-справочные реквизиты предприятий с видами их экономической деятельности, производимой и потребляемой продукцией и/или предоставляемыми и потребляемыми услугами.

В ОКДП используется семиразрядный код: четыре разряда – высшая квалификационная группировка для классификации видов экономической деятельности и три низших разряда для классификации видов продукции и услуг как результата экономической деятельности (рис. 3.3).

 

127-202
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Основным классификационным признаком в ОКДП для видов продукции и услуг является функциональный. При необходимости функциональный признак дополняется конструктивно - технологическими признаками, присущими объектам классификации.

В ОКДП использована комбинированная (иерархически-фасетная) классификационная структура. Кодирование разделов, подразделов, групп и подгрупп видов экономической деятельности, а также классов и подклассов продукции и услуг осуществляется по иерархической схеме[10], а видов продукции и услуг – по фасетной[11] схеме.

В основу квалификационных группировок видов экономической деятельности положен классификатор International Standard Industrial Classification of all Economical Activities (ISIC) – Международная стандартная отраслевая классификация всех видов экономической деятельности (МСОК). Низшие разряды составляет другой международный классификатор – Central Product Classification (CPC) – Единая классификация товаров (ЕКТ).

Все виды экономической деятельности разбиты на разделы, помеченные латинскими буквами от A до Q , не входящими в код.

Переход от видов экономической деятельности к классам продукции и услуг осуществляется добавлением трех нулей к четырехразрядному коду вида экономической деятельности.

 

Например, в разделе D – Обрабатывающая промышленность:

30 – Производство канцелярских, бухгалтерских и электронно–вычислительных машин

302 – Производство электронно-вычислительной техники

3020000 – Электронно-вычислительная техника, ее детали и приложения

3020200 – Машины вычислительные электронные цифровые

3020260 – Процессоры, устройства операционные

3020262 – Микропроцессоры.

 

 

 

В разделе J – Финансовое посредничество:

65 – Финансовое посредничество, кроме страхования и пенсионного обеспечения

651 – Денежное посредничество

6512 – Деятельность коммерческих банков

6512000 – Услуги коммерческих банков

6512600 – Услуги по валютным операциям

6512660 – Переводные валютные операции

6512663 – Перевод валютных средств по поручению клиента.

В ОКДП также предусмотрена принципиальная возможность расширения основного кода за пределы 7 разрядов. Для этого после седьмого разряда ставится точка, а далее записывается код с необходимым числом разрядов.

 

Пример 12. Другой пример классификатора – Общероссийский классификатор основных фондов (ОКОФ) [15], также входящий в ЕСКК РФ.

Общая структура девятиразрядных кодов в ОКОФ имеет следующий вид:

ХО ООООООО – Раздел

ХХ ООООООО – Подраздел

ХХ ХХХХООО – Класс

ХХ ХХХХОХХ – Подкласс

ХХ ХХХХХХХ – Вид

Классы образованы на базе соответствующих классов продукции по ОКДП. Раздел – высший уровень деления – образован с учетом классификации основных фондов, принятой в Международной системе национальных счетов (СНС).

Между вторым и третьим разрядами ставится пробел. Кроме того, к коду добавлена контрольная цифра.

Например,

 

10 0000000 1 Материальные фонды

14 0000000 9 – Машины и оборудование

14 3020262 9 – Микропроцессоры

20 0000000 2 - Нематериальные основные фонды

25 0003000 8 – Торговые знаки

 

Такие же принципы классификации и кодирования используются и в других классификаторах. Перечислим некоторые из них.

· Общероссийский классификатор управленческой документации (ОКУД);

· Общероссийский классификатор предприятий и организаций (ОКПО);

· Общероссийский классификатор объектов административно - территориального деления (ОКАТО);

· Общероссийский классификатор занятий (ОКЗ);

· Общероссийский классификатор органов государственной власти и управления (ОКОГУ);

· Общероссийский классификатор профессий рабочих, должностей служащих и тарифных разрядов (ОКПДТР);

· Общероссийский классификатор специальностей по образованию (ОКСО);

· Общероссийский классификатор услуг населению (ОКУН);

· Общероссийский классификатор экономических районов (ОКЭР).

Широко известна Универсальная десятичная классификация (УДК), используемая для систематизации произведений печати на основе признаков содержания, формы издания и др.

В пределах отрасли или предприятия используются отраслевые или локальные классификаторы структурных подразделений, технологических процессов, готовой продукции, материалов и комплектующих и т.п.

 

Пример 13. В бухгалтерском учете существует система кодирования счетов – План счетов бухгалтерского учета. Счет – это определенная группа средств (денег и материальных ценностей, выраженных в денежном эквиваленте) или источников их образования, выделенных по какому-либо признаку. Все счета делятся на активные и пассивные, в зависимости от того, учитывают они средства или источники их образования.

В России в настоящее время применяется четыре типа Планов счетов:

1) для предприятий;

2) для государственных (бюджетных) учреждений;

3) для страховых компаний;

4) для всех видов банков.

Система кодирования проста: для счета используется двухзначное число, для субсчета –трех – и более значное число.

Например, для предприятий:

10 –Материалы

10.01- Сырье и материалы

26 – Общехозяйственные расходы

50 - Касса

51 – Расчетный счет

60 – Расчеты с поставщиками и подрядчиками

Двухзначные счета называются синтетическими (обобщающими), и для них применяется единая система кодирования. Счета более узкого назначения называются аналитическими (детальными). Не существует единых систем аналитических счетов для всех предприятий, но существуют единые правила их формирования – по тому же иерархически–фасетному принципу, что и для других классификаций.

В [16] приведен вариант построения кодированного детального плана счетов предприятия. Проиллюстрируем его на примере кодирования основных средств (синтетический счет 01) (рис. 3.4).

Таким образом, в базе данных информационной системы предприятия каждый объект основных средств получает девятиразрядный код.

Кроме учета средств, бухгалтерия учитывает и их движение. Поэтому для компьютерной обработки движения средств также необходима соответствующая система кодирования.

 

127-202

Рис. 3.4 - Пример построения кодированного плана счетов

 
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Единицей движения в бухгалтерском учете является проводка. В каждой проводке участвуют два счета, один из которых дебетируется, а другой кредитуется. О каждой проводке необходимо знать, какому типу она принадлежит, в какой момент времени она произошла и какое количество средств было переведено.

Поэтому любую проводку можно закодировать следующей совокупностью цифр:

 

127-202
 

 

 

 

 

 

 

 

 

 

 

 

 


Все возможные типы проводок тоже должны быть закодированы, например, пронумерованы (табл. 3.7)[12].

 

Таблица 3.7 - Типы проводок

Тип

Название проводки

Счет

Дебет

Кредит

1

 

2

 

...

 

Расчет с поставщиками за поставленные материалы

Израсходовано материалов на нужды

заводоуправления

...

 

60

 

26

 

51

 

10.1

3.1.7 Скорость передачи информации

Передача информации происходит по каналам связи. В теории информации отвлекаются от конкретного устройства этих каналов и рассматривают различные системы связи лишь с точки зрения количества информации, которое может быть надежно передано с их помощью.

Представим систему передачи информации в виде следующей блок-схемы (рис.3.6).

 

127-202
 

 

 

 

 

 

 

 

 

 

 

 

 

 


Пусть передача сигналов идет по следующим правилам:

1) отправляемый сигнал является последовательностью статистически независимых сигналов с вероятностями p(xi), i = 1…n;

2) принимаемый сигнал является последовательностью символов yk того же алфавита;

3) если шумы n(t) отсутствуют, то принимаемый сигнал совпадает с отправляемым: yk = xi;

4) если шум имеется, то его действие приводит к тому, что данный символ может остаться прежним (i-ым) либо быть подмененным любым другим (k-ым) символом; условная вероятность этого события равна р(yk|xi)[13];

5) искажение очередного символа является событием, статистически независимым от того, что произошло с предыдущими символами.

Скоростью передачи информации называется количество информации, передаваемой в единицу времени. Эта величина определяется по формуле

I(x,y)=H(X)-H(XïY) [бит],                                        (3.5)

где указанные энтропии вычисляется на единицу времени.

Рассмотрим входящие в эту формулу величины.

Энтропия Н(Х) - априорная энтропия. Характеризует неопределенность того, какой символ будет отправлен. После получения символа yk, неопределенность относительно того, какой символ был отправлен, меняется. В случае отсутствия шума она вообще исчезает, а если шум есть, то мы, вообще говоря, не можем быть уверены, что полученный нами символ и есть отправленный. Эта неопределенность характеризуется апостериорной энтропией H(Xïyk), то есть энтропией множества отправляемых сигналов, оставшейся после приема символа yk .

127-202.

В среднем после приема очередного символа энтропия всего ансамбля сообщений (сигналов) H(X|Y) будет равна математическому ожиданию My[H(X|yk)]:

127-202.

Таким образом, скорость передачи информации – это разность априорной и апостериорной энтропий ансамбля сообщений в единицу времени.

Тогда соотношение (3.5) запишется в виде:

127-202127-202127-202.        (3.6)

Здесь 127-202- вероятность одновременного появления символов xi и yk. Ее свойства:

127-202

В силу симметрии этой формулы можно сделать вывод о том, что количество информации в объекте Х об объекте Y равно количеству информации в объекте Y об объекте Х. Иными словами, количество информации (в единицу времени) является не характеристикой одного из объектов, а характеристикой их связи, это мера соответствия двух случайных объектов. Это можно считать еще одним определением количества информации [12].

Если шумы отсутствуют, то вероятность данного события после поступления на вход приемника равна 1. Тогда оба определения количества информации совпадают (см. п.3.1.1).

Забегая вперед, отметим, что аналогичным образом, рассматривая вместо энтропии Н дифференциальную энтропию Нe  (см. п.3.1.9), можно получить соотношения и для непрерывных сигналов х и у:

 

127-202 

 

3.1.8 Дискретизация

Многие физические величины и процессы, играющие роль сообщений в системах связи, не является дискретными, имеют непрерывные распределения состояний. К ним можно отнести музыкальные и речевые сообщения, рисунки, диаграммы, кривые, параметры объекта измерения или телеметрии (температура, давление, концентрация и другие).

Такие сообщения, перед тем как кодировать, дискретизируют, после чего с ними можно работать как с дискретными. Дискретизация состоит из развертки и квантования [11, 13].

3.1.8.1 Развертка

Область определения функции f(t) (модель непрерывного сообщения) разбивается на подынтервалы равной длины (рис. 3.7а), а сама функция заменяется другой, постоянной на каждом подынтервале – ступенчатой (рис.3.7б), а затем пульсом (рис.3.7в). Значения пульса могут быть получены с помощью простого или взвешенного усреднения, либо в качестве среднего берется значение функции в определенной точке интервала, например, в его середине (этот процесс называется прощупывание, или считывание). Таким образом, развертка состоит в замене функции ее пульсом.

Чем грубее развертка, тем больше свойств исходной кривой теряется и наоборот. Это интуитивное высказывание уточняется  теоремой отсчетов (Уиттекер, 1915 г.; Котельников, 1933г), значение которой для передачи сообщений было впервые осознано К. Шенноном в 1949г.

3.1.8.2 Теорема отсчетов

Практически всякий сигнал можно представить состоящим из более простых компонент. В математике этой идее соответствует представление функций их разложениями в ряд.

Пусть непрерывный сигнал описывается функцией f(t) вида

127-202

то есть f(t) как нелинейная функция времени составлена из колебаний с частотой, не превышающей некоторой критической частоты nG, называемой шириной пропускания.

Тогда если взять  ts £127-202,

то127-202  где 127-202,        (3.7)

то есть разложение некоторого непрерывного случайного сигнала с ограниченной полосой частот n Î(0,2nG) представляется в виде разложения по координатным функциям вида sin(j)/j, сдвинутыми друг относительно друга на интервал времени ts =1/(2nG). Координатами этого разложения являются отсчеты этого сигнала, взятые в моменты времени nts.

Другими словами, функцию можно восстановить по значениям в точках отсчета  (nts), если частота отсчета  127-202 не меньше удвоенной критической частоты. При этом не произойдет никакой потери информации. Это утверждение и составляет суть теоремы отсчетов.

 

 

 

127-202
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Интерполяционная функция F имеет предельное значение 1 при t = 0 и обращается в нуль в  остальных точках отсчета nts (рис. 3.8).

127-202 

 

 

 

 

 

 

 

 


Предположение теоремы отсчетов о существовании критической частоты не является существенным ограничением, т. к. физические устройства в принципе не допускают произвольно высоких частот, они «обрезают» их. Поэтому в технических приложениях всегда можно исходить из существования критической частоты для недискретных сигналов, представляющих сообщения.

Для функций многих переменных с многомерной областью определения тоже имеет место теорема отсчетов, соответствующим  образом обобщенная.

Специальными случаями многомерной развертки является построчная и послойная развертки. Они позволяют «разматывать» функции с многомерной областью определения на функции с областями определения меньшей размерности, в частности на функции одной переменной. Например, в телевидении, где используется построчная развертка, или в рентгеноскопии, где используется послойная развертка, результатом будет функция яркости от времени. На рис.3.9 показаны этапы построчной развертки.

 

127-202

Рис. 3.9 - Пример двумерной построчной развертки: а) исходное двумерное изображение и направление считывания; б) одномерная развертка; в) ступенчатая функция.

 
 

 

 


Получающийся двухмерный массив прямоугольников называется растром, а сами прямоугольники – пикселами.

Если изображение черно-белое, то яркость каждого пиксела можно трактовать как оттенок серого цвета и описать одним числом. Самый простой способ кодирования яркости пикселов так, как показано на рис 3.9: черный цвет – нуль, чисто белый цвет – единица. Для кодирования оттенков чисто белый цвет кодируется максимальным числом, которое может быть записано в байт, т.е. 255. Таким образом, получаем числовое описание 256 оттенков серого цвета. Этого обычно достаточно для практических приложений.

Для цветных изображений дело немного сложнее. Человеческий глаз воспринимает все цвета как сумму трех основных цветов – красного, зеленого и синего. Поэтому цвет пиксела приходится кодировать тремя числами – яркостью красной, зеленой и синей составляющих. Этот способ кодирования называют RGB – метод (от Red, Green, Blue). Существует также CMYK –метод (от Cyan, Magenta, Yellow, blacK – голубой, сиреневый, желтый, черный), используемый в печатающих устройствах.

Таким образом, развертка есть этап, преобразующий функцию в последовательность ее значений. Значения функции заполняют обычно некоторый континуум вещественных чисел, а именно – это те значения (в более чем счетном числе), которые может принимать физическая величина – параметр сигнала. В противоположность этому, дискретное сообщение – это конечная последовательность знаков, которых в свою очередь, имеется лишь конкретное число (счетное). Поэтому следующий этап - квантование, на котором осуществляется переход от вещественных функций к дискретным сообщениям.

3.1.8.3 Квантование

Квантование – это отображение вещественных чисел в некоторое счетное множество чисел, а именно, в множество всех кратных некоторого числа D, называемого шагом квантования (или просто квантом). Отображение устроено таким образом, что всякий из равных по длине интервалов чисел отображается  в то кратное D, которое лежит в этом интервале.

Физические соображения позволяют полагать, что значения функции, представляющие собой значения некоторой физической величины, не могут быть сколь угодно велики, а ограничены сверху и снизу. Поэтому квантование переводит некоторое значение функции в конечное множество чисел, которое можно понимать как набор знаков.

Таким образом, развертка, за которой следует квантование, дает последовательность знаков, то есть произвольное сообщение превращается в дискретное, представляемое словами с некоторым набором знаков. Отдельные знаки этого набора – кратные шага квантования – в свою очередь можно закодировать в двоичном коде. В технике этот метод известен под названием импульсно-кодовой модуляции (рис.3.10). При этом часто принимают код Грея (одношаговый код). Его достоинство в том, что минимальное изменение функции – на один квант – ведет к изменению всего лишь одного бита в кодировке значения. Например, «извилина» кода Грея для чисел выглядит следующим образом:

 

 

00

01

11

10

127-202

Например, 0 – 0000; 1 – 0001; 2 – 0011; 3 – 0010; 4 – 0110; 5 – 0111;6 – 0101; 7 – 0100; 8 – 1100; 9 – 1101; ...

 
00

0

1

2

3

01

7

6

5

4

11

8

9

10

11

10

15

14

13

12

127-202

 

 

 

 

 

 

 

 

 

 

 

 

3.1.9 Энтропия непрерывных сообщений

Строго говоря, энтропия непрерывных сообщений (сигналов) равна бесконечности, так как бесконечны и количество возможных сообщений (ансамбль сообщений является континуумом), и его логарифм. Тем не менее, попробуем обобщить понятие энтропии дискретного сигнала на непрерывный сигнал.

Рис. 3.11 - Плотность распределения вероятности случайной величины

 

xk-Dх/2

 
Представим непрерывный сигнал в виде непрерывной случайной величины х, плотность вероятности которой равна p(x) и заменим его соответствующим дискретным, введя процесс квантования (см. рис. 3.11)[14].

127-202
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Тогда вероятность k –ого состояния определяется как

127-202,

а энтропия непрерывного квантованного сигнала запишется в виде[15].

127-202.

При достаточно малых Dх и гладкой функции p(x) можно считать, что (теорема о среднем)

127-202

Тогда в пределе при стремлении Dх к нулю получим энтропию исходного непрерывного сигнала:

127-202127-202127-202127-202,                                                            (3.8)

так как 127-202127-202.

Как и следовало ожидать, при 127-202, энтропия квантованного сигнала 127-202. На первый взгляд, полученный результат может показаться весьма обнадеживающим: если энтропия сигнала неограниченно велика, значит с помощью него можно передавать неограниченное количество информации! Для этого достаточно лишь снять неопределенность, которую он априорно заключает в своем состоянии. Но что значит полностью снять неопределенность? Это значит получить абсолютно точный отсчет значения принятого сигнала. Но ведь этого-то и нельзя осуществить в реальных случаях. Непрерывный сигнал всегда воспринимается приближенно, с ограниченной точностью.

Таким образом, непрерывные сигналы не имеют абсолютной меры энтропии. Поэтому для них вводят понятие относительной энтропии, то есть определяют энтропию непрерывного сигнала х относительно другого непрерывного сигнала, например,  127-202.

В качестве эталона чаще всего выбирается непрерывный сигнал 127-202, имеющий равномерный закон распределения в интервале e. Формула (3.8) для такого сигнала перепишется в виде

127-202,

так как

127-202; а 127-202.

 

Неопределенность непрерывной величины x характеризуется числом, к которому стремится разность энтропий сигналов x и 127-202:

127-202127-202.

Если положить 127-202 (то есть стандартная величина (эталон) имеет равномерный закон распределения в единичном интервале), то формула примет вид

127-202.

Следует помнить, что это не абсолютная мера энтропии непрерывного сигнала. Это – относительная энтропия, где за стандарт взято равномерно распределённая в единичном интервале величина. Иногда её называют дифференциальной e – энтропией. Если выбрать другой закон распределения значений сигнала х¢, то выражение для относительной энтропии сигнала х также примет другой вид.

Относительная энтропия непрерывного сигнала (или сообщения) (ОЭНС) обладает свойствами, во многом аналогичными свойствам энтропии дискретных сигналов. Но есть и различия. Например, энтропия дискретного сигнала зависит лишь от вероятностей и не зависит от самих значений сигналов (можно сказать, что она зависит от закона распределения сигнала лишь частично). ОЭНС в общем случае зависит от закона распределения почти полностью. Это «почти» – намек на исключение, которое составляет лишь независимость энтропии от постоянной составляющей сигнала.

Итак, сформулируем первое свойство ОЭНС:

ОЭНС не изменится, если к сигналу прибавить неслучайную величину c.

Действительно, если распределение значений сигнала x равно 127-202, то распределение сигнала y=x+c равно 127-202 и энтропия сигнала y определяется выражением

127-202Рассмотрим другие свойства ОЭНС.

 

3.1.10 Экстремальные свойства энтропии

           непрерывных сообщений

Представляет интерес решение следующей задачи.

Задан какой-то ансамбль сообщений или сигналов, о котором известны некоторые параметры. Например, пределы изменения, дисперсия, математическое ожидание.

 

Напомним, что для приближенного описания случайной величины вводят числовые характеристики – так называемые моменты. Начальный момент первого порядка называется математическим ожиданием:

127-202,

где 127-202 – функция распределения случайной величины.

Для дискретных случайных величин,

127-202,

где 127-202 – вероятность появления случайной величины 127-202.

Математическое ожидание характеризует центр рассеивания значений случайной величины.

Центральный момент второго порядка называется дисперсией

127-202.

Дисперсия характеризует степень рассеивания возможных значений случайной величины около её математического ожидания. Корень 127-202 называется квадратичным отклонением.

 

Требуется подобрать такой закон распределения этого ансамбля, при котором энтропия была бы максимальной. Можно дать следующую физическую интерпретацию этому принципу максимальной энтропии: требуется создать помеху каналу связи противника таким образом, чтобы обеспечить в нем максимум неопределенности. Очевидно, при заданных параметрах наилучший эффект будет достигнут, если выбрать такой закон распределения помехи, при котором энтропия принимает максимальное значение.

Рассмотрим два случая.

Случай 1.

Пусть задана ограниченная на [a,b] непрерывная случайная величина с неизвестной плотностью распределения p(x), причем

127-202.                                                              (3.9)

Требуется найти аналитическое выражение для p(x), которое дает максимум энтропии, задаваемой функционалом

127-202.

Для решения можно использовать один из методов оптимизации при решении задачи нелинейного программирования – метод неопределенных множителей Лагранжа[16].

Составляем функционал

127-202 .

Берем частную производную по р и приравниваем ее к нулю (знак интеграла в силу непрерывности подынтегральной функции можно отбросить):

127-202;

Тогда                                       127-202.                                            (3.10)

Используя дополнительное условие (3.9), получаем уравнение для определения неизвестного множителя Лагранжа 127-202 в виде

127-202.

Находя отсюда 127-202 и подставляя в (3.10), получаем плотность распределения

                                      127-202

Вывод: для случайной величины, ограниченной на конечном отрезке, максимальная энтропия достигается при равномерном распределении. Отметим, что это свойство совпадает со свойством энтропии дискретного сигнала: H(p1…pn) достигает максимального значения при p1=p2=…=pn=1/n.

Очевидно, это свойство является некоторым оправданием для выбора в качестве эталона при записи дифференциальной (относительной) энтропии такого сигнала (сообщения), который имеет равномерный закон распределения в интервале квантования 127-202.

 

Случай 2.

Будем теперь считать, что область изменения случайной величины неограничена: 127-202, задано среднее значение 127-202 и дисперсия 127-202. Требуется найти закон распределения p(x), при котором функционал, равный энтропии, обращается в максимум, т. е.

127-202,

при условиях:

127-202;                                        (3.11)

127-202;                                                      (3.12)

127-202;                                                            (3.13)

Снова используем метод неопределенных множителей Лагранжа.

Составляем функционал и приравниваем частную производную по р к нулю:

127-202.

127-202.

Тогда              127-202.                                             (3.14)

Подставляя (3.14) в условие (3.13), получаем связь между множителями Лагранжа в виде 127-202.

Преобразуем интеграл:

127-202

Тогда             127-202.                                         (3.15)

Отметим, что решение существует при 127-202.

Подставляем (3.14) и (3.15) в (3.11). После несложных преобразований, аналогичных приведенным выше, получаем

127-202.

В правой части этого равенства стоит конечная величина. Чтобы и левая часть была ограничена, необходимо, чтобы 127-202.

Отсюда                       127-202.

Окончательно выражение для плотности вероятности распределения р(х) (3.14) перепишется в виде

127-202—                                      (16)

закон нормального распределения вероятностей случайной величины х.

Таким образом, экстремальное распределение является нормальным распределением (гауссовский закон).

Найдем энтропию сигнала, значения которого распределены по гауссовскому закону с нулевым средним. Для этого подставим (3.16) с а=0 в выражение для дифференциальной энтропии

127-202                                                                                                                         (3.17)

Таким образом, дифференциальная энтропия непрерывного сигнала, распределенного по гауссовскому закону, прямо пропорциональна логарифму дисперсии вероятных значений этого сигнала. Этот факт мы используем ниже при рассмотрении пропускной способности каналов связи.

3.1.11 Пропускная способность канала связи

Если рассматривать теорему отсчетов в свете теории информации Шеннона, то в непрерывном канале связи каждые 127-202 секунд нужно передавать сообщение, а именно, амплитудное значение[17]. Квантование сводит дело к выбору из некоторого конечного числа n амплитудных значений, которые появляются с определенной вероятностью pi.

Тогда информация на такт времени (энтропия на один отсчет) определяется по формуле H=127-202, а скорость передачи, то есть информация, передаваемая в единицу времени, составит R =127-202=2nGH бит/с.

 

Если мельчить квантование, то будет расти и поток информации; в случае равновероятных амплитуд (H=ld(n)) он равен 2nG ld (n).

Но, как отмечалось выше, на передаваемую функцию могут накладываться шумы, искажающие амплитудные значения. Поэтому, чем точнее мы будем пытаться представить информацию, тем точнее воспроизведем и шумы.

При наличии шумов поток информации ограничен (один из важных выводов из теории Шеннона, наряду с теоремой отсчетов и теоремой кодирования).

Скорость передачи информации по каналу связи зависит от многих факторов – от энергии сигнала, от числа символов в алфавите, полосы частот, способа кодирования и декодирования и т.д. Если имеется возможность изменять некоторые из них, то, естественно, следует это делать так, чтобы максимально увеличить скорость. Оказывается, что обычно существует предел, выше которого увеличение скорости невозможно. Этот предел называется пропускной способностью канала:

127-202,

где R A – скорость передачи информации при условии А, {А} – множество вариантов условий, подлежащих перебору. Так как множество {А} можно определить по-разному, то имеет смысл говорить о нескольких типах пропускных способностей.

Наиболее важным является случай, когда мощность сигнала (или объем алфавита) фиксирована, а варьировать можно только способ кодирования. Именно в таких условиях рассматривал пропускную способность К. Шеннон.[18]

Из теоремы кодирования Шеннона нам известно, что при энтропии Н бит источника сообщений, можно кодировать сообщение так, что среднее число L двоичных знаков на символ алфавита будет как угодно близко к величине Н, но никак не меньше этой величины L - H > 0; L ® H.  Тогда при соответствующем кодировании информация от источника сообщений может передаваться со скоростью, как угодно близкой к

127-202 

Что означают слова «при соответствующем кодировании» мы уже знаем: нижняя граница для средней длины кодового слова 127-202есть энтропия ансамбля сообщений (или среднее количество информации на один элемент xi ансамбля { xi }), то есть 127-202. Здесь Ni – длина i-ого знака в кодировке.

Отметим, что это получено для каналов без шумов (то есть без внешних воздействий) и при возможности разбиения набора знаков на точно равновероятные подмножества.

Если же это разделение невозможно, то работает оценка L>H (при двоичном кодировании, то есть когда алфавит системы кодирования состоит из двух символов). В общем  случае  L >H / log m, где m – число символов алфавита системы.

Основываясь на интуитивных соображениях, легко прийти к выводу, что при повышении требований к малости вероятности ошибки избыточность должна неограниченно возрастать, а скорость передачи – стремиться к нулю при любом способе кодирования.

Пожалуй, самым важным открытием в теории информации является установленная Шенноном возможность практически безошибочной  передачи информации по каналу с шумом со скоростью близкой к пропускной способности канала.

Он показал, что существуют такие способы введения избыточности, при которых обеспечиваются одновременно и сколь угодно малая вероятность ошибки, и конечная (отличная от нуля) скорость передачи информации, причем эта скорость может быть как угодно близка к пропускной способности канала.

Этот немного парадоксальный, но строго доказанный вывод имеет, правда, в основном теоретическое значение. Шеннон полагал, что такой код существует, но не указал метод построения такого кода (ни он, ни другие исследователи). Практически пользуются иными способами защиты информации от шумов, хотя они и ведут к снижению скорости передачи по сравнению с теоретически достижимой (см. пп. 3.1.3, 3.1.4).

Рассмотрим одну из математических моделей непрерывного канала связи - гауссов канал связи. Гауссов канал связи - это канал, для которого выполняются следующие условия:

1) сигналы и шумы в нем непрерывны;

2) канал занимает ограниченную полосу частот шириной nG;

3) шум n(t) (рис. 3.6) в канале распределен нормально, то есть амплитуды подчиняются нормальному гауссову распределению («гауссов белый шум»);

4) спектральная плотность шума равномерна в полосе частот канала (то есть все частоты представлены с одинаковой интенсивностью) и равна NШ единиц мощности на единицу полосы частот;

5) средняя мощность полезного сигнала x(t) фиксирована и равна Р0;

6) сигнал и шум статистически независимы;

7) принимаемый сигнал y(t) есть сумма полезного сигнала и шума: y(t)=x(t)+n(t) (шум аддитивен).

Аддитивность шума и его независимость от Х позволяет представить количество информации в Y об X  в виде:

I(X,Y) = H(Y) – H(Y½X) = H(Y) – H(X+N½X) = H(Y) – H(N),

где H(N) – дифференциальная энтропия шума.

Тогда пропускная способность канала:

127-202,                 (3.18)

где 127-202.

Максимум H(Y) достигается в случае нормального распределения, а так как мощность – это дисперсия мгновенных значений: N=s 2, то, используя формулу (3.17), получаем            

127-202,                       (3.19)

где в силу условий 4-7  NШnG – мощность шума на полосе, а P0 +NШnG – мощность принимаемого сигнала. Аналогично, в силу свойства 3

127-202                                   (3.20)

Подставляя (3.19) и (3.20) в (3.18), имеем:  127-202.

Вводя понятие спектральной плотности полезного сигнала как отношение его средней мощности к ширине полосы пропускания: 127-202, окончательно получаем формулу для пропускной способности гауссова канала связи:

                         127-202.                                               (3.21)

Практически С всегда меньше из-за разных статистических свойств сигнала и помех.

Таким образом, как это хорошо известно в технике связи, пропускная способность канала может быть увеличена только за счет увеличения полосы пропускания nG и улучшения отношения мощности сигнала к мощности шумов.

В таблице 3.8 приведены сравнительные характеристики некоторых каналов связи [11]. Отношение мощности полезного сигнала и мощности шума указано в децибелах[19]. При расчете Сmax единицей в скобках пренебрегалось.

Таблица 3.8 - Пропускная способность некоторых каналов связи

 

Канал связи

nG,

Гц

127-202127-202

127-202,дБ

Сmax ,

бит/с

А) сеть абонентного телеграфа

120

~26

~18

0,5*103

Б) сеть передачи данных федеральной почты

240

~26

~18

1,0*103

В) телефонная сеть федеральной почты

3,1*103

~217

~50

36*103

Г) телевизионный канал

7*106

~217

~50

80*106

Кстати, максимальный поток информации через человеческие уши ~5*104 бит/с, глаза ~5*106 бит/с (из физиологических экспериментов), то есть находится в тех же по порядку пределах, что в графах в) и г).

Поток информации, обрабатываемый в человеческом мозге существенно ниже. Он устанавливается с помощью различных психологических экспериментов, например по той максимальной скорости, с которой человек может осмысленно читать текст (15...40 букв в секунду или                    ~ 20...50 бит/с) или осмысленно разговаривать (не более 50 бит/с).

3.1.12 Ценность и полезность информации

Мы знакомы с количественным выражением информации:

127-202.

Но во многих практических ситуациях интерес представляет и качественная оценка информации, то есть ответ на вопрос: как определить и измерить ценность или полезность информации для получателя.

Шенноновская теория информации не акцентирует внимание на смысле и ценности информации. Количество информации исчисляется безотносительно к её практической важности для того, кому она предназначается. Например, две телеграммы: «У нас все хорошо» и «Срочно приезжайте». Количество знаков с учетом пробелов здесь одинаково – по 16, и, следовательно, количество информации  в шенноновском смысле одно и тоже.

А значимость (важность) этих сообщений для получателя, их воздействие на его будущее совершенно различны.

В принципе, аппарат классической теории информации можно применять и к оценке значимости информации. Для этого надо знать распределение вероятностей различных состояний у получателя до и после получения сообщения. Эти распределения вероятностей позволяют вычислить соответствующие энтропии, а разность энтропий (у получателя) может служить мерой количества полезной информации  в сообщении.

Но одно дело – рассчитать энтропию известного первичного алфавита (что мы уже умеем делать) и совсем другое – оценить все возможные состояния сложной системы и их вероятности (под системой в данном случае понимается человек, но в принципе может быть любой исполнительный механизм).

Практически это почти всегда невыполнимая задача.

 

Пример 14. Трудности автоматизации процесса перевода обусловлены существенной многозначностью единиц естественного языка, неопределенностью смысла языковых конструкций – даже в узкоспециализированном научно-техническом тексте.

Скажем,  английское предложение

Time flies like an arrow

допускает пять разных смысловых интерпретаций [17]:

Время летит стрелой.

Время летит в направлении стрелы.

Мухам времени нравится стрела.

Измеряй скорость мух, похожих на стрелу.

Измеряй скорость мух так же, как скорость стрелы.

Если речь идет о художественном переводе, то ситуация еще сложнее.

 

Пример 15. Однажды газетой "Неделя" был проведен интересный эксперимент. Были собраны два десятка переводчиков, которые, превосходно зная два смежных языка, должны были принять от своего коллеги текст, перевести его на другой язык и передать следующему. Им был предложен отрывок из произведения Н.В. Гоголя "Повесть о том, как поссорились Иван Иванович с Иваном Никифоровичем":

"Она сплетничала, и ела вареные бураки по утрам, и отлично хорошо ругалась, – при всех этих разнообразных занятиях лицо ее ни на минуту не изменяло своего выражения, что обыкновенно могут показывать одни только женщины".

Пройдя через законы, характер и особенности различных языков, гоголевская фраза трансформировалась в следующие нелепые строки:

"Выпив компот, она выбросила из хижины старье, а он радостно забил в тамтам".

Процент правильно переведенной мысли этого отрывка равен нулю[20]!

С другой стороны, посмотрим критически на утверждение: «информация ценна лишь постольку, поскольку она уменьшает текущую неопределенность в поведении системы».

Если оно справедливо, то получается, что наибольшая доля сведений, получаемых человеком, не имеет никакой информационной значимости.

Человек прочел новую книгу, посмотрел новый фильм, прослушал по радио последние известия – вся эта информация, скорее всего, никак не повлияет на его текущие дела, ничего не изменит в принимаемых им конкретных решениях. Значит, ценность этой информации равна нулю? Вряд ли с этим можно согласиться.

Когда мы классифицировали информацию, то различали основную и текущую информацию: первая способствует уточнению модели объекта, вторая обеспечивает оперативное управление объектом. Телеграмма «Срочно вылетайте» содержит важную текущую информацию для её получателя и резко меняет распределение вероятностей его поведения, а для работника связи, принявшего эту телеграмму, её информационная ценность равна нулю.

Новый кинофильм, новая книга ничего не изменяют в текущем поведении людей, но, можно сказать, способствуют уточнению у каждого его внутренней модели внешнего мира – как частичку коллективной модели внешнего мира. И снова мы приходим к тому выводу, что информация является основой глобального порядка во Вселенной, основой познания окружающего мира (особенно научная информация).

В свете этих соображений ясно, насколько трудна проблема измерения ценности информации. И, быть может, строгие количественные оценки здесь не уместны, по крайней мере, для основной информации. Полезность такой информации допустимо считать характеристикой качественного порядка и обходиться в большинстве случаев некоторыми качественными градациями ценности сообщений типа «очень важно», «важно», «незначительно» и т. д. [18].

В исследовании информации можно выделить три взаимосвязанных раздела: синтактика, семантика и прагматика. Синтактика изучает формально-количественную сторону информации, отвлекаясь от её конкретного содержания и полезности. Семантика исследует содержание, смысловые аспекты информации. Прагматика рассматривает информацию с точки зрения её значимости, ценности для получателя.

Классическая теория информации перекрывает, и то не полностью, только проблемы синтактики, а два других раздела базируются, в основном, на качественном анализе, а точный математический подход в семантике и прагматике пока лишь нащупывается.

Для анализа сложных информационных процессов с большим объемом как смысловой (качественной), так и количественной информации, скорее всего, необходим такой подход, при котором допускаются частичные истины, а строгий математический формализм не является категорически необходимым.

Этот подход характеризуется следующими 4-мя признаками:

1) используются нечеткие (размытые) множества;

2) применяют нечеткие лингвистические переменные;

3) элементарные отношения между лингвистическими переменными характеризуются нечеткими высказываниями;

4) сложные отношения оформляются в виде нечетких алгоритмов.

 

Пример 16. Рассмотрим семантическое пространство «сила ветра». В нем есть области, обозначаемые понятиями: штиль, тихий, легкий, слабый, умеренный, свежий, сильный, крепкий, очень крепкий, шторм, сильный шторм, жестокий шторм, ураган. Эти множества и есть размытые подмножества с нечетко выраженными краями.

 

Все эти понятия рассматриваются в теории размытых (нечетких) множеств, построенной Л.Заде[21].

Рассмотрим некоторые способы оценки полезности (ценности) информации в практических задачах теории управления [19,20]. Предположим, что информация характеризуется некоторым минимальным набором показателей: количество информации I, качество (ценность) единицы информации с точки зрения достижения определенных целей l и себестоимость единицы информации С. Производными от этого минимального набора показателей являются: количество взвешенной по ценности информации (полезная информация):

127-202.                                                                            (3.22)

и затраты на получение информации[22].

При преобразовании информации в процессах управления сложными системами всякая информация может быть рассмотрена, с одной стороны, как следствие различных процессов в системе, и, с другой стороны, как причина изменений в этой системе. Поэтому полезность информации оценивается либо с точки зрения достижения целей распознавания (то есть определения состояния и поведения исследуемой системы), либо с точки зрения достижения целей функционирования системы (что имеет место при управлении системой).

Будем считать полезной информацией те характеристики организованности или неорганизованности системы (объекта) и окружающей среды, которые, будучи использованными при принятии решения и реализованными в исполнительных органах, способны уменьшить неорганизованность функционирования системы в отношении рассматриваемой цели.

В соответствии с этим, показателем ценности информации является функция чувствительности степени 127-202 достижения рассматриваемой j - той  цели к i -тому количеству информации 127-202, то есть

127-202.

Значения 127-202 при всех 127-202 образуют кривую ценности 127-202.

Тогда количество взвешенной по ценности информации равно

127-202,                                                     (3.23)

или, если 127-202const ,           127-202.

Для управления важна лишь та информация, которая полезна для достижения рассматриваемой j – ой цели. Поэтому полезную информацию можно считать не только мерой снятой неопределенности в результате получения сведений об объектах и явлениях (как это определялось выше в п. 3.1.7), но и мерой реализации этих сведений в узлах управления системой.

Кстати, количество взвешенной по ценности информации может равняться относительному количеству информации, когда решается задача распознавания и целью является снятие неопределенности. При этом у º Н и l=1. Поэтому нельзя утверждать, что в теории информации Шеннона полностью игнорируется смысл и ценность информации.

Ценность информации с течением времени может изменяться. С этим приходится считаться при решении различных практических задач хранения и передачи информации, задач управления и т. п.

Процесс уменьшения ценности информации во времени принято называть старением информации. Возможны две причины такого процесса:

1) обесценивание информации в связи с появлением новой информации, которая уточняет, дополняет или отвергает полно или частично более раннюю;

2) старение информации из-за задержки её при передаче и переработке.

В общем случае процесс старения информации является сложной функцией не только времени, но и свойств источника информации. Для ряда практических задач рекомендована упрощенная формула [20]

127-202,                                          (3.24)

где 127-202 – ценность информации, 127-202– максимальная ценность информации, 127-202– постоянная старения информации.

Формула (3.24) – закон снижения ценности информации. Её можно пояснить следующим примером. На систему управления через канал связи подается информация о состоянии управляемого объекта. Увеличивая задержку передачи информации в канале, в итоге получим, что информация перестает объективно отражать состояние объекта, так как к моменту ее поступления на вход системы управления, состояние управляемого объекта существенно изменится.

Ценность информации во времени может не только уменьшаться, но и возрастать. Повышение ценности информации для приема данной информации  наблюдается довольно часто в связи с недостаточным развитием информационного запаса (тезауруса) этого приемника информации. Поэтому ценность информации не является величиной абсолютной. Она относительна и зависит от свойств приемника информации.

Например, при рассмотрении динамики использования фундаментальных теоретических работ и открытий было замечено повышение ценности информации во времени: лишь по мере развития общества, развития уровня техники, получения новых технологий, новых материалов, ценность работ, выполненных ранее, начинает возрастать (ядерная энергия, космонавтика).

 

Пример 17. В 1899 году российским инженером-технологом А.А. Полумордвиновым был получен патент на теоретическую и практическую систему передачи цветного изображения. Опытное цветное телевещание началось и в СССР и в США лишь в начале 50-х годов.

 

Примеры повышения ценности информации во времени можно найти и в задачах управления, в которых используются системы предсказания.

Закон роста ценности информации отображается зависимостью

127-202,

где 127-202– максимальная ценность, которую она может достигнуть в будущем,

127-202– постоянная созревания информации.

В ряде случаев ценность информации изменяется по более сложному закону: сначала растет, а затем падает.

127-202,

где 127-202, 127-202– момент времени, при котором 127-202.

 

Пример 18. Рассмотрим процесс потребления человеком информации, содержащейся в научной книге, при многократном её прочтении. Ввиду недостаточного запаса знаний читателя при первом прочтении полезность извлеченной  из книги информации будет мала. При последующих прочтениях этой же книги по мере повышения подготовленности читателя полезность полученной информации возрастает и достигает максимума в момент времени 127-202, а затем снова падает.

 

127-202
 

 

 

 

 

 

 

 

 

 

 

 

 


Пример 19. Зависимость цитирования научных документов от времени часто имеет характерный максимум, связанный с тем, что только что опубликованные работы не могут цитироваться (специалисты просто не успели с ними познакомиться), а старые работы не цитируются из-за устаревших результатов. На рис.3.12 приведена качественная зависимость индекса цитирования (Science Citations Index) от времени (t).

3.2 МОДЕЛИРОВАНИЕ В ЭКОНОМИКЕ

3.2.1 Модели и моделирование

Широкое применение новых информационных технологий в решении крупных научных и народно-хозяйственных задач привело к появлению нового метода научного исследования – метода математического моделирования и вычислительного эксперимента. Речь идет о замене исходного объекта его математической моделью и дальнейшем проведении численных экспериментов на компьютерах.

Экономические системы как объекты исследования относятся к числу наиболее сложных систем, известных науке. Поэтому построение их моделей – всегда неизбежный компромисс между учетом всех вероятных факторов, влияющих на функционирование того или иного экономического объекта, и сохранением математической модели достаточно простой, чтобы  ее можно было решить с помощью доступных инструментальных и программных средств информационных технологий [21].

В широком смысле этого понятия модель – это такой материально или мысленно представляемый объект, который в процессе исследования заменяет объект-оригинал, и изучение которого дает новое знание об объекте-оригинале.

Процесс построения, изучения и использования моделей называется моделированием. В этом процессе взаимодействуют три элемента: субъект (исследователь), объект исследования и модель.

Различают материальное и идеальное моделирование.

Материальное, или физическое моделирование – это экспериментальный метод. Реальному объекту ставится в соответствие его материальная копия – физическая модель (увеличенная или уменьшенная), допускающая лабораторное исследование.

Идеальное моделирование – это теоретический метод. Модель формулируется на языке математики в виде уравнений и проводится ее исследование, обычно с использованием вычислительной техники, то есть ставится вычислительный эксперимент.

В экономике используется идеальное (математическое) моделирование. Хотя можно привести курьезный пример, когда в Англии в начале века была построена гидравлическая модель рыночной экономики. Материальные, финансовые, трудовые ресурсы моделировались резервуарами, потоки этих ресурсов – системами труб, управляющие органы – дросселями и клапанами.

В процессе моделирования можно выделить 4 последовательных этапа:

- постановка задачи и построение модели;

- изучение модели;

- перенос знаний с модели на оригинал;

- проверка адекватности полученных знаний.

На первом этапе моделирования исследователь сталкивается с большим разнообразием процессов и явлений, происходящих в рассматриваемой системе. Поэтому необходима подготовительная работа, направленная на получение полного представления обо всем комплексе проблем. После того, как конкретизированы цели и условия их осуществления, следует описание поставленной задачи в форме конкретных математических зависимостей (уравнений, неравенств, функций и т.п.), то есть строится модель.

Каждая математическая модель обычно включает три группы элементов:

- характеристики объекта, которые нужно определить, {Y};

- совокупность известных внутренних параметров объекта, {X};

- характеристики внешних изменяющихся условий (среда), {Z}.

Формализуя условия поставленной задачи, исследователь обычно стремится так подобрать (или построить) множества {X}, {Y}, {Z}, чтобы сложность построенной модели была оптимальной.

Важно всегда помнить, что результаты, полученные с помощью модели, будут абсолютно верны только при заданных предположениях, то есть любая модель замещает оригинал только в строго ограниченном смысле. Модель – это субъективное отражение объективной действительности.

На втором этапе моделирования исследователь изучает свойства построенной модели путем проведения аналитических и машинных расчетов. Итогом этого этапа является получение новых знаний о построенной модели.

На третьем  этапе моделирования происходит перенос знаний о модели на объект-оригинал (естественно, с учетом сделанных предположений). В результате исследователь получает новые знания об объекте-оригинале.

На четвертом этапе моделирования проверяется, насколько согласуются полученные знания об объекте-оригинале с хозяйственной практикой. На этом этапе могут быть изменены, скорректированы предположения, которые закладывались при построении модели. И цикл повторяется – уже для уточненной модели.

Подчеркнем положительные стороны вычислительного эксперимента в экономике:

- его проведение не сопряжено при неудачном исходе со значительными материальными или финансовыми потерями;

- с его помощью можно неоднократно воспроизводить различные варианты хозяйственных ситуаций;

- он обладает большой наглядностью (особенно, в настоящее время, когда имеются мощные программные и аппаратные средства для визуализации информации);

- с его помощью можно комплексно изучать отдельные экономические системы и хозяйство страны (группы стран) в целом, за короткое время "проживая" целый экономический период[23].

Но, тем не менее, существует много проблем экономико - математического моделирования в экономической теории и хозяйственной практике. Эти проблемы носят как методологический и теоретический, так организационный и прикладной характер.

Во-первых, это несовершенство существующих моделей, что неизбежно ведет к дискредитации идеи полезности экономико-математического моделирования. Причина: трудности формализации фундаментальных понятий экономики: собственность, стоимость и т.п., противоречивость экономических процессов и явлений, многообразие целей и задач экономики, многовариантность экономических связей. Существует даже точка зрения, отрицающая целесообразность математического моделирования в экономике.

Во-вторых, медленное внедрение экономико-математических моделей в экономическую теорию и хозяйственную практику. Есть оценки, что успешно внедряются в практику не более 10% разрабатываемых оптимизационных задач управления экономическими процессами. Причина та же: слишком большая степень абстрагирования от реальной экономической природы исследуемого процесса или явления.

В-третьих, отсутствие комплексного подхода к моделированию экономических задач, который бы объединял коллективы экономистов, математиков, экономистов-математиков. Этому, кстати, способствует и борьба научных школ, научных направлений, порою диаметрально противоположно трактующих одни и те же социально – экономические явления, особенно в российских условиях.

3.2.2 Система и системный анализ

В последнее время в экономической теории и хозяйственной практике (как впрочем, и во многих других областях деятельности человека) широкое распространение получили понятия: "системный анализ", "системный подход к изучению явлений", "теория систем", "системология".

Дело в том, что, ставя перед собой задачу наиболее полного учета факторов, влияющих на тот или иной процесс, исследователи приходят к необходимости иметь дело со сложными комплексными явлениями. Это предполагает необходимость совместного изучения различных явлений, в основе которых лежат процессы различной природы, и использование для их анализа различные, но связанные между собой модели.

Понятие "система"[24] в человеческой практике весьма многогранно. Это:

- и множество закономерно связанных друг с другом элементов (система предметов, система явлений, система знаний);

- и порядок, обусловленный расположением частей в определенном порядке (система работы);

- и форма общественного устройства (государственная система);

- и совокупность частей, связанных выполнением общей функции (нервная система);

- и совокупность хозяйственных единиц, учреждений, организационно объединенных в единое целое (производственно-хозяйственная система) и так далее.

Обобщая все эти понятия, можно дать следующее определение системы.

Система – это некоторая совокупность элементов произвольного множества, их взаимосвязей, свойств и взаимоотношений, представляющих целостный комплекс и функционирующих в соответствии с определенными закономерностями, присущими данному комплексу.

В наиболее общем виде системный анализ обычно определяют двояко:

1) как научную дисциплину, разрабатывающую общие принципы исследования сложных объектов с учетом их комплексного характера;

2) как методологию анализа объектов путем представления их в качестве систем и исследования этих систем.

В экономической информатике системный анализ предполагает изучение отдельных хозяйственных объектов (процессов) как структурных, функционально обособленных частей более сложных систем.

Отметим основные идеи, характерные для системного анализа.

1. С позиции системного анализа исследователя, прежде всего, интересует описание места и роли каждого элемента в системе в целом.

2. Системный анализ, как правило, выделяет наличие различных уровней системного объекта и их соподчиненность. Это вызывает необходимость описания взаимосвязи между ними. Наиболее часто встречающаяся форма реализации взаимосвязи – это управление. Поэтому проблема управления возникает практически в любом системном исследовании.

3. Системный анализ ориентируется не только на изучение отдельных элементов, но и ставит задачу выявления и исследования синергетических эффектов (или эмерджентных свойств) системы в целом. Это требует особого выделения в системе синергетических связей, то есть таких связей, которые при кооперированных (совместных) действиях независимых элементов системы обеспечивают больший эффект, чем сумма эффектов каждого из ее элементов, действующих автономно.

4. В рамках системного анализа выявляется и исследуется целенаправленность в развитии системного объекта.

Поясним суть новых терминов: синергетика и эмерджентность.

Синергетика (греч.synergos: совместный, согласованно действующий) – наука, изучающая общие закономерности образования, устойчивости и разрушения упорядоченных временных и пространственных структур в сложных неравновесных системах различной природы (физических, химических, экологических и др.). Образно говоря, предмет ее исследования – "возникновение порядка из беспорядка и хаоса", самоорганизованность систем, появление новых качественных свойств.

Эмерджентность (англ.emergency: внезапное появление, возникновение из ничего) – появление в целом нечто качественно нового, такого, чего не было и не могло быть без этого объединения.

Возникновение качественно новых свойств при соединении отдельных элементов в систему – это частное проявление всеобщего закона диалектики – закона перехода количества в качество. И чем больше отличаются свойства совокупности от суммы свойств элементов, тем выше организованность системы. Поэтому свойство эмерджентности можно считать проявлением внутренней целостности системы, ее системообразующим фактором.

Пример 20 . Пусть имеется некий цифровой автомат S, преобразующий любое целое число на его входе в число, на единицу большее входного [17] (рис. 3.13a).

Если соединить два таких автомата последовательно в кольцо (рис.3.13б), то в полученной системе обнаружится новое свойство: она генерирует возрастающие последовательности: одна – последовательность только четных чисел, другая – последовательность только нечетных чисел. Параллельное же соединение (рис. 3.13в) ничего не изменяет в смысле проявления новых "арифметических" свойств, но можно отметить появление свойств другого характера - увеличение надежности работы автомата (реализовано дублирование – см. п. 3.1.3).

 

127-202
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Обратим теперь особое внимание на последний, четвертый, пункт.

Экономическую информатику в основном интересуют целенаправленные системы, то есть системы, которым небезразлично, в каком состоянии они находятся. Так или иначе, они стремятся к некоторому целесообразному поведению, направленному на достижение наиболее предпочтительных состояний. Пользуясь терминами теории графов, это означает, что построить жесткое дерево целей для экономических систем практически невозможно.

Дело в том, что в экономических системах одним из важнейших элементов является человек как хозяйствующий субъект со своей шкалой ценностей, со своими целями, со своими потребностями, со своими мотивами поведения, которые формируются под воздействием как внешней, так и внутренней среды.

Именно на основе ценностных установок и вырабатывается у хозяйствующего субъекта целевые установки. Закрепляясь, они предопределяют стереотипы хозяйственного поведения (стратегию и тактику работы фирмы). Но с течением времени постоянно происходит сопоставление этих целей с изменением его потребностей, с изменением внешних и внутренних условий, и, как результат, - смена одних стратегий другими и выработка других целей, более адекватных возникшей ситуации. Это особенно характерно для стран, находящихся в переходном режиме формирования новых экономических отношений, например, для России.

Все это затрудняет математическую формулировку критериев развития экономических систем. И выход здесь может быть только один – разумное сочетание формальных (описываемых количественно) и неформальных (качественных) методов принятия решений с учетом специфики моделируемых экономических систем.

К моделированию системы можно подойти с трех сторон:

- построение функциональной модели (функциональное описание системы);

- построение структурной модели (морфологическое описание системы);

- построение информационной модели (информационное описание системы).

3.2.3 Функциональная модель системы

Функциональная модель системы отвечает на вопрос "что она делает?". Эта модель дает исследователю информацию о том, какое место занимает данная система по отношению к другим системам окружающего мира. Функции системы проявляются в ее поведении. Выделяя систему из окружающего мира, мы устанавливаем границы между изучаемой системой и внешней средой. При этом внешняя среда воздействует на систему через входы системы, а система воздействует на внешнюю среду через свои выходы.

Пусть вектор x={x1, x2, ... , xm} описывает воздействие внешней среды на систему, а вектор y={y1, y2, ... , yn} – отклик (реакцию) системы на воздействие. Вектор s={s1, s2, ... , sk} характеризует k  различных состояний системы (рис. 3.14).

 

 

 

127-202
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


В общем случае функциональное описание рассматриваемой системы задается набором следующих элементов и связей ("восьмерка SF"):

127-202,

где

T – множество моментов времени;

xt – множество мгновенных входных воздействий;

Xt - множество допускаемых входных воздействий;

St  - множество мгновенных состояний системы;

Qt – множество внутренних состояний системы;

yt - множество мгновенных значений выходных величин;

Yt - множество допустимых значений выходных величин,

(очевидно, 127-202);

F – функциональная связь между характеристиками системы (целевая функция)

127-202

 

Пример 21. Для промышленного предприятия как сложной системы входные воздействия формируются рынком, вышестоящими органами управления, материальным обеспечением (материальными, трудовыми, финансовыми ресурсами). Внутреннее состояние обусловлено финансовым состоянием, наличием и величиной материальных запасов, показателями технического и социального состояния. Выходные параметры – потоки продуктов и услуг. Цель – обеспечить выпуск необходимой продукции, получить прибыль и т.п.

 

В зависимости от степени воздействия на внешнюю среду обычно выделяют следующие особые типы функций системы [22]:

- пассивное существование, материал для других систем (природа, обанкротившееся предприятие);

- обслуживание систем более высокого порядка (вспомогательное, подсобное производство, филиалы);

- противостояние другим системам, среде (конкуренция);

- поглощение других систем и, может быть, среды (финансовое слияние, освоение новых экономических районов).

 

Наиболее простые математические модели экономических систем – модели черного ящика, то есть исследуются зависимости состояния выходов системы от состояния входов, оставляя вне рассмотрения внутреннюю структуру системы и происходящие в ней процессы. Так что модель, изображенную на рис. 3.14, можно назвать моделью черного ящика.

Несмотря на высокую степень абстракции и обобщения, экономико-математическое исследование такой модели дает достаточный материал для анализа, а на его основе – прогнозирования основных показателей развития системы.

127-202 

 

 

 

 

 

 

 

 

 

 


В общем виде зависимость состояний выхода экономической системы от состояний входов выражается соотношением (рис. 3.15):

y=f(L,K,Q),                                                       (3.25)

где

y – общий объем продукта в стоимостном выражении;

L – трудовые ресурсы, используемые в системе (выражены в человеко-днях или в количестве среднегодовых работников);

K – основные производственные фонды, используемые в системе, в стоимостном выражении[25];

Q – используемые в системе природные ресурсы – земля, водные ресурсы, полезные ископаемые, выраженные в стоимостной оценке.

Иногда используется более простая двухфакторная зависимость

y=f(L,K).                                                           (3.26)

Основание: природные ресурсы частично приплюсовываются к производственным фондам, частично остаются за рамками модели (к тому же не все отрасли промышленности непосредственно эксплуатируют природные ресурсы в их "чистом" виде.

Зависимости вида (3.25) и (3.26) относятся к классу так называемых производственных функций.

Производственные функции – это экономико-математическая модель зависимости результативных показателей производственной деятельности от некоторых показателей-факторов.

Эти функции находят широкое применение в расчетах по оптимальному планированию и прогнозированию, в исследованиях пропорций и темпов экономического роста в анализе эффективности ресурсов производства и т.п.

 

Пример 22. Одной из первых практических работ в области изучения производственных функций было исследование обрабатывающих областей промышленности за 1899 – 1922 гг., проведенное американскими экономистами Ч.Коббом и П.Дугласом [18] .Они получили степенную функцию вида

127-202.

Эту форму (и аналогичные ей) часто называют функцией Кобба-Дугласа. Конкретные значения параметров a, b, c определяют на основе статистических данных.

 

Более подробно эти вопросы рассматриваются дисциплинами "Моделирование экономических процессов" и "Теория оптимального управления экономическими системами".

3.2.4 Структурная модель системы

Структурная модель (морфологическое описание) системы отвечает на вопрос "из чего она состоит?". Эта модель дает исследователю представление о строении системы, характере связей, способе связей между элементами системы и о связи определенных элементов с окружающей средой (входы и выходы системы).

Элементный состав может быть гетерогенным (содержать разнотипные элементы), гомогенным (содержать однотипные элементы) и смешанным.

Связи могут быть нейтральные, прямые (рис. 3.16а) и обратные (рис.3.16б), как положительные, и так и отрицательные.

 

127-202
127-202
 

 

 

 

 

 

 

 

 

 

 

 

 

 


Нейтральные связи не связаны с функциональной деятельностью системы, непредсказуемы или случайны.

 

 

 

 

127-202 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Все структурные модели имеют нечто общее, и это позволяет рассматривать их как особый объект математических исследований, абстрагируясь от их содержательной стороны. В результате получается структура, в которой обозначается только наличие элементов и связей между ними, то есть граф. Элементы системы – вершины графа, связи – дуги графа.

Наиболее часто встречающиеся типы структур приведены на              рис. 3.17.

В производственных системах часто встречается сетевой тип структуры (рис. 3.17г): вершины – производственные операции, дуги указывают на то, какие операции не могут начаться, пока не окончатся предыдущие. Длины всех дуг – длительности операций.

Структуры с обратной связью реализуются в управляемых системах.

Процесс управления можно представить как взаимодействие двух систем – управляющей и управляемой (рис. 3.16б, 3.18).

 

Пример 23. Система управления предприятием функционирует на базе информации о состоянии объекта, его входов и выходов (см. пример 19) в соответствии с поставленной целью. Управление осуществляется путем подачи управленческого воздействия 1 (рис. 3.18) (например, план выпуска готовой продукции) с учетом обратной связи – текущего состояния управляемой системы (производства) 2 и внешней среды - системой хозяйственных условий 3.

 

 

 

127-202
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Назначение управляющей системы – формировать такие воздействия на управляемую систему, которые побуждали бы последнюю принять состояние, определяемое целью управления. Применительно к промышленному предприятию с некоторой долей условности можно считать, что цель управления – это выполнение производственной программы в рамках технико-экономических ограничений. При этом управляющие воздействия – это планы работ подразделений, обратная связь – данные о ходе производства, выпуске и перемещении изделий, состоянии оборудования, запасах на складе и т.д.

Очевидно, что и планы, и содержание обратной связи – не что иное, как информация. Реализация процессов преобразования экономической информации и составляет основное содержание управленческих служб.

В целом, структурное описание системы задается следующим набором ("четверка SМ"):

                                      SM = {P, A, s, K},

где

Р = {Pi} – множество элементов и их свойств;

A = {Ai} – множество связей;

s - структура, или структурная схема;

К – композиция, или тип структуры.

Когда проведено морфологическое описание системы, модель системы уже можно назвать "прозрачным" ящиком.

 

Пример 24. Рассмотрим модель межотраслевого баланса производства и распределения продукции в какой-нибудь экономической системе со следующими допущениями:

127-202
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


1) каждая отрасль рассматривается как "черный ящик", то есть ее внутренняя структура не раскрывается;

2) каждая отрасль поставляет средства производства другим отраслям, входящим в систему, и использует часть своей продукции на собственные нужды (рис. 3.19).

Тогда связи между элементами рассматриваемой экономической системы можно описать таблицей межотраслевого баланса (в стоимостном выражении) (табл. 3.9). Каждая строка входит в баланс дважды – как производящая (в строках) и как потребляющая (в столбцах). На вход каждой отрасли поступают средства производства – как продукция других отраслей, так и часть ее собственной продукции.

 

 

Таблица 3.9 - Межотраслевой баланс

Производящие

Отрасли

Потребляющие отрасли

Конечная продукция

Валовая продукция

1

2

 

n

1

2

...

n

x11

x21

...

xn1

x12

x22

...

xn2

...

...

...

...

x1n

x2n

...

xnn

y1

y2

...

yn

X1

X2

...

Xn

Амортизация

Оплата труда

Чистый доход

Валовая продукция

A1

v1

m1

X1

A2

v2

m2

X2

...

...

...

...

An

vn

mn

Xn

 

 

 

Рассмотрим столбцы этой таблицы. Например, пусть 1–ая отрасль – производство электроэнергии, 2–ая – машиностроительная отрасль. Тогда х11 – стоимость электроэнергии, израсходованной внутри 1–ой отрасли для собственных нужд, х21 –затраты машиностроительной отрасли в производстве электроэнергии и т.д.

В затраты отрасли входит также амортизация А1, соответствующая годовому потреблению (износу) основных средств; все виды оплаты труда в отрасли v1; сумма прибыли m1. Итог – валовой продукт отрасли:

127-202              (3.27)

Теперь рассмотрим строки. x11 – уже определено, x12 – стоимость электроэнергии, израсходованной в угольной промышленности и т.д., y1 – затраты электроэнергии вне рассматриваемой экономической системы (для целей конечного потребления – личного или общественного).

Суммирование по строкам должно привести к тому же итогу, что и в первом столбце, так как речь идет о всей произведенной за отчетный период электроэнергии в стоимостном выражении:

127-202                                   (3.28)

Связи между элементами рассматриваемой экономической системы в виде уравнений (3.27) и (3.28) представляют собой основу математической модели системы как части структурной модели.

После того, как проведено уточнение функционального и морфологического описания системы, дается ее информационное описание – строится информационная модель.

3.2.5 Информационная модель системы

Информационная модель – это информационное отражение двух предыдущих видов описания. Информационная модель описывает информационные процессы (возникновение, передачу, преобразование, хранение, защиту и использование информации) в системах, а именно:

1) получение информации от всех элементов системы и от внешней среды об их воздействиях на систему в целом;

2) установление наиболее эффективных параметров функционирования всех элементов системы;

3) накопление и хранение основного массива данных;

4) выработку исходящей информации о деятельности всех элементов системы, системы в целом, а также системы управления;

5) защиту внутренней информации от несанкционированного доступа.

Например, в первом разделе уже отмечалось то многообразие экономической информации, которое необходимо для управления трудовыми, финансовыми и материальными ресурсами любого предприятия, фирмы, учреждения. Эта, и любая другая информация, циркулирующая в системе, представляются в виде информационных объектов.

Информационные объекты - это некоторые абстракции реального мира, некоторые "сущности" предметов реального мира, связанных с решаемой задачей.

Информационный объект определяется рядом качественных и количественных характеристик, которые представляются соответствующими реквизитами – признаками и реквизитами - основаниями. Реквизит - признак содержит качественную характеристику сущности, позволяющую выделить (идентифицировать) объект из множества различных объектов. Реквизит-основание содержит количественную характеристику объекта, определяющую его состояние. Примерами информационных объектов могут быть совокупности реквизитов, отражающих характеристики товаров, материалов, подразделений рассматриваемого предприятия, поставщиков, заказчиков, технологических операций и т.п.

Кроме описания информационных объектов, в информационной модели описываются все структурные и функциональные связи, существующие в системе. Это описание, как минимум, должно включать идентификатор связи, формулировку сущности связи, вид связи (ее множественность и условность), способ описания связи

Совокупность информационных объектов (или "сущностей") и связей между ними образует предметную область задачи, которая и отражается информационной моделью.

Дальнейшее развитие представлений информационного моделирования связано с развитием понятий информационного объекта и структуры связей. Теоретические и практические вопросы разработки информационных моделей рассматриваются дисциплиной "Базы данных".

3.2.6 Современные тенденции в области

        моделирования экономических систем

Среди большого количества сформировавшихся в последнее время тенденций в области моделирования информационных систем наиболее значимой стала тенденция роста интереса к информатизации деловой и управляющей сферам экономики. Условия, побуждающие корпорации идти на информатизацию и, более того, на реорганизацию своей деловой деятельности, - это:

- жесткая конкурентная борьба;

- сокращение жизненного цикла продуктов;

- усложнение системы обеспечения производства;

- необходимость внедрения эффективно и рационально действующей структуры управления;

- лавинообразный рост объемов информации, сопутствующей деятельности корпорации и требующей оперативной обработки и анализа.

Методология и технология реорганизации стратегии деятельности и информационной структуры корпорации получила название реинжиниринг бизнес-процессов (BPR – Business Process Reengineering).

В результате создается корпоративная информационная система – совокупность средств, методов и ресурсов (в том числе и людских), используемых для автоматизации работы крупных предприятий и организаций.

Современная методология реинжиниринга включает шесть следующих этапов [23]:

1) определение целей и задач реинжиниринга;

2) разработка бизнес-модели корпорации;

3) реконструкция деловых процессов корпорации на уровне функционирования персонала (виды работ, система мотивации, поддержка качества, переподготовка и обучение и т.д.);

4) реконструкция деловых процессов, включающая внедрение более эффективных рабочих процедур и определение способов использования информационных технологий;

5) разработка информационных систем, поддерживающих внедряемые корпорацией информационные технологии;

6) реализация и внедрение новой информационной технологии и переход к новой организации деятельности корпорации.

Наиболее распространенный подход к проекту реинжиниринга заключается в проведении моделирования деловых процессов. Помощь в этом оказывают различные пакеты прикладных программ финансово-экономического планирования [24].

 

Пример 25. Приведем два примера таких финансово-аналитических систем: пакеты Project Expert 5 Professional компании ПроИнвестКонсалтинг (Россия) и Workflow-BPR компании IBM (США).

Пакеты позволяют детально описать и смоделировать деятельность любого предприятия независимо от формы собственности с учетом изменения параметров внешней среды (инфляция, налоги, курсы валют, темпы продажи), помогут разработать план развития предприятия, реализации инвестиционного проекта или стратегии маркетинга и производства, а также просчитать прогнозы поведения предприятия на рынке с пессимистичной и оптимистичной точек зрения.

Если прогнозы оказываются неблагоприятными, существует возможность перепроектировать процессы на предприятии, то есть провести реинжиниринг.

 

Но для разработки и реализации корпоративных информационных систем требуются более мощные программные комплексы. Такие программные системы, предназначенные для автоматизации всего технологического процесса анализа, проектирования, разработки и сопровождения сложных информационных систем, называются CASE – технологиями (Computer-Aided System Engineering).

 

Пример 26. Примером такой CASE – технологии может служить Designer/2000 компании Oracle. В соответствии с общей архитектурой этого комплекса выделяются четыре этапа разработки корпоративной информационной системы:

- моделирование и анализ деловой деятельности;

- разработка моделей предметной области информационной системы;

- проектирование прикладной информационной системы;

- реализация.

Первый этап связан с моделированием и анализом процессов, описывающих деятельность предприятия. Цель – создание моделей существующих технологических процессов и способов коммуникации, выявление их недостатков и возможных источников усовершенствования. Общая модель деловой деятельности представляется в виде совокупности диаграмм, каждая из которых описывает отдельный процесс в виде разбиения его на взаимосвязанные друг с другом шаги или подпроцессы.

На втором этапе разрабатываются детальные функциональная, структурная и информационная модели, отражающие особенности решаемых задач, структуру и общие закономерности предметной области, информационные потребности и ресурсы, технологические ограничения и т.д., и описывающие информационные объекты и связи между ними.

На третьем этапе вырабатываются технические спецификации будущей системы – определяется структура и состав базы данных, специфицируется набор программных модулей.

На четвертом этапе создаются программы, отвечающие всем требованиям проектных спецификаций. Использование генераторов приложений, входящих в состав Designer/2000, позволяет полностью автоматизировать этот этап, существенно сократить сроки разработки системы и повысить ее качество и надежность.

 

Таким образом, с развитием процесса реинжиниринга пересматривается цель внедрения информационных моделей и технологий в экономике. Если раньше эта цель состояла в повышении производительности труда, экономии финансов, подготовке более обоснованных решений и относилась к способам достижения тактических краткосрочных преимуществ, то теперь, кроме этих, преследуются и стратегические цели. В первую очередь, это поддержка менеджмента по реагированию на динамику рынка, созданию и углублению конкурентных преимуществ предприятия.

И, как обратная связь, одним из результатов подобного смещения целевых установок стало появление нового направления – стратегического планирования информационных технологий. Оно призвано поддержать "наложение" стратегии бизнеса на планирование информационных технологий, рассматривая ее как последовательность целенаправленных и скоординированных действий, позволяющих использовать информационно-технологические ресурсы для создания и поддержания устойчивого конкурентного превосходства всего предприятия.

Контрольные вопросы по третьему разделу

1. Дайте определения количества информации.

2. Когда понятия энтропии и количества информации полностью совпадают?

3. Сформулируйте свойства энтропии дискретных сообщений.

4. В чем состоит процедура Шеннона-Фано?

5. Как, исходя из теоремы кодирования Шеннона, добиться безызбыточного кодирования?

6. В чем заключается естественная избыточность языков человека?

7. Для чего вносят искусственную избыточность в кодирование информации?

8. Каким образом решают проблему помехоустойчивости кода?

9. Для чего необходимо дискретное представление непрерывного сигнала?

10. В чем суть теоремы отсчетов?

11. Сформулируйте свойства энтропии непрерывных сообщений.

12. Что такое пропускная способность канала связи?

13. Какие существуют способы оценки полезности информации?

14. В чем причины изменения ценности информации?

15. Что такое модель? Приведите примеры моделей экономических систем.

16. Сформулируйте выгоду моделирования в экономике. А какие при этом существуют проблемы?

17. В чем состоит методология системного анализа?

18. Дайте определение эмерджентности как свойства сложных систем.

19. Какова цель функционального описания системы?

20. Какова цель структурного описания системы?

21. Какова цель информационного описания системы?

22. В чем заключаются современные тенденции в области моделирования информационных систем?

 

 

Задача 1. Доказать, что:

а) энтропия 127-202;

б) максимум энтропии дискретных сообщений достигается при их равновероятности.

 

Задача 2. Пусть дан следующий код, удовлетворяющий условию Фано:

 

О

К

Н

Д

Й

М

Ы

Э

00

01

100

101

1100

1101

1110

1111

 

1) построить соответствующее кодовое дерево;

2) расшифровать текст:

11110100100001101100111011000100101

 

Задача 3. Задан ансамбль сообщений X = {x1 , x2 , ... , x8}.

1) Найти энтропию при условии равновероятности сообщений.

2) Найти энтропию при условии разной вероятности сообщений (см. таблицу), предварительно определив недостающую вероятность.

 

xi

x1

x2

x3

x4

x5

x6

x7

x8

pi

0,19

0,16

0,16

0,15

0,12

0,11

0,09

?

 

3) С помощью процедуры Шеннона-Фано закодировать сообщения. Определить среднюю длину кодового слова и избыточность кода.

 

Задача 4.  Записать 16 - ти разрядный двоичный код для чисел:

–2000; 1000.

 

Задача 5.  Найти закон распределения плотности вероятности непрерывной случайной величины х Î [0, µ), обеспечивающий максимум относительной энтропии при заданном математическом ожидании А:

                                      127-202.

 

Задача 6.  Исходя из вероятности появления букв в русском алфавите, придумайте свою оптимальную "азбуку Морзе", закодировав пробел и буквы (всего 32 символа) последовательностью точек и тире.

 

ЛИТЕРАТУРА

 

1. Экономическая информатика. Учебник для вузов / Под ред. В.В. Евдокимова. – СПб.: Питер, 1997. - 592 с.

2. Хершиков В.И., Савинков В.М.  Толковый словарь по информатике. –М.: Финансы и статистика, 1995. – 544 с.

3. Абдеев Р.Ф. Философия информационной цивилизации. Учебное пособие. - М.: ВЛАДОС, 1994. – 336 с.

4. Бешенков С.А., Лыскова В.Ю., Ракитина Е.А. Информация и информационные процессы // Информатика и образование, 1998. - №8. – С.39-50

5. Петров С.Т. На пути к информационному государству // Информационное общество. – 1999. - №4. – С.64-67.

6. Заболотский В.П., Юсупов Р.М. Проблемы информатизации общества // Проблемы информатизации. –1994. – № 1-2. – С. 29-33.

7. Технологии: история (цикл статей)// Computerworld Россия. – 1999 г (сентябрь) – 2000 г (апрель).

8. Аппаратные средства РС. Изд. 2-е./ Айден К, Колесниченко О., Крамер М. и др. – СПб.: ВНV – СПб, 1998. – 608 с.

9. Фигурнов В.Э. IBM PC для пользователя. Изд. 7-е, перераб. и доп. – М.: ИНФРА-М, 1997. – 640 с.

10. Богумирский Б. Эффективная работа на IBM PC в среде Windows 95. – СПб.: Питер, 1998. – 1120 с.

11. Бауэр Ф.Л., Гооз Г. Информатика. Вводный курс. В 2-х частях. - М.: Мир, 1990

12. Кузин Л.Т. Основы кибернетики. Т.1. Математические основы кибернетики. - М.:Энергия, 1973. – 504 с.

13. Куликовский Л.Ф., Мотов В.В. Теоретические основы информационных процессов. - М.: Высшая школа, 1987. – 248 с.

14. Общероссийский классификатор видов экономической деятельности, продукции и услуг. В 2 х тт. - М.: Приор, 1997.

15. Общероссийский классификатор основных фондов. - М.: ИНФРА-М, 1996. – 425 с.

16. Глушков И.Е. Бухгалтерский учет на современном предприятии. - Новосибирск: ЭКОР, 1996. - 670 с.

17. Перегудов Ф.И., Тарасенко Ф.П. Основы системного анализа. - Томск: НТЛ, 1997.- 396 с.

18. Терехов Л.Л. Кибернетика для экономистов. - М.: Финансы и статистика, 1983. – 191 с.

19. Куликова Л. Ф., Морозов В. К., Жиров В. Г. Элементы теории информационных процессов. - Куйбышев: Изд-во КАИ, 1979. – 42 с.

20. Горский Ю. М. Системно-информационный анализ процессов управления. - Новосибирск: Наука. Сиб. отд-ние, 1988. – 327 с.

21. Петров А.А. Экономика. Модели. Вычислительный эксперимент. - М.: Наука, 1996. – 251 с.

22. Семенов Г.В. Лекции по экономической кибернетике. - Казань: Изд-во КГУ, 1990. – 104 с.

23. Штрик А.А. Корпоративные информационные системы// Информационные технологии. - 1998. - №2. - С. 30-35.

24. Гудым Д. Направление на анализ //Инфобизнес. - 1998. - №7. - С. 26-29.


[1] Увы, но поезд, который сходит с рельсов, заведомо имеет большую информационную ценность, чем поезд, прибывающий по расписанию. С другой стороны, тот факт, что зло все еще имеет более высокую информационную ценность, чем добро, - неплохой признак. Он доказывает, что добро по-прежнему является правилом, а зло, напротив, исключением [11].

[2] ld - logarithmus dualis; ld(x) º log2(x)

[3] Величайшее литературное произведение - в принципе не что иное, как разбросанный в беспорядке алфавит. Жан Кокто.

[4] Глушков В.М. О кибернетике как науке// Кибернетика, мышление, жизнь. М.: 1964

[5] В английском языке, где 26 букв и 1 пробел (m = 27), Н0 = 4.72; Н1 =4.0; Н2 = 3.3; H3=3,08.

 

[6] Формат MPEG (Moving Picture Expert Group) – стандарт сжатия видеоизображения при его считывании: MPEG-1 – 1,2...1,5 Мбит/с; MPEG-2  – 7...8 Мбит /с

[7] Порядок задается со смещением, равным 12810 = 2008.

[8] Например, эта книжечка, которую вы держите в руках, в электронном виде занимает (вместе с иллюстрациями) около 3,2 Мбайт.

[9] Кроме нее в России используется еще несколько систем кодировок, например, КОИ-8. Общее у них то, что латинские буквы, цифры, знаки препинания, некоторые специальные знаки кодируются одинаково, как в ASCII.

[10] Иерархический метод классификации – многоуровневый метод; устанавливает между классификационными группировками подчиненные отношения с последовательной детализацией их свойств.

[11] Фасетный метод классификации – одноуровневый метод; основан на разбиении исходного множества объектов на независимые подмножества в соответствии со значениями каких-либо признаков.

[12] В активных счетах дебет означает увеличение учитываемых сумм, а в пассивных – уменьшение. Кредит – наоборот.

 

[13] Напомним, что условная вероятность р(А|В)– это характеристика связи двух событий: вероятность наступления события А при условии осуществления события В

[14] Плотностью вероятности, или плотностью распределения вероятностей случайной величины х называется предел отношения вероятности попадания величины х в интервал (х-Dх/2, х+Dх/2) к Dх при Dх ® 0.

[15] Для записи энтропии непрерывных сигналов обычно используется натуральный логарифм. Единица измерения информации при этом называется «нит».

[16] Экстремум функции f(x1…xn) с заданными ограничениями j1(x1…xn) = 0;j2(x1…xn) = 0;…,jm(x1…xn) = 0 с необходимостью находится из решения системы уравнений , где . Коэффициенты lj называются множителями Лагранжа.

 

[17] При передаче дискретных сообщений, (т.е. при работе дискретного канала связи) за единицу времени принимают время передачи одного символа

[18] С другой стороны, можно рассмотреть предел, к которому стремится шенноновская пропускная способность С при стремлении мощности полезного сигнала к бесконечности. Оказалось, все каналы связи можно разбить на два класса: каналы первого рода, для которых указанный предел бесконечен, и каналы второго рода, имеющие конечную пропускную способность даже при бесконечной мощности передатчика. Этот предел называется собственной пропускной способностью.

[19] Бел – десятичный логарифм отношения значений двух одноименных физических величин. Обычно используется для сопоставления мощности, энергии и других энергетических величин.

[20] Вартаньян Э.А. Путешествие в слово. - М.: Просвещение, 1987. – 208 с.

[21] Заде Лотфи. Понятие лингвистической переменной и его применение к принятию приближенных решений .- М: Мир, 1976. – 165 с.

[22] Экономические аспекты информации и информатизации в целом рассматриваются дисциплиной  "Экономика информатики"

[23] Элементы игрового моделирования социальных и экономических процессов широко используются, например, в различных стратегических играх (Civilization, Colonization, Age of Empires, SimCity2000 и др.)

[24] С греческого: целое, составленное из частей, соединение

[25] Здесь вроде бы скрывается противоречие, ведь эти ресурсы создаются и воспроизводятся внутри экономической системы. Но они функционируют в своей натуральной форме в течение длительного времени, постепенно перенося свою стоимость на продукт труда. И если рассматривать деятельность экономической системы за ограниченный отрезок времени (например, год), то окажется, что основная часть используемых в этом году основных фондов была создана в предшествующие годы, то есть они поступили в систему как бы "извне" и поэтому могут быть отнесены к входам системы.

Наверх страницы

Внимание! Не забудьте ознакомиться с остальными документами данного пользователя!

Соседние файлы в текущем каталоге:

На сайте уже 21970 файлов общим размером 9.9 ГБ.

Наш сайт представляет собой Сервис, где студенты самых различных специальностей могут делиться своей учебой. Для удобства организован онлайн просмотр содержимого самых разных форматов файлов с возможностью их скачивания. У нас можно найти курсовые и лабораторные работы, дипломные работы и диссертации, лекции и шпаргалки, учебники, чертежи, инструкции, пособия и методички - можно найти любые учебные материалы. Наш полезный сервис предназначен прежде всего для помощи студентам в учёбе, ведь разобраться с любым предметом всегда быстрее когда можно посмотреть примеры, ознакомится более углубленно по той или иной теме. Все материалы на сайте представлены для ознакомления и загружены самими пользователями. Учитесь с нами, учитесь на пятерки и становитесь самыми грамотными специалистами своей профессии.

Не нашли нужный документ? Воспользуйтесь поиском по содержимому всех файлов сайта:



Каждый день, проснувшись по утру, заходи на obmendoc.ru

Товарищ, не ленись - делись файлами и новому учись!

Яндекс.Метрика