Качественная оценка информации. Критерии оценки информации

02.04.2019

Оценка количества информации очень не простая вещь, так как она зависит от многих факторов, зачастую трудно формализуемых. Одни и те же сведения для разных людей могут нести совершенно разное количество информации. То, что одному давно известно, для другого может быть совершенно новым. Простая концентрация внимания позволяет получать больше информации.

Существуют разные аспекты оценки количества информации .

Возможна оценка информации по смысловому содержанию (ценности). При этом, естественно, надо определить критерий ценности. Например, для измерения смыслового содержания информации можно использовать тезаурусную меру , отражающую способность получателя информации воспринимать поступающее сообщение . Тогда количество получаемой информации есть некоторая функция J=f(S * ,S п), где S * - смысловое содержание информации в сообщении, S п - тезаурус пользователя, измеряемый количеством информации им воспринимаемой.

Если информация используется для управления решением некоторой задачи, то ценность информации можно оценить по разности эффекта, например экономического, без учета и с учетом информации в поступившем сообщении.

Впервые основательно исследовали вопросы оценки количества информации Р.Хартли и К.Э.Шеннон.

Допустим, что в школе восемь классов (1, 2, …, 8) и нам надо узнать, в каком учится Саша Иванов, задавая вопросы о номере класса и получая ответы типа «да» или «нет». Нетрудно показать, что минимальное число вопросов равно трем. Например, сначала можно спросить: номер класс больше 4? При ответе «нет», надо спросить: номер класса больше 2? После ответа достаточно задать еще один вопрос и задача будет решена. Можно предложить оценить объем информации о номере класса, в котором учится Саша Иванов, по минимальному числу заданных вопросов. В данном случае получим значение 3.

Подобную идею использовал американский инженер Р. Хартли, который в 1928 году предложил оценивать количество информации по формуле

где J – количество информации в одном из N равновероятных сообщений. Нетрудно заметить, что при подстановке в формулу Хартли N=8 (N - число классов) мы получим значение 3. Фактически в данном случае количество информации равно числу бит, необходимых для кодирования двоичным числом максимального номера класса (т.е. значения N).

При работе с информационными системами часто получаемая информация измеряется по объему памяти ЭВМ, необходимой для ее хранения. В этом случае находит применение формула Хартли.

Более общую и строгую теорию количественной оценки информации дал американский ученый Клод Элвуд Шеннон в 1948 г.

Он предложил оценивать количество информации числовой характеристикой, отражающей ту ступень неопределенности (неполноту знаний), которая исчезает после получения сообщения. Меру неопределенности, которая снижается при передаче информации, Шеннон предложил называть энтропией (этот термин первоначально появился в термодинамике; в статистической физике энтропия рассматривается в качестве меры вероятности пребывания системы в данном состоянии). Очевидно, количество информации зависит от вероятности получения сообщения о том или ином событии. Так, если бы мы знали возраст Саши Иванова, то вполне возможно потребовалось бы меньше вопросов для определения класса.

Если в результате получения сообщения достигается полная ясность об объекте, то энтропия становится равной нулю.

Допустим, передается сообщение со сведениями о некоторой системе Х . Пусть неопределенность знаний получателя о системе Х (до получения сообщения) определяется энтропией Н(Х ). После получения сообщения энтропия стала Н * (Х ). Количество полученной при этом информации J(X ) = H(X ) – Н * (Х ). Если же после получения сообщения достигнута полная ясность о системе Х , то Н*(Х ) = 0 и, соответственно, J(X ) = H(X ).

Передачу дискретных сообщений всегда можно свести к передаче соответствующих чисел. Даже если информация отражает качественно разные состояния (явления), то, пронумеровав их, можно передачу сообщений свести к передаче соответствующих чисел. Так, при передаче текста можно пронумеровать буквы алфавита и передавать числа. Любая информация, находящаяся в памяти компьютера, также представляет собой набор двоичных чисел.

При выводе формул для оценки количества информации и меры неопределенности Шеннон исходил из следующих соображений.

Пусть источник дискретных сообщений выдает последовательность элементарных сообщений-чисел {х 1 , х 2 , … ,х m }, каждое из которых соответствует одному из возможных состояний системы Х . Тогда совокупность этих элементарных сообщений можно назвать алфавитом, а число m – объемом алфавита. При передаче текста элементарное сообщение – это буква обычного алфавита; при передаче команд - алфавитом будет перечень возможных команд; при передаче сообщения о состоянии системы – перечень возможных состояний системы и т.п.

Допустим, что при получении символа х i однозначно определяется состояние источника сообщения (системы Х) в момент передачи. Чем меньше вероятность P i состояния x i , тем больше информации мы получим при приеме символа x i (S P i = 1, P i £ 1). Если ранее уже было известно состояние источника, то получение символа x i не дает никакой дополнительной информации (т.е. полученная информация равна нулю). Иными словами, количество информации, которую несет символ x i должно быть функцией от априорной (уже имеющейся до передачи) информации о вероятности P i того, что источник в момент его передачи находился в состоянии х i .

Изменение энтропии при получении символа х i К. Шеннон предложил вычислять по формуле

J(х i) = - К 0 ×log а P i ,

где коэффициент К 0 и основание логарифма (а) определяют единицу измерения количества информации. Чтобы энтропия была положительной, перед формулой проставлен знак «-» (логарифм отрицателен для чисел <1).

В общем случае символы имеют разную вероятность. Тогда теория вероятностей предлагает для оценок использовать усредненное значение, которое определяется как сумма произведений значений отдельных параметров на их вероятность. Поэтому итоговая формула К. Шеннона для энтропии источника сообщений имеет вид

H(Х) = - К 0 åP i log а P i .

Если принять все состояния системы Х равновероятными (т.е. Р i = 1/m), то энтропия m

H(Х) = - К 0 å[(1/m)∙log а 1/m] = К 0 log а m.

Нетрудно показать, что в формуле Шеннона всегда величина Н(Х) £ log а m. Она равна log a m только в том случае, когда все вероятности P i одинаковы (т.е. P i =1/m). С точки зрения теории вероятностей последнее утверждение объясняется тем, что знание вероятностей дает нам некоторые дополнительные априорные знания об информации, получаемой с символом. Незнание вероятностей заставляет нас предположить, что все символы равновероятны, т.е. максимальная энтропия (максимальное незнание) имеет место при P i =1/m.

Формулы для оценки количества информации и энтропии вводились аксиоматически в предположении следующих допущений:

1) энтропия Н непрерывна относительно своих аргументов;

2) при P i = 1 значение J(х i) = 0;

3) если все события равновероятны, то энтропия максимальна и определяется по формуле H макс = log n, где n – число возможных исходов (событий);

4) если выбор распадается на два последовательных этапа, то исходное значение энтропии H будет взвешенной суммой отдельных значений. Это означает, что при последовательной передаче символов х i и х k количество информации, вносимое этой парой символов, равно сумме количеств информации, вносимой х i и добавляемой х k .

Примем за единицу количество информации, содержащееся в сообщении о том, что произошло одно из двух равновероятных независимых событий. Тогда, очевидно, P i = ½ (i=1, 2) и достаточно одного сообщения, чтобы иметь полную информацию о состоянии объекта. Причем при поступлении сообщения x i энтропия станет равной нулю, т.е. количество поступившей информации J(x i) = H(X).

Будем считать, что при представленных выше условиях поступившее сообщение приносит единицу информации. Тогда J(x i) = H(X) = - К 0 ∙(½× log a ½ + ½× log a ½)= К 0 ∙log а 2 = 1. Вышеприведенное равенство выполняется при а=2 и К 0 =1. Если же система будет иметь m равновероятных состояний, то получим J(X) = log 2 m = Н макс. Последний частный результат есть не что иное, как формула Р. Хартли.

Формула J=log 2 m фактически позволяет оценить максимально возможное количество информации, полученной при передаче одного символа (одного сообщения).

Если известна энтропия H max и от источника сообщений получено N символов, то максимально возможное количество информации, переданное с сообщениями, равно N×H max .

При передаче цифровой информации в качестве единицы измерения энтропии используют двоичную единицу – бит .

Пусть с помощь двоичного кода передаются буквы алфавита, содержащего n = 32 символов, и при приеме сообщения мы однозначно определяем букву. Если вероятности появления символов одинаковы, то максимум энтропии при передаче-приеме одного символа

H max = log 2 32 = 5 (бит).

Эта средняя информация на символ получена в предположении «абсолютно хаотического текста», когда порядок следования букв при передаче независим.

Допустим, в алфавите из А символов пересылаются сообщения в виде слов длиной L (обычно данные пересылаются с помощью равномерных цифровых кодов, т.е. кодов одинаковой длины). При этом возможно N = A L разных слов. Тогда при передаче одного слова получатель будет иметь информацию в объеме

J = log 2 N = L log 2 A (бит).

Если вероятности появления двоичных символов различны, то среднее изменение энтропии при получении одного символа:

H ср = -(P 1 log P 1 + P 2 log P 2 + … + P m log P m) = -å P i log а P i .

При этом энтропия на один символ H ср £ H max . Разность (H max – H ср) называют избыточной информацией, а величину R = 1–H ср /H max -коэффициентомизбыточности . Фактически избыточность показывает, на сколько удлиняется сообщение из символов данного алфавита по сравнению с минимально возможной длиной. Например, для нормальной русской речи H ср = 1,5 бит. Следовательно, источник сообщений на основе русского алфавита имеет коэффициент избыточности

R ≈1–1,5/5 = 0,7.

Заметим, что в общем случае для обеспечения достоверной передачи данных по каналам связи избыточность необходима, так как в процессе передачи сообщения могут искажаться. Наличие избыточности позволяет даже при наличии искажений понимать смысл сообщения.

В жизни очень часто последующая информация зависит от предыдущей, т.е. существует определенная вероятность появления символа x k после символа x i . Тогда при получении очередной буквы некоторого текста возможно предугадать последующие.

Рассмотрим определение энтропии в случае, если символы имеют не только разные вероятности P(x i), но и зависят один от другого. Обозначим P(x k /x i) условную вероятность появления символа x k , если предшествующим был х i . Тогда количество информации, получаемой с символом х i , определится как условная энтропия

J(x k /x i) = -S.

В общем случае символы имеют разную вероятность. Тогда, среднее количество информации или энтропия источника с взаимозависимыми и неравновероятными символами, равно

H(X) = -S P(x i) ×S.

Наконец, для равновероятных, но взаимозависимых символов получим

H(Х) = - 1 / m S ×S.

Энтропия источника и объем информации, получаемой с одним символом, достигает максимума, если символы независимы и равновероятны.

При передаче данных на канал связи воздействуют помехи. Под их воздействием символ x i может измениться на ложный символ x j . Обозначим вероятность такой замены через P(x i / x j), а энтропию ложных символов – H(X/X*).

Тогда количество получаемой информации с учетом ошибок передачи определяется формулой

J(X/X*) =H(X) – H(X/X*).

Значение H(X/X*) определяется по аналогии с источником сообщений, выдающего взаимозависимые и неравновероятные символы.

При сильных помехах вероятность ошибки, определяемая переходными вероятностями P(x i / x j), может достигать значений Р ош = 0,5 , что равнозначно обрыву канала.

Выше рассматривались формулы вычисления количества информации для случая, когда идет передача сообщений в дискретной форме. Существуют особые формулы для источников непрерывных сообщений, которые характеризуются тем, что в каждый момент времени t сообщение x(t) может принимать бесконечное множество значений с бесконечно малой вероятностью каждого из них.

Надо сказать, что количественная оценка информации до сих пор до конца не решенная проблема, хотя уже имеющиеся способы широко применяются для оценки пропускной способности сетей передачи данных, вычислительных сетей, оценке помехозащищенности сетей связи, расчете характеристик баз данных и методов кодирования, и т.д.

Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической.

Синтаксическая адекватность . Она отображает формально-структурные характеристики информации и не затрагивает ее смыслового содержания. Эта форма способствует восприятию внешних структурных характеристик, т.е. синтаксической стороны информации.
Семантическая (смысловая) адекватность . Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации.
Прагматическая (потребительская) адекватность . Она отражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Эта форма адекватности непосредственно связана с практическим использованием информации, с соответствием ее целевой функции деятельности системы.

Качество информации определяется такими показателями, как:

репрезентативность,
содержательность,
достаточность,
доступность,
актуальность,
своевременность,
точность,
достоверность,
устойчивость.

Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта.
Важнейшее значение здесь имеют:

правильность концепции, на базе которой сформулировано исходное понятие;
обоснованность отбора существенных признаков и связей отображаемого явления.

Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям.
Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных.

С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для получения одних и тех же сведений требуется преобразовать меньший объем данных.

Наряду с коэффициентом содержательности С, отражающим семантический аспект, можно использовать и коэффициент информативности, характеризующийся отношением
Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного решения состав (набор показателей). Понятие полноты информации связано с ее смысловым содержанием (семантикой) и праг-матикой. Как неполная, т.е. недостаточная для принятия правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений.

Доступность информации восприятию пользователя обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе информация преобразовывается к доступной и удобной для восприятия пользователя форме. Это достигается, в частности, и путем согласования ее семантической формы с тезаурусом пользователя.

Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации.

Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного с временем решения поставленной задачи.

Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Для информации, отображаемой цифровым кодом, известны четыре классификационных понятия точности:

формальная точность, измеряемая значением единицы младшего разряда числа;
реальная точность, определяемая значением единицы последнего разряда числа, верность которого гарантируется;
максимальная точность, которую можно получить в конкретных условиях функционирования системы;
необходимая точность, определяемая функциональным назначением показателя.

Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности.
Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования.

В заключение следует отметить, что такие параметры качества информации, как репрезентативность, содержательность, достаточность, доступность, устойчивость, целиком определяются на методическом уровне разработки информационных систем .

Параметры актуальности, своевременности, точности и достоверности обусловливаются в большей степени также на методическом уровне, однако на их величину существенно влияет и характер функционирования системы, в первую очередь ее надежность .

При этом параметры актуальности и точности жестко связаны соответственно с параметрами своевременности и достоверности .

Для того чтобы в дальнейшем достаточно эффективно работать с информацией (использовать ее), нужно на начальном этапе понять достаточно простые вещи: полезна для вас изложенная информация или нет, можно ли ей доверять, требуется ли дополнительная информация и т.п. Так вот, процесс и есть не что иное, как оценка поступившей к вам информации.

Критерии оценки информации - (важность, точность, значимость)

По каждому эпизоду (текстовому блоку, сообщению и т.п.) необходимо принять решение о нужности, хранении и дальнейшем использовании. Собирать всю окружающую информацию, прямо скажем, весьма затруднительно: для этого требуются колоссальные ресурсы.

Сам процесс выбраковки должен иметь четкие критерии. Для принятия решения о нужности информации осуществляется первичная ее оценка. Критерии первичной оценки должны быть немного загрублены для исключения потери важной информации, но незначительно, иначе поток превратится в неконтролируемый. Минимальный набор критериев для первичной оценки - это один признак - релевантность данной информации нашим . Иначе говоря, если информация хоть как-то касается нашей темы ил потенциально может помочь в работе над нашим проектом, значит, она представляет для нас интерес. Значит, мы ее оставляем у себя и пускаем в дальнейшую работу.

Результатом такой оценки информации должен стать вывод о ее релевантности нашей проблеме.

Ранее мы обсудили свойства информации, которые по своей сути и есть критерии ее оценки:
объективность - субъективность
достоверность - недостоверность
Полнота - неполнота
Актуальность - неактуальность
Ценность - бесполезность
Понятность - непонятность

Это академический подход. На практике обычно поступают следующим образом. Изначально поступившую информацию оценивают с точки зрения релевантности. Если информация релевантна - вопрос в ее достоверности. Затем - в ее актуальности. А после этого при необходимости осуществляется оценка по иным критериям. Часто для ускорения процесса оценки используют упрощенный набор критериев. Кроме того, в зависимости от задачи меняется важность того или иного свойства информации вплоть до полного отказа от какого то свойства. Также практикуется объединение нескольких свойств в один синтетический параметр. Например, объективность и достоверность, или полнота и ценность. Либо для оценки используют одно свойство. Так можно поступать при первичном сборе информации по ранее неизвестой проблеме. Собирается все - главное, чтобы информация как-то помогала в понимании проблемы.

Критерии упрощенной оценки информации
РЕЛЕВАНТНОСТЬ информации - наличие связи с проблемой (соответствие нашим интересам) и способность информации внести вклад в процесс понимания проблемы. Иными словами, необходимо сопоставить данную информацию с вашими информационными потребностями и ответить на вопрос: сможет ли помочь она вам чем-то сейчас или в ближайшем будущем? Если да - переходите к следующему этапу, если нет - в корзину (если только она вам не пригодится в другом деле).

ДОСТОВЕРНОСТЬ информации - насколько представленное описание соответствует действительности. Можно ли верить информации или требуется дополнительное исследование, или нельзя доверять в принципе.

ЗНАЧИМОСТЬ информации:
- понимание самой информации,
- полнота освещения предмета интереса,
- своевременность информации и ее достаточность для принятия решения.

Принятие решения о релевантности информации некой проблеме осуществляется по нескольким признакам. Первый признак - это наличие явного указания на сферу интересов. Такое указание выявляется через наличие ключевых слов (названий, имен, дат, специфических терминов и т.п.). Второй признак более сложен, это наличие косвенного, смыслового указания. Здесь прямо назвать признаки не получится - в каждой ситуации они свои.

Второй критерий - это достоверность. Она проверяется по следующим параметрам:
- наличие подтверждения из других источников;
- стыкование с другой информацией;
- знание источника и его ;
- авторитет или длительная положительная история работы с источником;
- свойства канала передачи информации.

Как видно, важнейшее место здесь занимает знание об источнике информации. Поэтому важно вести работу по изучению источников, постоянному сбору информации о них. С кем аффилированы, насколько объективно освещают проблемы, с кем сотрудничают, чьи интересы лоббируют и т.д. Для выявления дезинформации необходимо:
- четко разделять факты и мнения о них;
- понимать, может ли источник иметь доступ к присланной информации;
- учитывать отношение источника к описанным объектам или событиям;
- учитывать личностные характеристики источника (автора) - заинтересованность, фантазийность, зависимость, самомнение;
- помнить, что легче всего воспринимается желаемая информация.

Также необходимо брать во , что информация искажается и ненамеренно. Это происходит по следующим причинам:
- передача части сообщения;
- пересказ услышанного своими словами и внесение в содержание своего отношения, своего мнения;
- сообщения, циркулирующие по горизонтальным и неформальным каналам, менее подвержены искажениям, а информация, предоставляемая «наверх», - более, поскольку у лица, передающего данные, есть желане угодить, получить вознаграждение, избежать наказания.

При намеренной дезинформации используют следующие приемы:
- сокрытие фактов;
- тенденциозный подбор (изложение) фактов;
- нарушение логических или временных связей;
- подача достоверной информации в такой форме или контексте, чтобы она воспринималась как дезинформация;
- краткое изложение важной информации на фоне ярких, отвлекающих внимание данных;
- использование в изложении многозначных слов, которые можно толковать по-разному;
- замалчивание ключевых деталей.

В процессе работы с информацией (на любом этапе) возможно возникновение ситуации, когда для понимания происходящего не хватает данных. В этом случае можно воспользоваться приемом восстановления информации.

Суть его в том, что любому событию что-то предшествует, какая-то подготовка, какие-то события и везде остается след. Какие-то процессы сопутствуют основному событию, что-то становится следствием этого события. Нужно уметь восстанавливать последовательность событий и выявлять места, где может остаться информация о событии. Но начинать нужно с обработки уже имеющейся информации. И в этом плане очень важным является процесс аттестации источника информации.

Рис. 5.6. Классификация первичной информации

Качественная информация необходима исследователям для более глубокого проникновения в природу людей, совершающих покупки конкретных товаров. Такие исследования имеют своим объектом психологию покупателей в прикладных к торговле аспектах, причем к торговле конкретными товарами (только теми, которыми торгует фирма, проводящая данное исследование). Качественную информацию можно использовать для совершенствования товара, для разработки его потребительных свойств с учетом моральных и этических ценностей покупателей. Качественная информация заставляет производителей и коммерсантов задуматься над истинными ценностями предлагаемых ими товаров, взглянуть на свой товар глазами покупателей. Игнорировать качественную информацию никак нельзя. Полезность ее несомненна, а ее точность и достоверность во многом определяется квалификацией исследователей.

Количественная информация незаменима для понимания поведения больших групп людей (потенциальных покупателей). По своей природе она не может позволить исследователю проникнуть вглубь психологических явлений совершения покупок, но она помогает ему подняться на довольно высокий уровень обобщений по вопросам объемов продаж, отношения больших групп покупателей к потребительным свойствам товара. Выводы, получаемые из количественных показателей, могут иметь весьма широкое применение. Количественная информация, безусловно, дополняет качественную, и весьма существенно. Начинать сбор первичной количественной информации нужно с предпосылки, что предмет исследования измерим и можно получить вполне определенные количественные характеристики его поведения. Не рекомендуется начинать сбор количественной информации, если нет возможности оценить результаты такого исследования с помощью инструментов статистики, если нет возможности сделать надежные обобщения и выводы, представляющие профессиональный интерес для маркетологов , для предпринимателей (заказчиков исследования).

Первичная информация и методы ее сбора. Применение метода маркетинговых исследований: анкетирование (определение объема выборки)

посредством наблюдений , различных опросов (интервью ), анкетирования , тестирования , экспериментов (см. рис. 5.4). В литературных источниках названы и другие методы или эти же самые, но по-другому. Поскольку в России маркетинговое исследование зачастую отождествляют с анкетированием, и поскольку анкетирование применяется чаще других методов, есть смысл описание методов сбора первичной информации начать именно с анкетирования.

Анкетирование ¾ это письменный опрос реальных и потенциальных покупателей посредством заполнения последними заранее подготовленных исследователями специальных бланков (анкет) с перечнем вопросов. Суть такого исследования состоит в том, что каждый обследуемый в процессе контакта с исследователем или по почте получает анкету, которую самостоятельно заполняет и лично либо по почте возвращает исследователю.

Составлению анкеты, как правило, предшествует большая аналитическая работа: надо установить границы исследуемого рынка, его структуру по сегментам, численность всей опрашиваемой совокупности покупателей, которая называется генеральной совокупностью , численность сегментов, объем выборки в общем и целом, а также и по сегментам, если они выделены, наметить основные параметры, которые необходимо выяснить в процессе анкетирования, и др. Совокупность ответов должна дать полную характеристику изучаемой проблемы на определенный момент времени, поскольку в результате обработки анкет будет получена качественная и количественная информация, позволяющая установить причинно-следственные связи, имеющиеся в торгово-обменных процессах.

Начинать анкетирование можно (а иногда и нужно) с определения объема выборки, под которым понимают часть генеральной совокупности, несущую в себе характеристические черты и признаки всей совокупности обследуемых субъектов (явлений или процессов) и являющуюся по количеству и качеству необходимой и достаточной для вынесения суждений как в целом по всей совокупности, так и по каждому ее элементу в отдельности (разумеется, с определенной степенью точности и достоверности). Определять объем выборки необходимо потому, что обследовать всю генеральную совокупность не представляется возможным ¾ не хватит ни времени, ни средств на такое обследование.

Расчет объема случайной бесповторной выборки (опрашиваемый выбирается случайно и второй раз уже не опрашивается), которая применяется чаще всего, осуществляется по формуле 1:

n = t 2 s 2 N / (D 2 N + t 2 s 2), (5.1)

где n ¾ число единиц выборки;

t ¾ коэффициент доверия, вычисляемый по специальным таблицам в зависимости от вероятности, с которой можно гарантировать, что предельная ошибка не превысит t -кратную ошибку (при вероятности 0,990 он равен 3, при вероятности 0,999 ¾ 3,28; на практике чаще берут вероятность 0,954, при которой t = 2);

s 2 ¾ выборочная дисперсия (она определяется на основе эксперимента или по аналогам, имевшимся в прошлом);

D ¾ предельно допустимая (задаваемая) ошибка выборки;

N ¾ численность генеральной совокупности.

Задание. Примените эту формулу в следующем примере. Пусть генеральная совокупность составляет 100 тыс. человек. Дисперсия, как показывают данные предыдущих аналогичных исследований, составляет ± 5 руб./человек. Коэффициент доверия может быть равен 2, а предельная ошибка ¾ 1 руб. Определите численность выборки.

А теперь попытайтесь определить объем выборки для анкетирования покупателей товаров вашей организации.

Есть другие подходы и формулы для определения объема выборки. Довольно часто в выборке надо учесть структуру генеральной совокупности, т. е. структуру рынка по сегментам , и при анкетировании опросить представителей всех сегментов в соответствующих пропорциях. Если структура генеральной совокупности не учтена, ошибки неизбежны. Суть этих ошибок часто заключается в том, что опрашиваются не те люди. Такие ошибки довольно часто происходят при изучении общественного мнения. Хрестоматийной стала ошибка, совершенная при изучении общественного мнения американских избирателей накануне очередных президентских выборов (см. отступление 5.4).

Отступление 5.4. Управление ресурсами в условиях рынка. Кн. 5. Управление информацией. М.: МЦДО ЛИНК, 1997. С. 51-52.

Во время предвыборной президентской кампании в США в 1936 г. журнал «Literary Digest» («Литературный дайджест») проводил опрос с целью выявления намерений избирателей. Исследованию было подвергнуто более двух миллионов избирателей, имена и адреса которых случайным образом были выбраны из списка подписчиков журнала и в телефонной книге. Результаты опроса этого огромного числа людей, составивших выборку, показали, что в основном они поддержат республиканского кандидата. Однако большинство избирателей проголосовало за Франклина Делано Рузвельта ¾ демократа.

Почему не оправдались результаты опроса? В чем заключалась ошибка? А ошибка заключалась в том, что не тех опросили. Подписчиками журнала в основном были республиканцы, телефоны, поскольку они были довольно дорогим удовольствием, также имели в основном республиканцы, так как они были богаче демократов. Вот и получилось, что выборка оказалась не репрезентативной, т. е. не представительной (не все слои населения были в ней представлены).

История изучения общественного мнения знает немало таких ошибок. Очевидно, эти ошибки, в людях, не посвященных в тонкости формирования выборок, и до сих пор порождают чувство недоверия к подобной информации. В частности, утверждают, что раз опрошены не все представители того или иного слоя населения, то правдивой информация быть не может. Возражая против таких утверждений, один из руководителей американского института Гэллапа, занимающегося изучением общественного мнения, сказал: «Если вы хотите убедиться, насколько вкусным получился суп, вовсе не обязательно съесть всю кастрюлю. Для этого надо взять одну ложку супа, предварительно перемешав всю кастрюлю, в которой бы оказались все его ингредиенты, и съесть только ее. Этого будет вполне достаточно для того, чтобы составить свое представление о том, что получилось». Кстати, когда французы утверждают, что «не нужна целая бочка вина, чтобы судить о его качестве», они тоже имеют в виду разумную величину выборки. Точно так же надо поступать и при определении выборки в маркетинговых исследованиях. Чтобы выборка оказалась репрезентативной, надо «перемешать» всю генеральную совокупность и с соблюдением имеющихся пропорций выбрать из нее типичных представителей, которые будут характеризовать ее в целом.

Однако нельзя так прямолинейно воспринимать материал отступления 5.4. Рассмотрим следующий условный пример, который говорит о том, что здоровой элементарной логики для определения объема выборки иногда недостаточно. Пусть рынок какой-либо фирмы (т. е. генеральная совокупность) равняется 100 тыс. человек. Этот рынок состоит из трех сегментов, выделенных по критерию «уровень доходов»: покупатели с низким уровнем доходов (бедные ¾ 10%), покупатели со средним уровнем доходов (середняки ¾ 75%), покупатели с высоким уровнем доходов (богатые ¾ 15%). Предположим, что у исследователей рынка есть два предложения по объему выборки, которые они сформулировали, не прибегая к формуле (5.1) или к каким-либо другим, аналогичным формулам, а руководствуясь, как им казалось, исключительно здравым смыслом: вариант 1 ¾ опросить 100 чел; вариант 2 ¾ опросить 1000 человек. Чтобы результаты исследования получились достоверными, и в том, и другом случае выборка должна быть пропорциональной генеральной совокупности, т. е. в выборку по первому варианту надо включить 10 человек богатых, 15 бедных и 75 середняков. А в выборку по второму варианту надо включить 100 человек богатых, 150 бедных и 750 середняков (рис. 5.7).

Рис. 5.7. Пропорциональное соотношение выборки и генеральной совокупности

В первом приближении может показаться, что второй вариант более точен и достоверен. Некоторые, возможно, скажут, что точность второго варианта превышает точность первого в 10 раз, и окажутся совершенно неправыми. Стоимость второго варианта будет в 10 раз больше стоимости первого, но никак не точность. Точность, безусловно, возрастет, но не в 10 раз, а значительно меньше, и соизмерение затрат и точности будет говорить отнюдь не в пользу увеличения объема выборки. Зависимость точности результатов от объема выборки можно представить в форме следующего графика (рис. 5.8).

Как следует из рис. 5.8, приемлемый объем выборки при анкетировании будет равен Х покупателей, что обеспечит точность результатов, равную Y. Нет смысла стремиться увеличивать объем выборки, полагая, что это обеспечит наибольшую точность. Этого не произойдет, а затраты на исследование возрастут. При обосновании выборки кроме здравого смысла, без которого не обойтись, надо пользоваться и формулами.

Рис. 5.8. Примерная зависимость точности результатов от объема выборки

Есть, как уже отмечалось, и другие методические подходы для определения наиболее приемлемого объема выборки. Без особых потерь в точности и достоверности результатов они позволяют провести исследование с меньшими затратами. Так, в частности, если требуется учесть неоднородность рынка по сегментам, то формула 5.1 видоизменяется: выборочная дисперсия в ней заменяется средней из внутригрупповых дисперсий. Однако в этом случае следует вести отбор по каждой группе пропорционально дифференциации признака, как это и показано на рис. 5.7 (т. е. в полном соответствии с логикой здравого смысла). Формула для определения объема выборки в этом случае будет выглядеть следующим образом 2:

где k ¾ число i -х сегментов рынка;

N i ¾ численность i -го сегмента;

s i ¾ среднеквадратическое отклонение признака в i -м сегменте.

Термин “информация” происходит от латинского informatio, что означает разъяснение, осведомление, изложение. В широком смысле информация – это общенаучное понятие, включающее в себя обмен сведениями между другими людьми, обмен сигналами между живой и неживой природой, людьми и устройствами.

Информация – сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.

1.2. Количественные характеристики информации. 1) Синтаксическая мера информации. Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации.2) Объём данных (V Д) понимается в техническом смысле этого слова как информационный объём сообщения или как объём памяти, необходимый для хранения сообщения без каких-либо изменений.

Информационный объём сообщения измеряется в битах и равен количеству двоичных цифр (“0” и “1”), которыми закодировано сообщение.

3) Семантическая мера информации. Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя .

Тезаурус - это совокупность сведений, которыми располагает пользователь или система.

4) Прагматическая мера информации. Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цепи. Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе.

1.3. Качественные характеристики информации.

Возможность и эффективность использования информации обусловливаются такими основными ее потребительскими показателями качества , как репрезентативность, содержательность, достаточность, доступность, актуальность, своевременность, точность, достоверность, устойчивость.

1)Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта. Важнейшее значение здесь имеют:

Правильность концепции, на базе которой сформулировано исходное понятие;

Обоснованность отбора существенных признаков и связей отображаемого явления.

С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для получения одних и тех же сведений требуется преобразовать меньший объем данных.

Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного решения состав (набор показателей). Понятие полноты информации связано с ее смысловым содержанием (семантикой) и прагматикой. Как неполная, т.е. недостаточная для принятия правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений.

Доступность информации восприятию пользователя обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе информация преобразовывается к доступной и удобной для восприятия пользователя форме. Это достигается, в частности, и путем согласования ее семантической формы с тезаурусом пользователя.

Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации.

Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного с временем решения поставленной задачи.

Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п.

Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т. е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности.

Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования.

Качественная оценка информации. Критерии оценки информации

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Ваш комментарий (необязательно):