По определению Е.А. Козловского «Математическая модель процесса бурения представляет собой динамическую аналогию данного объекта с нетождественным подобием свойств».
Результаты исследования могут быть представлены в виде таблиц, график и уравнений, т.е. математическое описание технологического процесса.
Статистика – инструмент для количественного анализа и интерпретации данных
Как проверить истинность суждений о свойствах окружающего мира?
Dr. Nostat сформировал выборки для эксперимента; в одну поместил зверьков, которые первыми вышли из клетки, а в другую – тех, кто в ней остался
Необходимо для обдумывания и обсуждения данных
интервальная шкала
interval scale
(в.т.ч круговые шкалы)
(их нельзя выстроить в последовательность)
Потеря информации и точности
Переменная – характеристика окружающего мира, которую мы измеряем
интервальная шкала (interval scale):
размер интервалов на протяжении всей шкалы одинаковый;
положение нулевой точки выбрано произвольно.
Примеры: температура по Цельсию, время дня, дата
Можно представить в виде таблички или картинки.
Оставим на некоторое время качественные и ранговые переменные и обратимся только к КОЛИЧЕСТВЕННЫМ
промежутки между столбиками
Частотное распределение количественной переменной
Частота – то, сколько раз встретилось данное значение переменной
Интервалы должны быть:
одного размера,
не должны иметь общих точек,
для биологических данных – 10-20 интервалов
Полигон частот (frequency polygon)
Как описать частотное распределение переменной?
Речь идёт не только о количественных данных, но и о качественных
*«balancing point» method
Среднее для выборки
Среднее для популяции
1,0
1,5
4,1
5,7
9,5
6,0
7,1
7,9
10,4
11,0
Медиана
Имеет смысл не только для количественных переменных, но и для ранговых! (не для качественных).
3,2
Распределение можно поделить не только на ДВЕ равные части, но и на:
четыре (значения, стоящие на границах - квартили);
восемь (... октили);
сто (... процентили);
N (... квантили).
Частотное распределение переменной
Пример про 500 р и магазин
Существует не только для количественных, но и для ранговых, и для качественных переменных
В первую очередь биолога интересует количество мод в распределении, а не мода как таковая. Если мода не одна, наверняка выборка может быть поделена на группы
К появлению перекоса чувствительнее всего среднее значение
1/3
2/3
Размах (range) – разность между максимальным и минимальным значениями = Xn – X1
Хорош тем, что легко считается и имеет «биологический смысл».
Плох тем, что зависит лишь от 2-х точек из распределения. Недооценивает истинный размах в популяции.
Стандартное отклонение зависит ото всех значений переменной.
Измеряется в тех же единицах, что и переменная!
Индекс Шеннона-Винера
p = доля объектов в той или иной категории;
k – число категорий.
Нормированный индекс Шеннона ( )
Этих индексов много для разных целей; это показатели ОПИСАТЕЛЬНОЙ статистики!
Для публикаций
Традиционно, вместе со средним значением приводят стандартное отклонение (±SD);
Иногда в статье приводится размах, но в дополнение следует привести ещё какую-нибудь характеристику разброса.;
Коэффициент вариации приводят, если хотят сравнить разброс в разных по характеру данных.
Для публикаций
Это непрерывное распределение
Название в честь Гаусса не совсем справедливо – первым его описал вовсе не он.
Симметрия и эксцесс.
Частотное распределение переменной
частота
масса, кг
16% площади распределения ~ 16% объёма выборки
95%
выборка
популяция
Необыкновенное свойство:
Относительные площади нормального распределения над одинаковым количеством стандартных отклонений всегда одинаковы!
Пример с IQ (μ=100, σ=15)
выборка
популяция
На 1-м курсе института 25 групп по 22 студента.
Предположим, средняя масса студента – μ=50 кг, σ = 4 кг, а группы – случайные выборки студентов.
Трудно ожидать, что и в каждой группе средняя масса будет 50 кг!
Выборки не обязательно должны удовлетворять критериям нормального распределения. Про IQ
…..
50
5
55
60
45
40
50
1.2
Его среднее будет близко популяционному среднему, и оно будет намного УЖЕ распределения всех студентов, и УЖЕ, чем каждое из распределений выборок
Это и будет распределение выборочных средних (sampling distribution of the means)
Пример про бутылки с кока-колой
Пример с монеткой
Уход и любовь хозяина – 25 кг
Внутриутробные условия – 5 кг
Качество вскармливания мамой – 8 кг
Т.е., масса кролика – среднее по выборке многих гипотетических масс. А массы нескольких кроликов – выборочные средние
Мы знаем, что для нормального распределения есть z-оценка, значениям которой соответствуют определённые площади распределения.
Но мы также знаем, что выборочные средние образуют нормальное распределение!!
Это значит, что, зная среднее в популяции, мы можем рассчитать интервал, в который попадёт выборочное среднее с вероятностью, скажем, в 95% (или 99%).
Решим обратную задачу. Пусть нам известно μ, найдём
Как оценить популяционное среднее имея выборку?
Зная стандартное отклонение в нем (=SE!!) можем рассчитать интервал, в который попадёт 95% (99%) всех средних масс в группах:
Т.е., расстояние от среднего значения в популяции до выборочного среднего для 95% выборок не больше 1.96 SE
Вернёмся к исходной задаче:
Как оценить среднюю массу в популяции, если нам известно среднее в выборке??
Расстояние от среднего в выборке до (неизвестного) среднего в популяции с вероятностью 95% не больше 1.96 SE
cv – critical value, критическое значение статистики (в данном случае, Z) – грубо говоря, вероятность ошибки.
В примере нам было известно σ, но на практике оно обычно неизвестно!
df
Пояснить про число степеней свободы
Для публикаций
Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:
Email: Нажмите что бы посмотреть