оchkov@twt. mpei.ac.ru
Cначала о терминах
заголовка статьи.
Корреляция – зависимость,
не имеющая явно выраженной закономерности изменения из-за невозможности точно
учесть влияния множества одновременно меняющихся факторов.
Регрессия – зависимость среднего значения какой-либо величины от некоторой другой
величины или от нескольких величин.
А теперь –
суть проблемы.
Автору в Internet (http://collab.mathsoft.com/read?8889,34) попалась на глаза вот
такая корреляция (см. таблицу –
стоимость старого автомобиля в зависимости от его возраста и пробега[1])
и просьба дать идею или идеи по нахождению регрессии.
Возраст (лет) |
Пробег(миль) |
Цена (UD$) |
Возраст (лет) |
Пробег (миль) |
Цена (UD$) |
Возраст (лет) |
Пробег (миль) |
Цена (UD$) |
Age |
MileAge |
Price |
Age |
MileAge |
Price |
Age |
MileAge |
Price |
11,5 |
88000 |
1195 |
13,5 |
120000 |
495 |
7,5 |
41000 |
3495 |
13,5 |
103000 |
750 |
11,5 |
101000 |
895 |
13,5 |
124000 |
850 |
10,5 |
82000 |
1295 |
3,5 |
39000 |
4995 |
10,5 |
77000 |
1595 |
10,5 |
65000 |
1495 |
10,5 |
78000 |
1295 |
6,5 |
56000 |
3495 |
12,5 |
97000 |
800 |
6,5 |
52000 |
2695 |
12,5 |
83000 |
895 |
10,5 |
70000 |
1495 |
9,5 |
84000 |
1995 |
9,5 |
67000 |
2495 |
8,5 |
51000 |
2295 |
4,5 |
39000 |
3995 |
4,5 |
38000 |
3990 |
10,5 |
80000 |
1495 |
4,5 |
46000 |
3675 |
6,5 |
43000 |
3400 |
9,5 |
79000 |
1995 |
12,5 |
92000 |
795 |
13,5 |
92000 |
795 |
6,5 |
57000 |
2695 |
11,5 |
108000 |
975 |
11,5 |
78000 |
1295 |
Говоря «нормальным» языком Internet-собеседник просил дать формулу или график, по которым
можно было бы оценить стоимость старого (подержанного) автомобиля по году его
выпуска и показанию спидометра (километраж[2]).
Чутье
давнего собирателя компьютерных этюдов [1-2] подсказало
автору, что данная задача может быть красиво решена в среде Mathcad [3].
Как
правило, регрессионный анализ (поиск регрессии)
начинают с визуализации табличных
данных – см. рис. 1, рис. 2, рис. 3
и рис. 4, где параметры автомобилей показаны
в объеме (рис. 1) и повернуты к зрителю тремя
различными гранями куба (рис. 2, рис. 3 и рис. 4).
Около точек на рис. 2, рис. 3
и рис. 4 проведены линии, характеризующие
следующие закономерности.
1.
Корреляция пробега автомобиля от его возраста (рис. 2) – это область, ограниченная двумя
лучами: минимальная и максимальная средние скорости
автомобилей. В нашей выборке они
такие:
2. Цена автомобиля зависит от возраста линейно (a + b x – рис. 3). Никакой другой более сложной зависимости из точек, разбросанных на графике рис. 3, выудить невозможно. В нашем случае после каждого года пробега с цены машины нужно будет скидывать в среднем по 393 доллара.
3. Зависимость цены автомобиля от пробега (рис. 4) более сложная – она меняется экспоненциально: (a + 10b x). При такой зависимости (b<0) цена машины никогда не упадет до нуля, чего не скажешь о зависимости цены от возраста (рис. 3), когда в районе 14-15 лет автомобиль становиться «бесценен» в двух смыслах – у него нулевая цена (наш смысл) либо автомобиль становится… музейным экспонатом.
Переход от плоскости (рис. 2, рис. 3 и рис. 4) к объему (рис. 1), дает следующую регрессионную формулу[3], по которой можно рассчитать остаточную цену автомобиля (% от цены нового[4]):
44.98+2.98▪Возраст+55.02▪10-0.00000937▪Пробег
где: Возраст выражен в годах, а Пробег в километрах.
На объемном графике наша формула дает следующую поверхность (рис. 5):
Вблизи поверхности расположены точки из нашей таблицы. Точки лучше увидеть, развернув поверхность боком к наблюдателю (рис. 6):
При таком ракурсе (рис. 6) видно, что часть точек расположена над, а другая часть под поверхностью, которая построена по критерию наименьших квадратов: сумма квадратов отклонений точек от поверхности минимальна. Этот же критерий был использован и для проведения линий вблизи точек на графиках рис. 3 и рис. 4.
Поверхность на рис. 5 и рис. 6, при всей своей «художественности) (она полупрозрачна – видны все точки, цвет поверхности плавно меняется от холодных тонов (дешевые машины) до теплых и горячих (дорогие машины), проведены «одноценовые» линии) не очень практична: оценивать автомобиль лучше либо по формуле (см. выше), либо по плоскому графику (рис. 7):
По графику на рис. 7 можно не только получить оценочную стоимость автомобиля, но и отсечь заведомо непроходимые варианты, зафиксированные на рис.2.
Mathcad-документ, по которому велись расчеты (Car_Price.mcd – Mathcad 2001 Premium), можно «скачать» по адресу: ftp://twt.mpei.ac.ru/ochkov/Auto.
Уинстон Черчилль любил повторять, что есть Большая Ложь, Ложь и… Статистика – героиня нашей статьи.
Задача о цене старого автомобиля на MAS: http://twt.mpei.ac.ru/MCS/Worksheets/old-car.xmcd
1.
Очков В.Ф., Пухначев
Ю.В. «24 этюда на Бейсике». М.: Финансы и статистика, 1988
2. Очков В.Ф., Рахаев М.А. «Этюды на языках QBasic, QuickBasic и Basic Compiler». М.: Финансы и статистика, 1995
3. Очков В.Ф. «Mathcad 8 Pro для студентов и инженеров». М.: КомпьютерПресс, 1999
[1] В нашей таблице собраны, естественно, данные по автомобилям одной марки. Кроме того, на стоимость подержанного автомобиля могут влиять и другие факторы: режим хранения (гараж или улица), аварии и ремонты и др., но мы будем учитывать только два основных – возраст и пробег.
[2] У американцев эти два
слова (пробег и километраж) сливаются в одно – MileAge, пробег (возраст), выраженный в
милях (
[3] Здесь слово регресс выступает в качестве антонима слова прогресс: развитие рынка подержанных машин приводит к застою в автомобильной промышленности.
[4] В нашей выборке она равна 9037 долларов. Но к этой сумме нужно будет набросить 20-30% – на столько снижается цена автомобиля сразу после того, как он покинет магазин.