Цена подержанного автомобиля
            или
Путь от корреляции к регрессии в среде Mathcad

В. Очков

http://twt.mpei.ac.ru/ochkov

оchkov@twt. mpei.ac.ru

Mathcad-программа

Cначала о терминах заголовка статьи.

Корреляция – зависимость, не имеющая явно выраженной закономерности изменения из-за невозможности точно учесть влияния множества одновременно меняющихся факторов.

Регрессия – зависимость среднего значения какой-либо величины от некоторой другой величины или от  нескольких величин.

А теперь – суть проблемы.

Автору в Internet (http://collab.mathsoft.com/read?8889,34) попалась на глаза вот такая корреляция (см. таблицу – стоимость старого автомобиля в зависимости от его возраста и пробега[1]) и просьба дать идею или идеи по нахождению регрессии.

Возраст

(лет)

Пробег

(миль)

Цена

(UD$)

Возраст

(лет)

Пробег

(миль)

Цена

(UD$)

Возраст

(лет)

Пробег

(миль)

Цена

(UD$)

Age

MileAge

Price

Age

MileAge

Price

Age

MileAge

Price

11,5

88000

1195

13,5

120000

495

7,5

41000

3495

13,5

103000

750

11,5

101000

895

13,5

124000

850

10,5

82000

1295

3,5

39000

4995

10,5

77000

1595

10,5

65000

1495

10,5

78000

1295

6,5

56000

3495

12,5

97000

800

6,5

52000

2695

12,5

83000

895

10,5

70000

1495

9,5

84000

1995

9,5

67000

2495

8,5

51000

2295

4,5

39000

3995

4,5

38000

3990

10,5

80000

1495

4,5

46000

3675

6,5

43000

3400

9,5

79000

1995

12,5

92000

795

13,5

92000

795

6,5

57000

2695

11,5

108000

975

11,5

78000

1295

Говоря «нормальным» языком Internet-собеседник просил дать формулу или график, по которым можно было бы оценить стоимость старого (подержанного) автомобиля по году его выпуска и показанию спидометра (километраж[2]).

Чутье давнего собирателя компьютерных этюдов [1-2] подсказало автору, что данная задача может быть красиво решена в среде Mathcad [3].

Как правило, регрессионный анализ (поиск регрессии) начинают с визуализации табличных данных – см. рис. 1, рис. 2, рис. 3 и рис. 4, где параметры автомобилей показаны в объеме (рис. 1) и повернуты к зрителю тремя различными гранями куба (рис. 2, рис. 3 и рис. 4).

Объемное изображение корреляции цены автомобиля от его двух основных параметров – возраст и пробег

Рис. 1. Объемное изображение корреляции цены автомобиля от его основных параметров – возраст и пробег

Корреляции возраста и пробега автомобиля

Рис. 2. Корреляции возраста и пробега автомобиля

Корреляции цены и возраста автомобиля
The correlation of the Price and the Age of the Car

Рис. 3. Корреляции цены и возраста автомобиля

Корреляции цены и пробега автомобиля
The correlation of the Price and the MileAge of the Car

Рис. 4. Корреляции цены и пробега автомобиля

Около точек на рис. 2, рис. 3 и рис. 4 проведены линии, характеризующие следующие закономерности.

1. Корреляция пробега автомобиля от его возраста (рис. 2) – это область, ограниченная двумя лучами: минимальная и максимальная средние скорости автомобилей. В нашей выборке они такие: 1.004 км/ч (7.5 лет и 41 000 миль пробега) и 2.046 км/ч (3.5 года и 39 000 миль пробега). Отсюда вывод – если вам предлагают купить подержанный автомобиль, параметры которого не попадают в наш скоростной «клин» (1-2 км/ч), то это значит, что машину либо слишком интенсивно эксплуатировали (скорость больше 2 км/ч), либо она непонятно почему простаивала (скорость меньше 1 км/час), либо у нее… подкручен спидометр. Возраст машины скрыть намного трудней.

2. Цена автомобиля зависит от возраста линейно (a + b xрис. 3). Никакой другой более сложной зависимости из точек, разбросанных на графике рис. 3, выудить невозможно. В нашем случае после каждого года пробега с цены машины нужно будет скидывать в среднем по 393 доллара.

3. Зависимость цены автомобиля от пробега (рис. 4) более сложная – она меняется экспоненциально: (a + 10b x). При такой зависимости (b<0) цена машины никогда не упадет до нуля, чего не скажешь о зависимости цены от возраста (рис. 3), когда в районе 14-15 лет автомобиль становиться «бесценен» в двух смыслах – у него нулевая цена (наш смысл) либо автомобиль становится… музейным экспонатом.

Переход от плоскости (рис. 2, рис. 3 и рис. 4) к объему (рис. 1), дает следующую регрессионную формулу[3], по которой можно рассчитать остаточную цену автомобиля (% от цены нового[4]):

44.98+2.98▪Возраст+55.02▪10-0.00000937▪Пробег

где: Возраст выражен в годах, а Пробег в километрах.

На объемном графике наша формула дает следующую поверхность (рис. 5):

Объемное изображение корреляции и регрессии цены автомобиля от его основных параметров – возраст и пробег

Рис. 5. Объемное изображение корреляции и регрессии цены автомобиля от его основных параметров – возраст и пробег

Вблизи поверхности расположены точки из нашей таблицы. Точки лучше увидеть, развернув поверхность боком к наблюдателю (рис. 6):

Рис. 6. «Корреляция» точек вокруг «регрессии»

При таком ракурсе (рис. 6) видно, что часть точек расположена над, а другая часть под поверхностью, которая построена по критерию наименьших квадратов: сумма квадратов отклонений точек от поверхности минимальна. Этот же критерий был использован и для проведения линий вблизи точек на графиках рис. 3 и рис. 4.

Поверхность на рис. 5 и рис. 6, при всей своей «художественности) (она полупрозрачна – видны все точки, цвет поверхности плавно меняется от холодных тонов (дешевые машины) до теплых и горячих (дорогие машины), проведены «одноценовые» линии) не очень практична: оценивать автомобиль лучше либо по формуле (см. выше), либо по плоскому графику (рис. 7):

Рис. 7. Графическое изображение снижения цены автомобиля

По графику на рис. 7 можно не только получить оценочную стоимость автомобиля, но и отсечь заведомо непроходимые варианты, зафиксированные на рис.2.

Mathcad-документ, по которому велись расчеты (Car_Price.mcd – Mathcad 2001 Premium), можно «скачать» по адресу: ftp://twt.mpei.ac.ru/ochkov/Auto.

Послесловие

Уинстон Черчилль любил повторять, что есть Большая Ложь, Ложь и… Статистика – героиня нашей статьи.

Задача о цене старого автомобиля на MAS: http://twt.mpei.ac.ru/MCS/Worksheets/old-car.xmcd

Литература:

1.             Очков В.Ф., Пухначев Ю.В. «24 этюда на Бейсике». М.: Финансы и статистика, 1988

2.             Очков В.Ф., Рахаев М.А. «Этюды на языках QBasic, QuickBasic и Basic Compiler». М.: Финансы и статистика, 1995

3.             Очков В.Ф. «Mathcad 8 Pro для студентов и инженеров». М.: КомпьютерПресс, 1999



[1] В нашей таблице собраны, естественно, данные по автомобилям одной марки. Кроме того, на стоимость подержанного автомобиля могут влиять и другие факторы: режим хранения (гараж или улица), аварии и ремонты и др., но мы будем учитывать только два основных – возраст и пробег.

[2] У американцев эти два слова (пробег и километраж) сливаются в одно – MileAge, пробег (возраст), выраженный в милях (1 миля1609 м).

[3] Здесь слово регресс выступает в качестве антонима слова прогресс: развитие рынка подержанных машин приводит к застою в автомобильной промышленности.

[4] В нашей выборке она равна 9037 долларов. Но к этой сумме нужно будет  набросить 20-30% – на столько снижается цена автомобиля сразу после того, как он покинет магазин.