최소제곱법을 사용하여 직선을 찾습니다. 최소제곱법은 어디에 사용되나요?

  • 지도 시간

소개

저는 수학자이자 프로그래머입니다. 내 경력에서 내가 이룬 가장 큰 도약은 다음과 같은 말을 배웠을 때였습니다. "나는 아무것도 이해하지 못한다!"이제 나는 과학의 권위자에게 그가 나에게 강의를 하고 있으며 그가 나에게 말하는 것을 이해하지 못한다고 말하는 것이 부끄럽지 않습니다. 그리고 그것은 매우 어렵습니다. 그렇습니다. 자신의 무지를 인정하는 것은 어렵고 당혹스러운 일입니다. 자신이 어떤 것의 기본을 모른다는 것을 인정하고 싶어하는 사람이 누가 있겠습니까? 직업상 꼭 참석해야 해요 대량프레젠테이션과 강의에서는 대부분의 경우 아무것도 이해하지 못하기 때문에 자고 싶습니다. 하지만 현재 과학 상황의 가장 큰 문제는 수학에 있기 때문에 이해가 되지 않습니다. 이는 모든 청취자가 절대적으로 수학의 모든 영역에 익숙하다고 가정합니다(이는 터무니없는 일입니다). 파생상품이 무엇인지 모른다는 사실을 인정하는 것은(조금 나중에 이야기하겠습니다) 부끄러운 일입니다.

하지만 나는 곱셈이 무엇인지 모른다고 말하는 법을 배웠습니다. 예, 저는 거짓말 대수에 대한 부분대수가 무엇인지 모르겠습니다. 예, 인생에 왜 필요한지 모르겠습니다 이차 방정식. 그건 그렇고, 당신이 알고 있다고 확신한다면 우리가 이야기 할 것이 있습니다! 수학은 트릭의 연속이다. 수학자들은 대중을 혼란스럽게 하고 위협하려고 노력합니다. 혼란이 없는 곳에는 명성도 없고 권위도 없습니다. 예, 가능한 한 추상적인 언어로 말하는 것은 명예로운 일입니다. 이는 완전히 말도 안되는 일입니다.

파생상품이 무엇인지 아시나요? 아마도 당신은 차이 비율의 한계에 대해 말해 줄 것입니다. 상트페테르부르크 주립대학교 수학과 기계과 1학년 때 Viktor Petrovich Khavin은 나에게 이렇게 말했습니다. 단호한한 점에서 함수의 테일러 급수 첫 번째 항의 계수로 미분합니다(이것은 미분 없이 테일러 급수를 결정하기 위한 별도의 체조였습니다). 나는 그것이 무엇인지 마침내 이해할 때까지 오랫동안 이 정의를 비웃었습니다. 도함수는 우리가 미분하는 함수가 y=x, y=x^2, y=x^3 함수와 얼마나 유사한지를 나타내는 간단한 척도에 지나지 않습니다.

나는 이제 다음과 같은 학생들에게 강의하는 영광을 누렸습니다. 두려워하는수학. 수학을 두려워한다면 우리도 같은 길을 가고 있습니다. 일부 텍스트를 읽으려고 할 때 그것이 지나치게 복잡해 보이면 그 텍스트가 제대로 작성되지 않았음을 아십시오. 나는 정확성을 잃지 않고 "손가락으로"논의할 수 없는 수학 영역은 단 하나도 없다고 주장합니다.

가까운 미래를 위한 과제: 저는 학생들에게 선형 2차 조절기가 무엇인지 이해하도록 배정했습니다. 부끄러워하지 말고 인생의 3분을 투자해 링크를 따라가보세요. 아무것도 이해하지 못한다면 우리는 같은 길을 가고 있는 것입니다. 나 (전문 수학자 겸 프로그래머)도 아무것도 이해하지 못했습니다. 그리고 나는 이것을 "당신의 손가락"으로 알아낼 수 있다고 확신합니다. ~에 이 순간나는 그것이 무엇인지 모르지만 우리가 그것을 알아낼 수 있다고 확신합니다.

그래서 학생들이 겁에 질려 나에게 달려와 선형-2차 조정기는 평생 절대 마스터하지 못할 끔찍한 것이라고 말한 후 내가 학생들에게 줄 첫 번째 강의는 다음과 같습니다. 행동 양식 최소제곱 . 당신은 결정할 수 있습니까? 선형 방정식? 이 글을 읽고 있다면 그렇지 않을 가능성이 높습니다.

따라서 두 점 (x0, y0), (x1, y1), 예를 들어 (1,1) 및 (3,2)가 주어지면 이 두 점을 통과하는 선의 방정식을 찾는 것이 과제입니다.

삽화

이 줄에는 다음과 같은 방정식이 있어야 합니다.

여기서 알파와 베타는 우리에게 알려지지 않았지만 이 선의 두 가지 점은 알려져 있습니다.

이 방정식을 행렬 형식으로 작성할 수 있습니다.

여기서 우리는 서정적인 여담을 만들어야 합니다. 행렬이란 무엇입니까? 행렬은 2차원 배열에 지나지 않습니다. 이는 데이터를 저장하는 방법이므로 더 이상의 의미를 부여해서는 안 됩니다. 특정 행렬을 해석하는 방법은 우리에게 달려 있습니다. 주기적으로 나는 그것을 선형 매핑으로 해석할 것입니다. 이차 형태, 때로는 벡터 세트로 사용되기도 합니다. 이것은 모두 문맥에 따라 명확해질 것입니다.

구체적인 행렬을 기호 표현으로 바꾸겠습니다.

그런 다음 (알파, 베타)를 쉽게 찾을 수 있습니다.

이전 데이터에 대해 더 구체적으로 설명하면 다음과 같습니다.

점 (1,1)과 (3,2)를 통과하는 선의 방정식은 다음과 같습니다.

좋아요, 여기서는 모든 것이 명확합니다. 지나는 선의 방정식을 구해보자 점: (x0,y0), (x1,y1) 및 (x2,y2):

오오오, 하지만 두 개의 미지수에 대한 세 개의 방정식이 있습니다! 표준 수학자라면 해결책이 없다고 말할 것입니다. 프로그래머는 뭐라고 말할까요? 그리고 그는 먼저 이전 방정식 시스템을 다음 형식으로 다시 작성할 것입니다.

우리의 경우 벡터 i,j,b 3차원이므로 (일반적인 경우) 이 시스템에 대한 솔루션이 없습니다. 모든 벡터(alpha\*i + beta\*j)는 벡터(i, j)가 확장하는 평면에 있습니다. b가 이 평면에 속하지 않으면 해가 없습니다(방정식에서 동일성을 얻을 수 없습니다). 무엇을 해야 할까요? 타협점을 찾아보자. 다음으로 나타내자 e(알파, 베타)정확히 우리가 평등을 얼마나 달성하지 못했는지:

그리고 우리는 이 오류를 최소화하려고 노력할 것입니다:

왜 정사각형인가?

우리는 노름의 최소값뿐만 아니라 노름 제곱의 최소값도 찾고 있습니다. 왜? 최소점 자체가 일치하고 정사각형은 매끄러운 함수(인수(알파, 베타)의 2차 함수)를 제공하는 반면, 단순히 길이는 최소점에서 미분할 수 없는 원뿔 모양의 함수를 제공합니다. brr. 사각형이 더 편리합니다.

분명히 벡터를 사용하면 오류가 최소화됩니다. 이자형벡터에 의해 확장된 평면에 직교 그리고 제이.

삽화

즉, 모든 점에서 이 직선까지 거리의 제곱 길이의 합이 최소가 되는 직선을 찾고 있습니다.

업데이트: 여기에 문제가 있습니다. 직선까지의 거리는 직교 투영이 아닌 수직으로 측정해야 합니다. 이 평론가의 말이 맞습니다.

삽화

완전히 다른 말로 표현하면(신중하게 형식화되지는 않았지만 명확해야 함) 모든 점 쌍 사이에 가능한 모든 선을 취하고 모든 점 사이의 평균 선을 찾습니다.

삽화

손가락에 대한 또 다른 설명: 모든 데이터 포인트(여기에는 3개가 있음)와 우리가 찾고 있는 직선 사이에 스프링을 연결합니다. 평형 상태우리가 찾고 있는 것이 바로 거기에 있습니다.

최소 이차 형태

따라서 이 벡터가 주어지면 행렬의 열 벡터에 의해 확장되는 평면 (이 경우 (x0,x1,x2) 및 (1,1,1)) 벡터를 찾고 있습니다. 이자형길이의 최소 제곱으로. 분명히 최소값은 벡터에 대해서만 달성 가능합니다. 이자형, 행렬의 열 벡터에 의해 확장된 평면에 직교 :

즉, 우리는 다음과 같은 벡터 x=(alpha, beta)를 찾고 있습니다.

이 벡터 x=(alpha, beta)가 최소값이라는 점을 상기시켜 드리겠습니다. 이차 함수||e(알파, 베타)||^2:

여기서 행렬은 2차 형식으로도 해석될 수 있다는 점을 기억하는 것이 유용할 것입니다. 예를 들어 단위 행렬((1,0),(0,1))은 x^2 + y^ 함수로 해석될 수 있습니다. 2:

이차 형태

이 모든 체조는 선형 회귀라는 이름으로 알려져 있습니다.

Dirichlet 경계 조건을 사용한 Laplace 방정식

이제 가장 간단한 실제 작업은 특정 삼각형 표면이 있으므로 이를 부드럽게 하는 것입니다. 예를 들어 내 얼굴 모델을 로드해 보겠습니다.

원본 커밋을 사용할 수 있습니다. 외부 종속성을 최소화하기 위해 이미 Habré에 있는 소프트웨어 렌더러의 코드를 사용했습니다. 솔루션의 경우 선형 시스템저는 OpenNL을 사용하는데, 이것은 훌륭한 솔버이지만 설치가 매우 어렵습니다. 프로젝트가 있는 폴더에 두 개의 파일(.h+.c)을 복사해야 합니다. 모든 스무딩은 다음 코드로 수행됩니다.

(int d=0; d의 경우<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&얼굴 = 얼굴[i]; for (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

X, Y, Z 좌표는 분리 가능하므로 별도로 스무딩합니다. 즉, 나는 각각 내 모델의 꼭지점 수와 동일한 수의 변수를 갖는 세 가지 선형 방정식 시스템을 풉니다. 행렬 A의 처음 n개 행은 행당 1개만 갖고, 벡터 b의 처음 n개 행은 원래 모델 좌표를 갖습니다. 즉, 정점의 새 위치와 정점의 이전 위치 사이에 스프링을 연결합니다. 새 정점이 이전 정점에서 너무 멀리 이동해서는 안 됩니다.

행렬 A의 모든 후속 행(faces.size()*3 = 메시에 있는 모든 삼각형의 가장자리 수)은 1이 한 번 발생하고 -1이 한 번 발생하며, 벡터 b에는 반대되는 구성 요소가 0개 있습니다. 이는 삼각형 메시의 각 가장자리에 스프링을 배치한다는 의미입니다. 모든 가장자리는 시작점과 끝점과 동일한 정점을 얻으려고 합니다.

다시 한 번 말씀드리지만, 모든 정점은 변수이며 원래 위치에서 멀리 이동할 수는 없지만 동시에 서로 유사해지려고 노력합니다.

결과는 다음과 같습니다.

모든 것이 괜찮을 것입니다. 모델은 정말 매끄러워졌지만 원래 가장자리에서 멀어졌습니다. 코드를 조금 변경해 보겠습니다.

(int i=0; i의 경우<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

행렬 A에서 가장자리에 있는 정점에 대해 v_i = verts[i][d] 범주의 행을 추가하지 않고 1000*v_i = 1000*verts[i][d]를 추가합니다. 무엇이 바뀌나요? 그리고 이것은 오류의 이차 형태를 변경합니다. 이제 가장자리 상단에서 단일 편차가 발생하면 이전처럼 1단위가 아니라 1000*1000단위의 비용이 발생합니다. 즉, 우리는 극단 꼭지점에 더 강한 스프링을 걸었고, 솔루션은 다른 꼭지점을 더 강하게 늘리는 것을 선호할 것입니다. 결과는 다음과 같습니다.

꼭지점 사이의 스프링 강도를 두 배로 늘려 보겠습니다.
nlCoefficient(면[ j ], 2); nlCoefficient(면[(j+1)%3], -2);

표면이 더 매끄러워졌다는 것은 논리적입니다.

이제 훨씬 더 강력해졌습니다.

이게 뭔가요? 와이어 링을 비눗물에 담갔다고 상상해 보세요. 결과적으로 결과 비누 필름은 가능한 한 최소한의 곡률을 가지려고 노력하여 경계선, 즉 와이어 링에 닿습니다. 이것이 바로 우리가 테두리를 고정하고 내부의 매끄러운 표면을 요구함으로써 얻은 것입니다. 축하합니다. 우리는 Dirichlet 경계 조건을 사용하여 Laplace 방정식을 풀었습니다. 멋진데? 그러나 실제로는 하나의 선형 방정식 시스템만 풀면 됩니다.

포아송 방정식

또 다른 멋진 이름을 기억합시다.

다음과 같은 이미지가 있다고 가정해 보겠습니다.

누구에게나 좋아 보이지만 나는 의자가 마음에 들지 않습니다.

사진을 반으로 자르겠습니다.



그리고 내 손으로 의자를 선택하겠습니다.

그런 다음 마스크의 흰색인 모든 항목을 그림의 왼쪽으로 끌어당기는 동시에 그림 전체에서 인접한 두 픽셀 간의 차이는 오른쪽의 인접한 두 픽셀 간의 차이와 같아야 한다고 말합니다. 그림:

(int i=0; i의 경우

결과는 다음과 같습니다.

코드 및 사진 사용 가능

이는 매개변수에 대한 명확한 경제적 해석의 형태로 계량경제학에서 널리 사용됩니다.

선형 회귀는 다음 형식의 방정식을 찾는 것으로 귀결됩니다.

또는

형태의 방정식 지정된 매개변수 값을 기반으로 허용 엑스결과 특성의 이론적 값을 가지며, 그 요소의 실제 값을 여기에 대체합니다. 엑스.

건설 선형 회귀매개변수를 추정하는 것으로 귀결됩니다. 그리고 V.선형 회귀 모수 추정치는 다양한 방법을 사용하여 찾을 수 있습니다.

선형 회귀 매개변수를 추정하는 고전적인 접근 방식은 다음을 기반으로 합니다. 최소제곱법(MNC).

최소제곱법을 사용하면 이러한 매개변수 추정치를 얻을 수 있습니다. 그리고 V,결과 특성의 실제 값의 제곱 편차의 합 (와이)계산된(이론적) 최저한의:

함수의 최소값을 찾으려면 각 매개변수에 대한 편도함수를 계산해야 합니다. 그리고 0으로 설정합니다.

나타내자 S를 통해 다음을 수행합니다.

공식을 변환하여 매개변수를 추정하기 위한 다음과 같은 정규 방정식 시스템을 얻습니다. 그리고 V:

변수의 순차적 제거 방법 또는 행렬식 방법을 사용하여 정규 방정식 시스템 (3.5)을 풀면 필요한 매개 변수 추정치를 찾습니다. 그리고 V.

매개변수 V회귀계수라고 합니다. 해당 값은 요소가 한 단위씩 변경될 때 결과의 평균 변화를 나타냅니다.

회귀 방정식은 항상 연결의 친밀도를 나타내는 지표로 보완됩니다. 선형 회귀를 사용할 때 이러한 지표는 선형 상관 계수입니다. 선형 상관 계수 공식에는 다양한 수정이 있습니다. 그 중 일부는 다음과 같습니다.

알려진 바와 같이 선형 상관 계수는 -1 한계 내에 있습니다. 1.

선형 함수 선택의 품질을 평가하기 위해 제곱이 계산됩니다.

선형 상관 계수라고 함 결정 계수.결정 계수는 결과 특성의 분산 비율을 나타냅니다. 와이,결과 특성의 전체 분산에서 회귀 분석으로 설명됩니다.

따라서 값 1은 분산 점유율을 나타냅니다. 와이,모델에서 고려되지 않은 다른 요인의 영향으로 인해 발생합니다.

자제력을 위한 질문

1. 최소자승법의 본질은?

2. 쌍별 회귀 분석은 몇 개의 변수를 제공합니까?

3. 변화 사이의 연관성을 결정하는 계수는 무엇입니까?

4. 결정계수는 어떤 한계 내에서 결정됩니까?

5. 상관-회귀 분석에서 매개변수 b를 추정합니까?

1. 크리스토퍼 도허티. 계량 경제학 소개. - M .: INFRA - M, 2001 - 402 p.

2. S.A. 보로디치. 계량 경제학. 민스크 LLC "새로운 지식" 2001.


3. R.U. Rakhmetova 계량경제학 단기 코스. 지도 시간. 알마티. 2004. -78p.

4. I.I. Eliseeva. - M.: “재정과 통계”, 2002

5. 월간 정보 및 분석 매거진.

비선형 경제 모델. 비선형 회귀 모델. 변수의 변환.

비선형 경제 모델..

변수의 변환.

탄력성 계수.

경제 현상 사이에 비선형 관계가 있는 경우 해당 비선형 함수를 사용하여 표현됩니다. 예를 들어 등변 쌍곡선 , 2도 포물선 등등

비선형 회귀에는 두 가지 클래스가 있습니다.

1. 분석에 포함된 설명 변수에 대해서는 비선형이지만 추정된 매개변수에 대해서는 선형인 회귀입니다. 예를 들면 다음과 같습니다.

다양한 차수의 다항식 - , ;

등변 쌍곡선 - ;

반대수 함수 - .

2. 추정되는 매개변수의 비선형 회귀는 다음과 같습니다.

힘 - ;

실증적 - ;

지수 - .

결과 특성의 개별 값의 제곱 편차의 총합 ~에평균값은 여러 가지 이유의 영향으로 인해 발생합니다. 전체 이유 세트를 조건부로 두 그룹으로 나누겠습니다. 연구중인 요소 x그리고 다른 요인.

요인이 결과에 영향을 미치지 않으면 그래프의 회귀선은 축과 평행합니다. 그리고

그러면 결과 특성의 전체 분산은 다른 요인의 영향으로 인한 것이며 편차 제곱의 총합은 잔차와 일치합니다. 다른 요인이 결과에 영향을 미치지 않으면 y 묶여와 함께 엑스기능적으로 잔차 제곱합은 0입니다. 이 경우 회귀분석으로 설명되는 편차 제곱합은 전체 제곱합과 같습니다.

상관 필드의 모든 점이 회귀선에 있는 것은 아니므로 요인의 영향으로 인해 항상 분산이 발생합니다. 엑스, 즉 회귀 ~에에 의해 엑스,다른 원인(설명할 수 없는 변형)으로 인해 발생합니다. 예측을 위한 회귀선의 적합성은 특성의 전체 변동 중 어느 부분에 따라 달라집니다. ~에설명된 변형을 설명합니다.

분명히 회귀로 인한 편차 제곱합이 잔차 제곱합보다 크면 회귀 방정식은 통계적으로 유의하며 요인은 다음과 같습니다. 엑스결과에 큰 영향을 미칩니다 유.

, 즉, 특성의 독립적인 변화의 자유도를 말합니다. 자유도는 모집단 n의 단위 수와 그로부터 결정되는 상수의 수와 관련이 있습니다. 연구 중인 문제와 관련하여 자유도 수는 독립 편차가 얼마나 되는지를 보여주어야 합니다.

회귀 방정식 전체의 중요성에 대한 평가는 다음을 사용하여 제공됩니다. 에프- 피셔 기준. 이 경우 회귀 계수가 0이라는 귀무 가설이 제시됩니다. 즉, 비 = 0, 따라서 요인 엑스결과에 영향을 미치지 않습니다 유.

F-검정을 즉시 계산하기 전에 분산 분석을 수행합니다. 그 중심 위치는 변수의 제곱 편차의 총합을 분해하여 차지합니다. ~에평균값에서 ~에"설명됨"과 "설명되지 않음"의 두 부분으로 나뉩니다.

- 편차 제곱의 총합

- 회귀 분석으로 설명되는 편차 제곱의 합

- 제곱 편차의 잔차 합계.

제곱된 편차의 합은 자유도와 관련이 있습니다. , 즉, 특성의 독립적인 변화의 자유도를 말합니다. 자유도 수는 인구 단위 수와 관련이 있습니다. N그리고 그것으로부터 결정된 상수의 수로. 연구 중인 문제와 관련하여 자유도 수는 독립 편차가 얼마나 되는지를 보여주어야 합니다. 주어진 제곱합을 형성하는 데 필요합니다.

자유도별 분산.

F-비율(F-검정):

귀무가설이 참인 경우이면 요인 분산과 잔차 분산이 서로 다르지 않습니다. H 0 의 경우 인자 분산이 잔여 분산을 여러 번 초과하도록 반박이 필요합니다. 영국 통계학자 Snedekor는 임계값 표를 개발했습니다. 에프- 귀무가설의 다양한 유의성 수준과 다양한 자유도에서의 관계. 테이블 값 에프-기준은 귀무가설이 존재할 확률의 주어진 수준에 대해 무작위 발산의 경우 발생할 수 있는 분산 비율의 최대값입니다. 계산된 값 에프- o가 테이블보다 크면 관계는 신뢰할 수 있는 것으로 간주됩니다.

이 경우 기호 간의 관계가 없다는 귀무 가설이 기각되고 이 관계의 중요성에 대한 결론이 도출됩니다. F 사실 > F 테이블 H 0은 거부됩니다.

값이 표에 나온 값보다 작은 경우 F 사실 ``, F 테이블, 귀무 가설의 확률은 지정된 수준보다 높으며 관계 존재에 대해 잘못된 결론을 도출할 심각한 위험 없이 기각될 수 없습니다. 이 경우 회귀 방정식은 통계적으로 유의하지 않은 것으로 간주됩니다. 그러나 그는 벗어나지 않습니다.

회귀계수의 표준오차

회귀 계수의 중요성을 평가하기 위해 해당 값을 표준 오류와 비교합니다. 즉, 실제 값이 결정됩니다. -학생 시험: 그런 다음 특정 유의 수준 및 자유도에서 테이블 값과 비교됩니다( N- 2).

표준 매개변수 오류 :

오차의 크기를 기준으로 선형 상관계수의 유의성을 확인합니다. 상관 계수 t r:

총 특성 차이 엑스:

다중 선형 회귀

모델 구축

다중 회귀두 개 이상의 요소를 사용하여 유효 특성의 회귀를 나타냅니다. 즉, 다음 형식의 모델입니다.

연구 대상에 영향을 미치는 다른 요인의 영향을 무시할 수 있다면 회귀 분석을 통해 모델링에 좋은 결과를 얻을 수 있습니다. 개별 경제 변수의 행동은 통제할 수 없습니다. 즉, 연구 중인 한 요인의 영향을 평가하기 위한 다른 모든 조건의 동일성을 보장하는 것은 불가능합니다. 이 경우 다른 요인을 모델에 도입하여 그 영향을 식별해야 합니다. 즉, 다중 회귀 방정식을 구성해야 합니다. y = a+b 1 x 1 +b 2 +…+b p x p + .

다중 회귀의 주요 목표는 많은 수의 요인으로 모델을 구축하는 동시에 각 요인의 영향과 모델링된 지표에 대한 결합된 영향을 결정하는 것입니다. 모델 사양에는 요인 선택과 회귀 방정식 유형 선택이라는 두 가지 문제 범위가 포함됩니다.

최소제곱법(OLS)을 사용하면 임의 오류가 포함된 여러 측정 결과를 사용하여 다양한 수량을 추정할 수 있습니다.

다국적기업의 특성

이 방법의 주요 아이디어는 제곱 오류의 합이 문제 해결의 정확성에 대한 기준으로 간주되어 최소화하려고 노력한다는 것입니다. 이 방법을 사용할 때 수치적 접근 방식과 분석적 접근 방식을 모두 사용할 수 있습니다.

특히, 수치 구현으로서 최소 제곱법은 알려지지 않은 무작위 변수에 대해 가능한 한 많은 측정을 수행하는 것을 포함합니다. 또한 계산이 많을수록 솔루션이 더 정확해집니다. 이 계산 세트(초기 데이터)를 기반으로 또 다른 추정 솔루션 세트를 얻은 다음 가장 좋은 솔루션을 선택합니다. 솔루션 세트가 매개변수화되면 최소 제곱법이 매개변수의 최적 값을 찾는 것으로 축소됩니다.

일련의 초기 데이터(측정) 및 예상되는 솔루션 세트에 대한 LSM 구현에 대한 분석적 접근 방식으로 확인이 필요한 특정 가설로 얻은 공식으로 표현될 수 있는 특정(기능적)이 결정됩니다. 이 경우 최소 제곱법은 원본 데이터의 제곱 오류 집합에서 이 함수의 최소값을 찾는 것입니다.

이는 오류 자체가 아니라 오류의 제곱이라는 점에 유의하세요. 왜? 사실 정확한 값과의 측정 편차는 양수이기도 하고 음수이기도 합니다. 평균을 결정할 때 단순 합산은 추정 품질에 대해 잘못된 결론을 내릴 수 있습니다. 양수 값과 음수 값을 취소하면 여러 측정값을 샘플링하는 힘이 줄어들기 때문입니다. 결과적으로 평가의 정확성이 높아집니다.

이런 일이 발생하지 않도록 제곱 편차를 합산합니다. 또한 측정값과 최종 추정치의 차원을 동일하게 하기 위해 오차 제곱의 합을 추출합니다.

일부 MNC 애플리케이션

MNC는 다양한 분야에서 널리 사용되고 있습니다. 예를 들어, 확률 이론 및 수학적 통계에서 이 방법은 무작위 변수 값의 범위 폭을 결정하는 표준 편차와 같은 무작위 변수의 특성을 결정하는 데 사용됩니다.

2차 다항식으로 함수를 근사화해 보겠습니다. 이를 위해 일반 방정식 시스템의 계수를 계산합니다.

, ,

다음과 같은 형식의 일반적인 최소 제곱 시스템을 만들어 보겠습니다.

시스템에 대한 솔루션은 찾기 쉽습니다:, , .

따라서 2차 다항식이 발견됩니다: .

이론적인 정보

페이지로 돌아가기<Введение в вычислительную математику. Примеры>

실시예 2. 다항식의 최적 차수 찾기.

페이지로 돌아가기<Введение в вычислительную математику. Примеры>

실시예 3. 경험적 의존성의 매개변수를 찾기 위한 정규 방정식 시스템 유도.

계수와 함수를 결정하기 위해 방정식 시스템을 유도해 보겠습니다. , 이는 주어진 함수의 점별 평균 제곱근 근사를 수행합니다. 함수를 구성해보자 그리고 이에 필요한 극한 조건을 적어보세요.

그러면 일반 시스템은 다음과 같은 형식을 취합니다.

우리는 알려지지 않은 매개변수에 대한 선형 방정식 시스템을 얻었으며 이는 쉽게 풀 수 있습니다.

이론적인 정보

페이지로 돌아가기<Введение в вычислительную математику. Примеры>

예.

변수 값에 대한 실험 데이터 엑스그리고 ~에표에 나와 있습니다.

정렬의 결과로 기능이 얻어집니다.

사용 최소제곱법, 선형 의존성을 통해 이러한 데이터를 근사화합니다. y=ax+b(매개변수 찾기 그리고 ). 두 선 중 어느 선이 (최소 제곱법의 관점에서) 실험 데이터를 더 잘 정렬하는지 알아보세요. 그림을 그리세요.

최소제곱법(LSM)의 핵심입니다.

임무는 두 변수의 함수가 일치하는 선형 의존 계수를 찾는 것입니다. 그리고 가장 작은 값을 취합니다. 즉, 주어진 그리고 발견된 직선과 실험 데이터의 편차 제곱의 합이 가장 작습니다. 이것이 최소제곱법의 핵심입니다.

따라서 예제를 푸는 것은 두 변수의 함수의 극값을 찾는 것으로 귀결됩니다.

계수를 찾기 위한 공식 도출.

두 개의 미지수가 있는 두 방정식의 시스템이 컴파일되고 해결됩니다. 함수의 편도함수 찾기 변수별 그리고 , 우리는 이러한 파생 상품을 0과 동일시합니다.

우리는 임의의 방법을 사용하여 결과 방정식 시스템을 해결합니다(예: 대체 방법으로또는 Cramer의 방법) 최소 제곱법(LSM)을 사용하여 계수를 찾는 공식을 얻습니다.

주어진 그리고 기능 가장 작은 값을 취합니다. 이 사실에 대한 증거는 아래 페이지 끝 부분의 텍스트에 나와 있습니다.

이것이 최소제곱법의 전부입니다. 매개변수를 찾는 공식 합계, , 및 매개변수가 포함되어 있습니다. N- 실험 데이터의 양. 이 금액의 값을 별도로 계산하는 것이 좋습니다.

계수 계산해서 찾은 .

이제 원래의 예를 기억할 시간입니다.

해결책.

우리의 예에서는 n=5. 필요한 계수의 공식에 포함된 금액을 쉽게 계산할 수 있도록 표를 작성합니다.

표의 네 번째 행의 값은 각 숫자에 대해 두 번째 행의 값과 세 번째 행의 값을 곱하여 얻습니다. .

표의 다섯 번째 행의 값은 각 숫자에 대해 두 번째 행의 값을 제곱하여 얻습니다. .

표의 마지막 열에 있는 값은 행 전체의 값의 합입니다.

최소제곱법의 공식을 사용하여 계수를 찾습니다. 그리고 . 표의 마지막 열에 있는 해당 값을 다음과 같이 대체합니다.

따라서, y = 0.165x+2.184— 원하는 근사 직선.

어떤 줄이 있는지 알아내는 것이 남아 있습니다. y = 0.165x+2.184또는 즉, 최소 제곱법을 사용하여 추정합니다.

최소제곱법의 오류 추정.

이렇게 하려면 이 선에서 원본 데이터의 편차 제곱의 합을 계산해야 합니다. 그리고 , 더 작은 값은 최소 제곱법의 의미에서 원래 데이터에 더 잘 근접하는 선에 해당합니다.

이후 , 그다음 직선 y = 0.165x+2.184원본 데이터에 더 가깝습니다.

최소 제곱법(LS) 방법을 그래픽으로 표현한 것입니다.

모든 것이 그래프에 명확하게 표시됩니다. 빨간색 선은 발견된 직선입니다. y = 0.165x+2.184, 파란색 선은 , 분홍색 점은 원본 데이터입니다.

이것이 필요한 이유는 무엇이며, 이러한 모든 근사치가 필요한 이유는 무엇입니까?

나는 개인적으로 데이터 평활화, 보간 및 외삽 문제를 해결하기 위해 이를 사용합니다(원래 예에서는 관찰된 값의 값을 찾도록 요청받을 수 있음). 와이~에 x=3아니면 언제 x=6최소제곱법을 사용함). 하지만 이에 대해서는 나중에 사이트의 다른 섹션에서 자세히 설명하겠습니다.

페이지 상단

증거.

그래서 발견되면 그리고 함수는 가장 작은 값을 취하므로, 이 시점에서 함수에 대한 2차 미분의 2차 형태의 행렬이 필요합니다. 긍정적으로 확실했습니다. 보여드리겠습니다.

2차 미분의 형식은 다음과 같습니다.

그건

따라서 이차 형식의 행렬은 다음 형식을 갖습니다.

요소의 값은 다음에 의존하지 않습니다. 그리고 .

행렬이 양의 정부호임을 보여드리겠습니다. 이렇게 하려면 각도 마이너가 양수여야 합니다.

1차 각도 마이너 . 점이 일치하지 않기 때문에 불평등이 엄격합니다. 다음에서 우리는 이것을 암시할 것입니다.

2차 각도 마이너

그것을 증명해보자 수학적 귀납법에 의해.

결론: 찾은 값 그리고 함수의 가장 작은 값에 해당 따라서 최소제곱법에 필요한 매개변수입니다.

알아낼 시간이 없나요?
솔루션 주문

페이지 상단

최소 제곱법을 사용하여 예측을 개발합니다. 문제 해결의 예

외삽법 과거와 현재의 추세, 패턴, 예측 대상의 미래 발전과의 연관성을 전파하는 데 기반을 둔 과학적 연구 방법입니다. 외삽 방법에는 다음이 포함됩니다. 이동평균법, 지수평활법, 최소제곱법.

본질 최소제곱법 관찰된 값과 계산된 값 사이의 제곱 편차의 합을 최소화하는 것으로 구성됩니다. 계산된 값은 선택한 방정식, 즉 회귀 방정식을 사용하여 찾습니다. 실제 값과 계산된 값 사이의 거리가 작을수록 회귀 방정식을 기반으로 한 예측이 더 정확해집니다.

연구되는 현상의 본질, 즉 시계열에 반영되는 변화에 대한 이론적 분석은 곡선을 선택하는 기초가 됩니다. 때로는 계열 수준 증가의 성격에 대한 고려 사항이 고려됩니다. 따라서 산술수열에서 출력 증가가 예상되는 경우 직선으로 평활화를 수행합니다. 성장이 기하급수적으로 진행되는 것으로 밝혀지면 지수 함수를 사용하여 평활화를 수행해야 합니다.

최소제곱법의 작동 공식 : Y t+1 = a*X + b, 여기서 t + 1 – 예측 기간; Уt+1 – 예측 지표; a와 b는 계수입니다. X는 시간의 상징이다.

계수 a와 b의 계산은 다음 공식을 사용하여 수행됩니다.

여기서, Uf – 역학 계열의 실제 값; n – 시계열 수준의 수

최소 자승법을 사용한 시계열 평활화는 연구 중인 현상의 전개 패턴을 ​​반영하는 역할을 합니다. 추세의 분석적 표현에서 시간은 독립변수로 간주되며 계열의 수준은 이 독립변수의 함수로 작용합니다.

현상의 전개는 시작점으로부터 몇 년이 지났는가가 아니라 어떤 요인이 전개에 영향을 미쳤는지, 어떤 방향과 강도로 영향을 미쳤는가에 달려 있습니다. 여기에서 시간이 지남에 따라 현상의 발전은 이러한 요인의 작용의 결과라는 것이 분명합니다.

곡선 유형, 시간에 대한 분석 의존성 유형을 올바르게 설정하는 것은 예측 분석의 가장 어려운 작업 중 하나입니다. .

추세를 설명하는 함수 유형 선택(파라미터는 최소 제곱법에 의해 결정됨)은 대부분의 경우 여러 함수를 구성하고 값에 따라 서로 비교하여 경험적으로 수행됩니다. 평균 제곱 오차는 다음 공식으로 계산됩니다.

여기서 UV는 역학 계열의 실제 값입니다. Ur – 역학 계열의 계산된(평활화된) 값; n – 시계열 수준의 수 p – 추세(개발 추세)를 설명하는 공식에 정의된 매개변수의 수입니다.

최소제곱법의 단점 :

  • 연구 중인 경제 현상을 수학 방정식을 사용하여 설명하려고 할 때 예측은 짧은 기간 동안 정확할 것이며 새로운 정보가 제공되면 회귀 방정식을 다시 계산해야 합니다.
  • 표준 컴퓨터 프로그램을 사용하여 풀 수 있는 회귀 방정식을 선택하는 복잡성.

최소제곱법을 사용하여 예측을 개발하는 예

. 해당 지역의 실업률을 특성화하는 데이터가 있습니다.

  • 이동 평균, 지수 평활, 최소 제곱법을 사용하여 11월, 12월, 1월에 해당 지역의 실업률 예측을 구성합니다.
  • 각 방법을 사용하여 결과 예측의 오류를 계산합니다.
  • 결과를 비교하고 결론을 도출합니다.

최소제곱해

이 문제를 해결하기 위해 필요한 계산을 수행할 표를 작성하겠습니다.

ε = 28.63/10 = 2.86% 예측 정확도높은.

결론 : 계산을 통해 얻은 결과 비교 이동평균법 , 지수평활법 그리고 최소자승법을 사용하면 지수평활법을 사용하여 계산할 때 평균 상대오차가 20~50% 범위에 든다고 할 수 있습니다. 이는 이 경우 예측의 정확성이 만족스러울 뿐이라는 것을 의미합니다.

첫 번째와 세 번째 경우에는 평균 상대 오차가 10% 미만이므로 예측 정확도가 높습니다. 그러나 이동 평균 방법을 사용하면 이 방법을 사용할 때 평균 상대 오차가 가장 작기 때문에 보다 신뢰할 수 있는 결과를 얻을 수 있었습니다(11월 예측 - 1.52%, 12월 예측 - 1.53%, 1월 예측 - 1.49%). ,13%.

최소제곱법

이 주제에 대한 다른 기사:

사용된 소스 목록

  1. 사회적 위험을 진단하고 과제, 위협 및 사회적 결과를 예측하는 데 대한 과학적, 방법론적 권장 사항입니다. 러시아 국립 사회 대학교. 모스크바. 2010;
  2. 블라디미로바 L.P. 시장 상황 예측 및 계획: 교과서. 용돈. M .: 출판사 "Dashkov and Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. 국가 경제 예측: 교육 및 방법론 매뉴얼. 예카테린부르크: 우랄 출판사. 상태 이콘. 대학, 2007;
  4. 슬럿 스킨 L.N. 비즈니스 예측에 관한 MBA 과정입니다. M.: 알피나 비즈니스 북, 2006.

MNC 프로그램

데이터 입력

데이터 및 근사치 y = a + b x

- 실험 포인트의 수;
x 나는- 한 지점의 고정 매개변수 값 ;
응 나- 한 지점에서 측정된 매개변수의 값 ;
와 나- 한 지점의 측정 중량 ;
응 나, 계산.- 측정값과 회귀 계산값의 차이 와이그 시점에 ;
Sxi(xi)- 오류 추정 x 나는측정할 때 와이그 시점에 .

데이터 및 근사치 y = kx

x 나는 응 나 와 나 응 나, 계산. Δy 나는 Sxi(xi)

차트를 클릭하세요

MNC 온라인 프로그램의 사용자 매뉴얼입니다.

데이터 필드에 하나의 실험 지점에서 'x'와 'y' 값을 각각의 별도 줄에 입력합니다. 값은 공백 문자(공백 또는 탭)로 구분되어야 합니다.

세 번째 값은 'w' 지점의 가중치일 수 있습니다. 포인트의 가중치를 지정하지 않으면 1과 같습니다. 대부분의 경우 실험점의 가중치는 알 수 없거나 계산되지 않습니다. 모든 실험 데이터는 동등한 것으로 간주됩니다. 때로는 연구된 값 범위의 가중치가 완전히 동일하지 않으며 이론적으로 계산할 수도 있습니다. 예를 들어, 분광 광도법에서는 간단한 공식을 사용하여 무게를 계산할 수 있지만 인건비 절감을 위해 대부분 무시됩니다.

Microsoft Office의 Excel이나 Open Office의 Calc와 같은 Office 제품군의 스프레드시트에서 클립보드를 통해 데이터를 붙여넣을 수 있습니다. 이렇게 하려면 스프레드시트에서 복사할 데이터 범위를 선택하고 클립보드에 복사한 다음 이 페이지의 데이터 필드에 데이터를 붙여넣습니다.

최소 제곱법을 사용하여 계산하려면 두 개의 계수 'b'(선 경사각의 탄젠트)와 'a'('y' 축에서 선이 가로채는 값)를 결정하는 데 최소 두 개의 점이 필요합니다.

계산된 회귀계수의 오차를 추정하려면 실험점 수를 2개 이상으로 설정해야 합니다.

최소제곱법(LSM).

실험 포인트 수가 많을수록 계수의 통계적 평가가 더 정확해지고(스튜던트 계수 감소로 인해) 추정치가 일반 표본의 추정치에 더 가까워집니다.

각 실험 지점에서 값을 얻는 것은 상당한 인건비와 관련되는 경우가 많기 때문에 관리 가능한 추정치를 제공하고 과도한 인건비로 이어지지 않는 절충안의 실험이 수행되는 경우가 많습니다. 일반적으로 두 개의 계수가 있는 선형 최소 제곱 의존성에 대한 실험 포인트 수는 5-7 포인트 영역에서 선택됩니다.

선형 관계에 대한 최소제곱의 간략한 이론

[`y_i`, `x_i`] 값 쌍 형태의 실험 데이터 세트가 있다고 가정해 보겠습니다. 여기서 `i`는 1에서 `n`까지의 하나의 실험 측정값입니다. `y_i` - `i` 지점에서 측정된 양의 값; `x_i` - `i` 지점에 설정한 매개변수의 값입니다.

예를 들어 옴의 법칙의 작용을 생각해 보십시오. 전기 회로의 섹션 간 전압(전위차)을 변경하여 이 섹션을 통과하는 전류의 양을 측정합니다. 물리학은 실험적으로 발견된 의존성을 제공합니다.

`나 = U/R`,
여기서 'I'는 현재 강도입니다. `R` - 저항; `U` - 전압.

이 경우 'y_i'는 측정 중인 전류 값이고, 'x_i'는 전압 값입니다.

또 다른 예로, 용액에 있는 물질의 용액에 의한 빛의 흡수를 생각해 보십시오. 화학은 다음 공식을 제공합니다.

`A = ε l C`,
여기서 'A'는 용액의 광학 밀도입니다. `ε` - 용질의 투과율; `l` - 빛이 용액이 담긴 큐벳을 통과할 때의 경로 길이. 'C'는 용해된 물질의 농도입니다.

이 경우 'y_i'는 흡광도 'A'의 측정값이고, 'x_i'는 우리가 지정하는 물질의 농도값입니다.

'x_i' 할당의 상대 오류가 측정 'y_i'의 상대 오류보다 훨씬 작은 경우를 고려해 보겠습니다. 또한 측정된 모든 값 'y_i'는 무작위이고 정규 분포를 따른다고 가정합니다. 정규분배법칙을 따른다.

'x'에 대한 'y'의 선형 의존성의 경우 이론적 의존성을 다음과 같이 작성할 수 있습니다.
`y = a + b x`.

기하학적 관점에서 'b' 계수는 'x' 축에 대한 선의 경사각의 탄젠트를 나타내고, 계수 'a' - 축 교차점의 'y' 값을 나타냅니다. `y` 축(`x = 0`)과 선을 이룹니다.

회귀선 매개변수 찾기

실험에서 `y_i`의 측정값은 실생활에 항상 내재되어 있는 측정 오차로 인해 이론적인 직선에 정확하게 놓일 수 없습니다. 따라서 선형 방정식은 방정식 시스템으로 표현되어야 합니다.
`y_i = a + b x_i + ε_i` (1),
여기서 'ε_i'는 'i'번째 실험에서 알 수 없는 'y'의 측정 오류입니다.

종속성 (1)이라고도 합니다. 회귀, 즉. 통계적으로 유의미한 두 수량의 서로 의존성.

의존성을 복원하는 작업은 실험 지점 [`y_i`, `x_i`]에서 계수 `a`와 `b`를 찾는 것입니다.

계수 `a`와 `b`를 찾기 위해 일반적으로 사용됩니다. 최소제곱법(MNC). 이는 최대 우도 원칙의 특별한 경우입니다.

(1)을 `ε_i = y_i - a - b x_i` 형식으로 다시 작성해 보겠습니다.

그러면 제곱 오차의 합은 다음과 같습니다.
`Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

최소제곱(least squares)의 원리는 매개변수 'a'와 'b'에 대한 합(2)을 최소화하는 것입니다..

최소값은 'a' 및 'b' 계수에 대한 합(2)의 편도함수가 0과 같을 때 달성됩니다.
`frac(부분 Φ)(부분 a) = frac(부분 합계_(i=1)^(n) (y_i - a - b x_i)^2)(부분 a) = 0`
`frac(부분 Φ)(부분 b) = frac(부분 합계_(i=1)^(n) (y_i - a - b x_i)^2)(부분 b) = 0`

도함수를 확장하면 두 개의 미지수를 갖는 두 방정식의 시스템을 얻을 수 있습니다.
`sum_(i=1)^(n) (2a + 2bx_i — 2y_i) = sum_(i=1)^(n) (a + bx_i — y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i — 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i — x_iy_i) = 0`

괄호를 열고 필요한 계수와 관계없이 합계를 나머지 절반으로 전달하면 선형 방정식 시스템을 얻습니다.
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

결과 시스템을 풀면 'a' 및 'b' 계수에 대한 공식을 찾을 수 있습니다.

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 — sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i — sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.2)

이 공식은 'n > 1'(최소 2개의 점을 사용하여 선을 구성할 수 있음)과 행렬식이 'D = n sum_(i=1)^(n) x_i^2 - (sum_(i= 1)일 때 해를 갖습니다. )^(n) x_i)^2 != 0`, 즉 실험의 `x_i` 지점이 다를 때(즉, 선이 수직이 아닐 때)

회귀선 계수의 오차 추정

계수 'a'와 'b'를 계산할 때의 오류를 보다 정확하게 평가하려면 많은 수의 실험 지점이 바람직합니다. n = 2인 경우 계수의 오차를 추정하는 것은 불가능합니다. 근사선은 두 점을 고유하게 통과합니다.

확률변수 'V'의 오류가 결정됩니다. 오류 축적의 법칙
`S_V^2 = sum_(i=1)^p (frac(부분 f)(부분 z_i))^2 S_(z_i)^2`,
여기서 `p`는 `S_V` 오류에 영향을 미치는 오류 `S_(z_i)`가 있는 `z_i` 매개변수의 수입니다.
`f`는 `z_i`에 대한 `V`의 의존성의 함수입니다.

계수 'a'와 'b'의 오차에 대한 오차 축적의 법칙을 적어 보겠습니다.
`S_a^2 = sum_(i=1)^(n)(frac(부분 a)(부분 y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(부분 a )(부분 x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(부분 a)(부분 y_i))^2 `,
`S_b^2 = sum_(i=1)^(n)(frac(부분 b)(부분 y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(부분 b )(부분 x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(부분 b)(부분 y_i))^2 `,
왜냐하면 `S_(x_i)^2 = 0`(이전에 `x` 오류는 무시할 수 있다고 예약했습니다).

`S_y^2 = S_(y_i)^2` - `y` 측정의 오류(분산, 제곱 표준 편차). 오류는 `y`의 모든 값에 대해 균일하다고 가정합니다.

'a'와 'b'를 계산하기 위한 공식을 우리가 얻는 결과 표현식으로 대체합니다.

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 — x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i — sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

대부분의 실제 실험에서는 'Sy' 값이 측정되지 않습니다. 이를 위해서는 계획의 하나 또는 여러 지점에서 여러 병렬 측정(실험)을 수행해야 하며, 이로 인해 실험 시간(및 비용)이 늘어납니다. 따라서 일반적으로 회귀선에서 'y'의 편차는 무작위로 간주될 수 있다고 가정합니다. 이 경우 분산 'y'의 추정치는 공식을 사용하여 계산됩니다.

`S_y^2 = S_(y, 나머지)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

'n-2' 제수가 나타나는 이유는 동일한 실험 데이터 샘플을 사용하여 두 계수를 계산했기 때문에 자유도가 감소했기 때문입니다.

이 추정치는 회귀선 `S_(y,rest)^2`에 대한 잔차 분산이라고도 합니다.

계수의 유의성은 스튜던트 t 테스트를 사용하여 평가됩니다.

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

계산된 기준 't_a', 't_b'가 표로 작성된 기준 't(P, n-2)'보다 작으면 해당 계수는 주어진 확률 'P'에서 0과 크게 다르지 않은 것으로 간주됩니다.

선형 관계 설명의 품질을 평가하려면 Fisher 기준을 사용하여 평균을 기준으로 'S_(y, Rest)^2' 및 'S_(bar y)'를 비교할 수 있습니다.

`S_(bar y) = frac(sum_(i=1)^n (y_i — bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i — (sum_(i= 1)^n y_i) /n)^2) (n-1)` - 평균을 기준으로 한 분산 'y'의 샘플 추정치입니다.

의존성을 설명하는 회귀 방정식의 효율성을 평가하기 위해 Fisher 계수가 계산됩니다.
`F = S_(bar y) / S_(y, 나머지)^2`,
이는 표 형식의 Fisher 계수 'F(p, n-1, n-2)'와 비교됩니다.

`F > F(P, n-1, n-2)`인 경우 회귀수학식을 사용한 관계 `y = f(x)`의 설명과 평균을 사용한 설명의 차이가 확률적으로 통계적으로 유의하다고 간주됩니다. '피'. 저것들. 회귀는 평균 주변의 'y' 확산보다 종속성을 더 잘 설명합니다.

차트를 클릭하세요
테이블에 값을 추가하려면

최소제곱법. 최소 제곱법은 알려지지 않은 매개변수 a, b, c, 허용되는 기능적 의존성을 결정하는 것을 의미합니다.

최소제곱법은 알려지지 않은 매개변수를 결정하는 것을 의미합니다. 가, 비, ㄷ,…수용된 기능적 의존성

y = f(x,a,b,c,…),

이는 오류의 최소 평균 제곱(분산)을 제공합니다.

, (24)

여기서 x i, y i는 실험에서 얻은 숫자 쌍의 집합입니다.

여러 변수의 함수의 극값에 대한 조건은 부분 도함수가 0과 같다는 조건이므로 매개변수는 가, 비, ㄷ,…방정식 시스템에서 결정됩니다.

; ; ; … (25)

함수 유형 다음에 매개변수를 선택하려면 최소 제곱법이 사용된다는 점을 기억해야 합니다. y = f(x)한정된

이론적 고려에서 경험적 공식이 무엇이어야 하는지에 대한 결론을 도출할 수 없는 경우 시각적 표현, 주로 관찰된 데이터의 그래픽 표현을 따라야 합니다.

실제로는 다음 유형의 기능으로 제한되는 경우가 가장 많습니다.

1) 선형 ;

2) 이차 가.

예.

변수 값에 대한 실험 데이터 엑스그리고 ~에표에 나와 있습니다.

정렬의 결과로 기능이 얻어집니다.

사용 최소제곱법, 선형 의존성을 통해 이러한 데이터를 근사화합니다. y=ax+b(매개변수 찾기 그리고 ). 두 선 중 어느 선이 (최소 제곱법의 관점에서) 실험 데이터를 더 잘 정렬하는지 알아보세요. 그림을 그리세요.

최소제곱법(LSM)의 핵심입니다.

임무는 두 변수의 함수가 일치하는 선형 의존 계수를 찾는 것입니다. 그리고 가장 작은 값을 취합니다. 즉, 주어진 그리고 발견된 직선과 실험 데이터의 편차 제곱의 합이 가장 작습니다. 이것이 최소제곱법의 핵심입니다.

따라서 예제를 푸는 것은 두 변수의 함수의 극값을 찾는 것으로 귀결됩니다.

계수를 찾기 위한 공식 도출.

두 개의 미지수가 있는 두 방정식의 시스템이 컴파일되고 해결됩니다. 함수의 편도함수 찾기 변수별 그리고 , 우리는 이러한 파생 상품을 0과 동일시합니다.

우리는 임의의 방법을 사용하여 결과 방정식 시스템을 해결합니다(예: 대체 방법으로또는 크레이머의 방법) 최소제곱법(LSM)을 사용하여 계수를 찾는 공식을 구합니다.

주어진 그리고 기능 가장 작은 값을 취합니다. 이 사실에 대한 증거가 제시된다 아래 페이지 끝 부분의 텍스트에서.

이것이 최소제곱법의 전부입니다. 매개변수를 찾는 공식 합계,, 및 매개변수가 포함되어 있습니다. N- 실험 데이터의 양. 이 금액의 값을 별도로 계산하는 것이 좋습니다. 계수 계산해서 찾은 .

이제 원래의 예를 기억할 시간입니다.

해결책.

우리의 예에서는 n=5. 필요한 계수의 공식에 포함된 금액을 쉽게 계산할 수 있도록 표를 작성합니다.

표의 네 번째 행의 값은 각 숫자에 대해 두 번째 행의 값과 세 번째 행의 값을 곱하여 얻습니다. .

표의 다섯 번째 행의 값은 각 숫자에 대해 두 번째 행의 값을 제곱하여 얻습니다. .

표의 마지막 열에 있는 값은 행 전체의 값의 합입니다.

최소제곱법의 공식을 사용하여 계수를 찾습니다. 그리고 . 표의 마지막 열에 있는 해당 값을 다음과 같이 대체합니다.

따라서, y = 0.165x+2.184- 원하는 근사 직선.

어떤 줄이 있는지 알아내는 것이 남아 있습니다. y = 0.165x+2.184또는 즉, 최소 제곱법을 사용하여 추정합니다.

최소제곱법의 오류 추정.

이렇게 하려면 이 선에서 원본 데이터의 편차 제곱의 합을 계산해야 합니다. 그리고 , 더 작은 값은 최소 제곱법의 의미에서 원래 데이터에 더 잘 근접하는 선에 해당합니다.

이후 , 그다음 직선 y = 0.165x+2.184원본 데이터에 더 가깝습니다.

최소 제곱법(LS) 방법을 그래픽으로 표현한 것입니다.

모든 것이 그래프에 명확하게 표시됩니다. 빨간색 선은 발견된 직선입니다. y = 0.165x+2.184, 파란색 선은 , 분홍색 점은 원본 데이터입니다.

실제로 다양한 프로세스, 특히 경제적, 물리적, 기술적, 사회적 프로세스를 모델링할 때 특정 고정 지점에서 알려진 값으로부터 함수의 대략적인 값을 계산하는 하나 또는 다른 방법이 널리 사용됩니다.

이런 종류의 함수 근사 문제가 자주 발생합니다.

    실험 결과 얻은 표 데이터를 사용하여 연구 중인 공정의 특성량 값을 계산하기 위한 대략적인 공식을 구성할 때

    수치 적분, 미분, 미분 방정식 풀기 등;

    필요한 경우 고려된 간격의 중간 지점에서 함수 값을 계산합니다.

    특히 예측할 때 고려된 구간 외부에서 프로세스의 특성량 값을 결정할 때.

테이블로 특정된 특정 프로세스를 모델링하기 위해 최소 제곱법을 기반으로 이 프로세스를 대략적으로 설명하는 함수를 구성하는 경우 이를 근사 함수(회귀)라고 하며 근사 함수 자체를 구성하는 작업 자체를 호출합니다. 근사 문제.

이 기사에서는 이러한 유형의 문제를 해결하기 위한 MS Excel 패키지의 기능에 대해 설명하고, 또한 회귀 분석의 기초가 되는 표로 작성된 함수에 대한 회귀를 구성(생성)하는 방법과 기술을 제공합니다.

Excel에는 회귀 분석을 위한 두 가지 옵션이 있습니다.

    연구 중인 프로세스 특성에 대한 데이터 테이블을 기반으로 구축된 다이어그램에 선택한 회귀(추세선) 추가(다이어그램이 구성된 경우에만 사용 가능)

    Excel 워크시트에 내장된 통계 기능을 사용하면 원본 데이터 테이블에서 직접 회귀(추세선)를 얻을 수 있습니다.

차트에 추세선 추가

프로세스를 설명하고 다이어그램으로 표현되는 데이터 테이블의 경우 Excel에는 다음을 수행할 수 있는 효과적인 회귀 분석 도구가 있습니다.

    최소 제곱법을 기반으로 구축하고 다양한 정확도로 연구 중인 프로세스를 모델링하는 5가지 유형의 회귀 분석을 다이어그램에 추가합니다.

    구성된 회귀 방정식을 다이어그램에 추가합니다.

    선택한 회귀와 차트에 표시된 데이터의 일치 정도를 결정합니다.

차트 데이터를 기반으로 Excel을 사용하면 다음 방정식으로 지정되는 선형, 다항식, 로그, 거듭제곱, 지수 유형의 회귀를 얻을 수 있습니다.

y = y(x)

여기서 x는 종종 자연수 시퀀스(1; 2; 3; ...)의 값을 취하고 예를 들어 연구 중인 프로세스 시간의 카운트다운(특성)을 생성하는 독립 변수입니다.

1 . 선형 회귀는 값이 일정한 비율로 증가하거나 감소하는 특성을 모델링하는 데 적합합니다. 이는 연구 중인 프로세스에 대해 구성할 수 있는 가장 간단한 모델입니다. 이는 다음 방정식에 따라 구성됩니다.

y = mx + b

여기서 m은 x축에 대한 선형 회귀 기울기의 접선입니다. b - 선형 회귀와 세로축의 교차점 좌표.

2 . 다항식 추세선은 여러 가지 뚜렷한 극단(최대값과 최소값)이 있는 특성을 설명하는 데 유용합니다. 다항식 차수의 선택은 연구 중인 특성의 극값 수에 따라 결정됩니다. 따라서 2차 다항식은 최대값 또는 최소값이 하나만 있는 프로세스를 잘 설명할 수 있습니다. 3차 다항식 - 극값이 2개 이하입니다. 4차 다항식 - 극값이 3개 이하입니다.

이 경우 추세선은 다음 방정식에 따라 구성됩니다.

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

여기서 계수 c0, c1, c2,...c6은 구성 중에 값이 결정되는 상수입니다.

3 . 로그 추세선은 처음에는 값이 급격하게 변하다가 점차 안정화되는 특성을 모델링할 때 성공적으로 사용됩니다.

y = c ln(x) + b

4 . 연구 중인 관계의 값이 성장률의 지속적인 변화를 특징으로 하는 경우 거듭제곱 법칙 추세선은 좋은 결과를 제공합니다. 그러한 의존성의 예는 자동차의 균일하게 가속된 움직임의 그래프입니다. 데이터에 0 또는 음수 값이 있으면 거듭제곱 추세선을 사용할 수 없습니다.

다음 방정식에 따라 구성됩니다.

y = cxb

여기서 계수 b, c는 상수입니다.

5 . 데이터의 변화율이 지속적으로 증가하는 경우 지수 추세선을 사용해야 합니다. 0 또는 음수 값을 포함하는 데이터의 경우 이러한 유형의 근사도 적용할 수 없습니다.

다음 방정식에 따라 구성됩니다.

y = cebx

여기서 계수 b, c는 상수입니다.

추세선을 선택할 때 Excel은 근사치의 신뢰성을 나타내는 R2 값을 자동으로 계산합니다. R2 값이 1에 가까울수록 추세선이 연구 중인 프로세스에 더 안정적으로 접근합니다. 필요한 경우 R2 값을 항상 차트에 표시할 수 있습니다.

공식에 의해 결정됩니다:

데이터 시리즈에 추세선을 추가하려면:

    일련의 데이터를 기반으로 차트를 활성화합니다. 즉, 차트 영역 내부를 클릭합니다. 다이어그램 항목이 기본 메뉴에 나타납니다.

    이 항목을 클릭하면 추세선 추가 명령을 선택해야하는 메뉴가 화면에 나타납니다.

데이터 시리즈 중 하나에 해당하는 그래프 위로 마우스 포인터를 이동하고 마우스 오른쪽 버튼을 클릭하면 동일한 작업을 쉽게 구현할 수 있습니다. 표시되는 상황에 맞는 메뉴에서 추세선 추가 명령을 선택합니다. 유형 탭이 열린 화면에 추세선 대화 상자가 나타납니다(그림 1).

그 후에는 다음이 필요합니다.

유형 탭에서 필요한 추세선 유형을 선택합니다. 기본적으로 선형 유형이 선택됩니다. 다항식 유형의 경우 차수 필드에서 선택한 다항식의 차수를 지정합니다.

1 . 시리즈 기반 필드에는 해당 차트의 모든 데이터 시리즈가 나열됩니다. 특정 데이터 시리즈에 추세선을 추가하려면 시리즈 기반 필드에서 해당 이름을 선택합니다.

필요한 경우 매개변수 탭(그림 2)으로 이동하여 추세선에 대해 다음 매개변수를 설정할 수 있습니다.

    근사(평활화) 곡선의 이름 필드에서 추세선의 이름을 변경합니다.

    예측 필드에서 예측 기간 수(앞으로 또는 뒤로)를 설정합니다.

    다이어그램 영역에 추세선 방정식을 표시합니다. 이 경우 다이어그램에 방정식 표시 확인란을 활성화해야 합니다.

    다이어그램 영역에 근사 신뢰도 값 R2를 표시합니다. 이 경우 다이어그램에 근사 신뢰도 값 배치(R^2) 확인란을 활성화해야 합니다.

    추세선과 Y축의 교차점을 설정합니다. 이 경우 한 지점에서 곡선과 Y축의 교차점에 대한 확인란을 활성화해야 합니다.

    확인 버튼을 클릭하여 대화 상자를 닫습니다.

이미 그려진 추세선 편집을 시작하려면 다음 세 가지 방법이 있습니다.

    이전에 추세선을 선택한 후 형식 메뉴에서 선택한 추세선 명령을 사용합니다.

    추세선을 마우스 오른쪽 버튼으로 클릭하면 나타나는 상황에 맞는 메뉴에서 추세선 서식 명령을 선택합니다.

    추세선을 더블클릭하세요.

보기, 유형, 매개변수라는 세 개의 탭이 포함된 추세선 형식 대화 상자가 화면에 나타납니다(그림 3). 마지막 두 탭의 내용은 추세선 대화 상자의 유사한 탭과 완전히 일치합니다(그림 1). -2). 보기 탭에서는 선 종류, 색상, 두께를 설정할 수 있습니다.

이미 그려진 추세선을 삭제하려면 삭제할 추세선을 선택하고 삭제 키를 누르세요.

고려되는 회귀 분석 도구의 장점은 다음과 같습니다.

    데이터 테이블을 만들지 않고도 차트에 추세선을 구성하는 것이 상대적으로 용이합니다.

    제안된 추세선 유형의 상당히 광범위한 목록. 이 목록에는 가장 일반적으로 사용되는 회귀 유형이 포함되어 있습니다.

    임의의(상식의 한계 내에서) 단계 수와 후진 단계를 통해 연구 중인 프로세스의 동작을 예측할 수 있는 능력

    분석 형태로 추세선 방정식을 얻는 능력;

    필요한 경우 근사의 신뢰성에 대한 평가를 얻을 수 있는 가능성.

단점은 다음과 같습니다.

    추세선 구성은 일련의 데이터를 기반으로 작성된 다이어그램이 있는 경우에만 수행됩니다.

    얻은 추세선 방정식을 기반으로 연구 중인 특성에 대한 데이터 시리즈를 생성하는 프로세스가 다소 복잡합니다. 필요한 회귀 방정식은 원본 데이터 시리즈 값이 변경될 때마다 업데이트되지만 차트 영역 내에서만 업데이트됩니다. , 이전 선 방정식 추세를 기반으로 형성된 데이터 시리즈는 변경되지 않습니다.

    피벗 차트 보고서에서 차트 또는 관련 피벗 테이블 보고서의 보기를 변경해도 기존 추세선은 유지되지 않습니다. 즉, 추세선을 그리거나 피벗 차트 보고서의 서식을 지정하기 전에 보고서 레이아웃이 필수 요구 사항을 충족하는지 확인해야 합니다.

추세선은 그래프, 히스토그램, 평면 비표준 영역 차트, 막대 차트, 분산형 차트, 거품형 차트, 주식형 차트 등 차트에 표시되는 데이터 시리즈를 보완하는 데 사용할 수 있습니다.

3D, 정규화된, 방사형, 원형 ​​및 도넛형 차트의 데이터 계열에는 추세선을 추가할 수 없습니다.

Excel의 기본 제공 기능 사용

Excel에는 차트 영역 외부에 추세선을 그리는 회귀 분석 도구도 있습니다. 이 목적으로 사용할 수 있는 통계 워크시트 함수가 많이 있지만 이들 모두 선형 또는 지수 회귀 분석만 작성할 수 있습니다.

Excel에는 특히 선형 회귀를 구성하는 여러 가지 기능이 있습니다.

    경향;

  • SLOPE 및 CUT.

특히 지수 추세선을 구성하기 위한 여러 기능은 다음과 같습니다.

    LGRFPRIBL.

TREND 및 GROWTH 함수를 사용하여 회귀를 구성하는 기술은 거의 동일합니다. LINEST와 LGRFPRIBL 함수 쌍에 대해서도 마찬가지입니다. 이 네 가지 함수의 경우 값 테이블을 만들 때 배열 수식과 같은 Excel 기능을 사용하므로 회귀 작성 프로세스가 다소 복잡해집니다. 또한 우리 의견으로는 선형 회귀의 구성이 SLOPE 및 INTERCEPT 함수를 사용하여 가장 쉽게 수행된다는 점에 유의하십시오. 첫 번째 함수는 선형 회귀의 기울기를 결정하고 두 번째 함수는 회귀에 의해 가로채는 세그먼트를 결정합니다. y축.

회귀 분석을 위한 내장 함수 도구의 장점은 다음과 같습니다.

    추세선을 정의하는 모든 내장 통계 함수에 대해 연구 중인 특성의 데이터 시리즈를 생성하는 매우 간단하고 균일한 프로세스입니다.

    생성된 데이터 계열을 기반으로 추세선을 구성하는 표준 방법론

    앞으로 또는 뒤로 필요한 단계 수를 통해 연구 중인 프로세스의 동작을 예측하는 능력입니다.

단점은 Excel에 다른 유형(선형 및 지수형 제외) 추세선을 생성하기 위한 기본 제공 기능이 없다는 점입니다. 이러한 상황에서는 연구 중인 프로세스의 충분히 정확한 모델을 선택하고 현실에 가까운 예측을 얻는 것을 허용하지 않는 경우가 많습니다. 또한 TREND 및 GROWTH 함수를 사용할 경우 추세선의 방정식을 알 수 없습니다.

저자는 회귀 분석 과정을 어느 정도 완전하게 제시하려고 하지 않았다는 점에 유의해야 합니다. 주요 임무는 근사 문제를 해결할 때 특정 예를 사용하여 Excel 패키지의 기능을 보여주는 것입니다. 회귀 및 예측 구축을 위해 Excel에 어떤 효과적인 도구가 있는지 보여줍니다. 회귀 분석에 대한 광범위한 지식이 없는 사용자도 이러한 문제를 비교적 쉽게 해결할 수 있는 방법을 보여줍니다.

특정 문제 해결의 예

나열된 Excel 도구를 사용하여 특정 문제를 해결하는 방법을 살펴보겠습니다.

문제 1

1995-2002년 자동차 운송 기업의 이익에 대한 데이터 표입니다. 다음을 수행해야 합니다.

    다이어그램을 작성하십시오.

    차트에 선형 및 다항식(2차 및 3차) 추세선을 추가합니다.

    추세선 방정식을 사용하여 1995~2004년 각 추세선에 대한 기업 이익에 대한 표 형식 데이터를 얻습니다.

    2003년과 2004년 기업의 이익을 예측해 보세요.

문제의 해결

    Excel 워크시트의 A4:C11 셀 범위에 그림 3에 표시된 워크시트를 입력합니다. 4.

    B4:C11 셀 범위를 선택하고 다이어그램을 작성합니다.

    구성된 다이어그램을 활성화하고 위에서 설명한 방법에 따라 추세선 대화 상자(그림 1 참조)에서 추세선 유형을 선택한 후 선형, 2차 및 3차 추세선을 다이어그램에 교대로 추가합니다. 동일한 대화 상자에서 매개변수 탭(그림 2 참조)을 열고 근사(평활) 곡선 이름 필드에 추가되는 추세의 이름을 입력한 다음 앞으로 예측 기간 필드에 다음을 설정합니다. 가치 2, 앞으로 2년 동안의 수익 예측을 할 예정이기 때문입니다. 다이어그램 영역에 회귀 방정식과 근사 신뢰도 값 R2를 표시하려면 화면에 방정식 표시 확인란을 활성화하고 근사 신뢰도 값(R^2)을 다이어그램에 배치합니다. 더 나은 시각적 인식을 위해 추세선 형식 대화 상자의 보기 탭을 사용하여 구성된 추세선의 유형, 색상 및 두께를 변경합니다(그림 3 참조). 추세선이 추가된 결과 다이어그램은 그림 1에 표시됩니다. 5.

    1995~2004년 각 추세선에 대한 기업 이익에 대한 표 형식 데이터를 얻습니다. 그림에 제시된 추세선 방정식을 사용해 보겠습니다. 5. 이렇게 하려면 D3:F3 범위의 셀에 선택한 추세선 유형에 대한 텍스트 정보(선형 추세, 2차 추세, 3차 추세)를 입력합니다. 다음으로 D4 셀에 선형 회귀 수식을 입력하고 채우기 표식을 사용하여 D5:D13 셀 범위에 대한 상대 참조와 함께 이 수식을 복사합니다. D4:D13 셀 범위의 선형 회귀 수식을 사용하는 각 셀에는 A4:A13 범위의 해당 셀이 인수로 포함됩니다. 마찬가지로, 2차 회귀 분석의 경우 E4:E13 셀 범위를 채우고, 3차 회귀 분석의 경우 F4:F13 셀 범위를 채웁니다. 따라서 2003년과 2004년 기업 이익에 대한 예측이 작성되었습니다. 세 가지 트렌드를 사용합니다. 결과 값 표는 그림 1에 나와 있습니다. 6.

문제 2

    다이어그램을 작성하십시오.

    차트에 로그, 거듭제곱 및 지수 추세선을 추가합니다.

    얻은 추세선의 방정식과 각각에 대한 근사 R2의 신뢰도 값을 도출합니다.

    추세선 방정식을 사용하여 1995~2002년 각 추세선에 대한 기업 이익에 대한 표 형식 데이터를 얻습니다.

    이 추세선을 사용하여 2003년과 2004년 회사 수익을 예측해 보세요.

문제의 해결

문제 1을 해결하는 방법에 따라 로그, 거듭제곱 및 지수 추세선이 추가된 다이어그램을 얻습니다(그림 7). 다음으로, 얻은 추세선 방정식을 사용하여 2003년과 2004년의 예측 값을 포함하여 기업 이익 값 표를 작성합니다. (그림 8).

그림에서. 5 및 그림. 로그 추세를 보이는 모델이 근사 신뢰도의 가장 낮은 값에 해당함을 알 수 있습니다.

R2 = 0.8659

R2의 가장 높은 값은 다항식 추세(2차(R2 = 0.9263) 및 3차(R2 = 0.933))가 있는 모델에 해당합니다.

문제 3

작업 1에 제공된 1995-2002년 자동차 운송 기업의 이익에 대한 데이터 테이블을 사용하여 다음 단계를 수행해야 합니다.

    TREND 및 GROW 함수를 사용하여 선형 및 지수 추세선에 대한 데이터 계열을 얻습니다.

    TREND 및 GROWTH 함수를 사용하여 2003년과 2004년 기업 이익을 예측합니다.

    원본 데이터와 결과 데이터 시리즈에 대한 다이어그램을 구성합니다.

문제의 해결

문제 1의 워크시트를 사용해 보겠습니다(그림 4 참조). TREND 함수부터 시작해 보겠습니다.

    기업 이익에 대해 알려진 데이터에 해당하는 TREND 함수의 값으로 채워져야 하는 셀 범위 D4:D11을 선택합니다.

    삽입 메뉴에서 함수 명령을 호출합니다. 나타나는 함수 마법사 대화 상자의 통계 항목에서 TREND 함수를 선택한 후 확인 버튼을 클릭하세요. 표준 도구 모음에서 (함수 삽입) 버튼을 클릭해도 동일한 작업을 수행할 수 있습니다.

    나타나는 함수 인수 대화 상자에서 Known_values_y 필드에 C4:C11 셀 범위를 입력합니다. Known_values_x 필드 - 셀 범위 B4:B11;

    입력한 수식을 배열 수식으로 만들려면 + + 키 조합을 사용하세요.

수식 입력줄에 입력한 수식은 =(TREND(C4:C11,B4:B11))과 같습니다.

결과적으로 D4:D11 셀 범위는 TREND 함수의 해당 값으로 채워집니다(그림 9).

2003년과 2004년 기업 이익을 예측합니다. 필요한:

    TREND 함수로 예측한 값이 입력될 셀 범위 D12:D13을 선택합니다.

    TREND 함수를 호출하고 나타나는 함수 인수 대화 상자에서 Known_values_y 필드에 C4:C11 셀 범위를 입력합니다. Known_values_x 필드 - 셀 범위 B4:B11; New_values_x 필드 - B12:B13 셀 범위입니다.

    Ctrl + Shift + Enter 키 조합을 사용하여 이 수식을 배열 수식으로 변환합니다.

    입력된 공식은 다음과 같습니다: =(TREND(C4:C11;B4:B11;B12:B13)), 셀 범위 D12:D13은 TREND 함수의 예측 값으로 채워집니다(그림 2 참조). 9).

데이터 계열은 비선형 종속성 분석에 사용되며 선형 대응 TREND와 정확히 동일한 방식으로 작동하는 GROWTH 함수를 사용하여 유사하게 채워집니다.

그림 10은 수식 표시 모드의 테이블을 보여줍니다.

초기 데이터와 획득된 데이터 시리즈에 대해 그림 4에 표시된 다이어그램을 참조하세요. 열하나.

문제 4

이번 달 1일부터 11일까지의 기간 동안 자동차 운송 기업 파견 서비스의 서비스 신청 접수에 관한 데이터 표를 사용하여 다음 조치를 수행해야 합니다.

    선형 회귀에 대한 데이터 계열 가져오기: SLOPE 및 INTERCEPT 함수 사용; LINEST 함수를 사용합니다.

    LGRFPRIBL 함수를 사용하여 지수 회귀에 대한 일련의 데이터를 얻습니다.

    위의 기능을 이용하여 이번달 12일부터 14일까지의 파견신청 접수상황을 예측해 보세요.

    원본 및 수신된 데이터 시리즈에 대한 다이어그램을 만듭니다.

문제의 해결

TREND 및 GROWTH 함수와 달리 위에 나열된 함수(SLOPE, INTERCEPT, LINEST, LGRFPRIB)는 회귀 함수가 아닙니다. 이러한 함수는 필요한 회귀 매개변수를 결정하는 지원 역할만 수행합니다.

SLOPE, INTERCEPT, LINEST, LGRFPRIB 함수를 사용하여 작성된 선형 및 지수 회귀의 경우 TREND 및 GROWTH 함수에 해당하는 선형 및 지수 회귀와 달리 방정식의 모양이 항상 알려져 있습니다.

1 . 다음 방정식을 사용하여 선형 회귀를 구축해 보겠습니다.

y = mx+b

회귀 기울기 m은 SLOPE 함수에 의해 결정되고 자유 항 b는 INTERCEPT 함수에 의해 결정되는 SLOPE 및 INTERCEPT 함수를 사용합니다.

이를 위해 우리는 다음 작업을 수행합니다.

    A4:B14 셀 범위에 원본 테이블을 입력합니다.

    매개변수 m의 값은 C19 셀에서 결정됩니다. 통계 카테고리에서 기울기 기능을 선택합니다. Known_values_y 필드에 B4:B14 셀 범위를 입력하고 Known_values_x 필드에 A4:A14 셀 범위를 입력합니다. 수식은 C19 셀에 입력됩니다. =SLOPE(B4:B14,A4:A14);

    유사한 기술을 사용하여 셀 D19의 매개변수 b 값이 결정됩니다. 해당 내용은 =SEGMENT(B4:B14,A4:A14)와 같습니다. 따라서 선형 회귀를 구성하는 데 필요한 매개 변수 m과 b의 값은 각각 셀 C19, D19에 저장됩니다.

    그런 다음 C4 셀에 선형 회귀 수식을 =$C*A4+$D 형식으로 입력합니다. 이 수식에서 C19 및 D19 셀은 절대 참조로 작성됩니다(복사 중에 셀 주소가 변경되어서는 안 됨). 절대 참조 기호 $는 셀 주소에 커서를 놓은 후 키보드나 F4 키를 사용하여 입력할 수 있습니다. 채우기 핸들을 사용하여 이 수식을 C4:C17 셀 범위에 복사합니다. 우리는 필요한 데이터 시리즈를 얻습니다(그림 12). 요청 개수는 정수이기 때문에 셀 형식 창의 숫자 탭에서 소수 자릿수가 0인 숫자 형식을 설정해야 합니다.

2 . 이제 방정식으로 주어진 선형 회귀를 작성해 보겠습니다.

y = mx+b

LINEST 함수를 사용합니다.

이를 위해:

    LINEST 함수를 셀 범위 C20:D20: =(LINEST(B4:B14,A4:A14))에 배열 수식으로 입력합니다. 결과적으로 셀 C20에서 매개변수 m의 값을 얻고 셀 D20에서 매개변수 b의 값을 얻습니다.

    D4 셀에 =$C*A4+$D 수식을 입력합니다.

    채우기 표시를 사용하여 이 수식을 셀 범위 D4:D17에 복사하고 원하는 데이터 계열을 가져옵니다.

3 . 우리는 다음 방정식을 사용하여 지수 회귀를 구축합니다.

LGRFPRIBL 함수를 사용하면 유사하게 수행됩니다.

    C21:D21 셀 범위에 LGRFPRIBL 함수를 배열 수식 =( LGRFPRIBL (B4:B14,A4:A14)) 으로 입력합니다. 이 경우 매개변수 m의 값은 셀 C21에서 결정되고 매개변수 b의 값은 셀 D21에서 결정됩니다.

    수식은 셀 E4에 입력됩니다: =$D*$C^A4;

    채우기 표시를 사용하면 이 공식이 지수 회귀에 대한 데이터 시리즈가 위치할 셀 E4:E17 범위에 복사됩니다(그림 12 참조).

그림에서. 그림 13에는 필요한 셀 범위와 수식에 사용하는 함수를 볼 수 있는 표가 나와 있습니다.

크기 아르 자형 2 ~라고 불리는 결정 계수.

회귀 의존성을 구성하는 작업은 계수 R이 최대값을 취하는 모델 (1)의 계수 m의 벡터를 찾는 것입니다.

R의 중요성을 평가하기 위해 Fisher의 F 테스트가 사용되며 공식을 사용하여 계산됩니다.

어디 N- 표본 크기(실험 횟수)

k는 모델 계수의 수입니다.

F가 데이터의 임계값을 초과하는 경우 N그리고 케이그리고 허용된 신뢰 확률이 있는 경우 R 값은 중요한 것으로 간주됩니다. F의 임계값 표는 수학적 통계에 관한 참고서에 나와 있습니다.

따라서 R의 유의성은 그 값뿐만 아니라 실험 수와 모델의 계수(매개변수) 수 사이의 비율에 의해서도 결정됩니다. 실제로 단순 선형 모델의 경우 n=2에 대한 상관 비율은 1과 같습니다(단일 직선은 항상 평면의 2개 점을 통해 그려질 수 있음). 그러나 실험 데이터가 확률변수인 경우 이러한 R 값은 매우 주의해서 신뢰해야 합니다. 일반적으로 중요한 R 및 신뢰할 수 있는 회귀를 얻기 위해 실험 횟수가 모델 계수 수(n>k)를 크게 초과하는지 확인하려고 노력합니다.

선형 회귀 모델을 구축하려면 다음이 필요합니다.

1) 실험 데이터가 포함된 n개 행과 m개 열(출력 값이 포함된 열)의 목록을 준비합니다. 와이목록의 첫 번째 또는 마지막이어야 함) 예를 들어, 이전 작업의 데이터를 가져와 "기간 번호"라는 열을 추가하고 기간 번호에 1부터 12까지 번호를 매깁니다. (이러한 값은 엑스)

2) 데이터/데이터 분석/회귀 메뉴로 이동합니다.

"도구" 메뉴의 "데이터 분석" 항목이 누락된 경우 동일한 메뉴의 "추가 기능" 항목으로 이동하여 "분석 패키지" 확인란을 선택해야 합니다.

3) "회귀" 대화 상자에서 다음을 설정합니다.

· 입력 간격 Y;

· 입력 간격 X;

· 출력 간격 - 계산 결과가 배치될 간격의 왼쪽 상단 셀(새 워크시트에 배치하는 것이 좋습니다)

4) "확인"을 클릭하고 결과를 분석하세요.