Mga halimbawa ng pamamaraan ng least squares ng paglutas ng problema. Mathematics sa iyong mga daliri: least squares method Hanapin ang approximating function gamit ang least squares method

(tingnan ang larawan). Kailangan mong hanapin ang equation ng isang linya

Kung mas maliit ang numero sa absolute value, mas maganda ang napiling tuwid na linya (2). Bilang isang katangian ng katumpakan ng pagpili ng isang tuwid na linya (2), maaari nating kunin ang kabuuan ng mga parisukat

Ang pinakamababang kondisyon para sa S ay magiging

(6)
(7)

Ang mga equation (6) at (7) ay maaaring isulat tulad ng sumusunod:

(8)
(9)

Mula sa mga equation (8) at (9) madaling mahanap ang a at b mula sa mga pang-eksperimentong halaga ng xi at y i. Ang linya (2), na tinukoy ng mga equation (8) at (9), ay tinatawag na linyang nakuha sa pamamaraang least squares (ang pangalang ito ay nagbibigay-diin na ang kabuuan ng mga parisukat S ay may pinakamababa). Ang mga equation (8) at (9), kung saan tinutukoy ang tuwid na linya (2), ay tinatawag na mga normal na equation.

Maaari mong ipahiwatig ang isang simple at pangkalahatang paraan upang bumuo ng mga normal na equation. Gamit ang mga eksperimentong puntos (1) at equation (2), maaari tayong sumulat ng isang sistema ng mga equation para sa a at b

y 1 = ax 1 + b,
y 2 = ax 2 + b,
...
(10)
y n = ax n + b,

I-multiply natin ang kaliwa at kanang panig ng bawat isa sa mga equation na ito sa pamamagitan ng coefficient ng unang hindi kilalang a (i.e. sa pamamagitan ng x 1, x 2, ..., x n) at idagdag ang mga resultang equation, na nagreresulta sa unang normal na equation (8) .

I-multiply natin ang kaliwa at kanang bahagi ng bawat isa sa mga equation na ito sa pamamagitan ng coefficient ng pangalawang hindi kilalang b, i.e. sa pamamagitan ng 1, at idagdag ang mga resultang equation, ang resulta ay ang pangalawang normal na equation (9).

Ang pamamaraang ito ng pagkuha ng mga normal na equation ay pangkalahatan: ito ay angkop, halimbawa, para sa function

mayroong pare-parehong halaga at dapat itong matukoy mula sa pang-eksperimentong data (1).

Ang sistema ng mga equation para sa k ay maaaring isulat:

Hanapin ang tuwid na linya (2) gamit ang least squares method.

Solusyon. Nakikita namin:

x i =21, y i =46.3, x i 2 =91, x i y i =179.1.

Nagsusulat kami ng mga equation (8) at (9)

Mula dito makikita natin

Pagtatantya ng katumpakan ng pamamaraan ng least squares

Magbigay tayo ng isang pagtatantya ng katumpakan ng pamamaraan para sa linear na kaso kapag ang equation (2) ay humahawak.

Hayaang maging tumpak ang mga pang-eksperimentong halaga x i, at ang mga pang-eksperimentong halaga y i ay may mga random na error na may parehong pagkakaiba para sa lahat ng i.

Ipakilala natin ang notasyon

(16)

Pagkatapos ang mga solusyon sa mga equation (8) at (9) ay maaaring katawanin sa anyo

(17)
(18)
saan
(19)
Mula sa equation (17) makikita natin
(20)
Katulad nito, mula sa equation (18) nakuha namin

(21)
kasi
(22)
Mula sa mga equation (21) at (22) makikita natin
(23)

Ang mga equation (20) at (23) ay nagbibigay ng isang pagtatantya ng katumpakan ng mga coefficient na tinutukoy mula sa mga equation (8) at (9).

Tandaan na ang mga coefficient a at b ay magkakaugnay. Sa pamamagitan ng mga simpleng pagbabagong-anyo, makikita natin ang kanilang sandali ng ugnayan.

Mula dito makikita natin

0.072 sa x=1 at 6,

0.041 sa x=3.5.

Panitikan

Baybayin. Ya. B. Mga pamamaraan ng istatistika ng pagsusuri at kontrol sa kalidad at pagiging maaasahan. M.: Gosenergoizdat, 1962, p. 552, p. 92-98.

Ang aklat na ito ay inilaan para sa isang malawak na hanay ng mga inhinyero (mga instituto ng pananaliksik, mga tanggapan ng disenyo, mga site ng pagsubok at mga pabrika) na kasangkot sa pagtukoy ng kalidad at pagiging maaasahan ng mga elektronikong kagamitan at iba pang mga produktong pang-industriya (mechanical engineering, paggawa ng instrumento, artilerya, atbp.).

Ang libro ay nagbibigay ng isang aplikasyon ng mga pamamaraan ng istatistika ng matematika sa pagproseso at pagsusuri ng mga resulta ng pagsubok, kung saan ang kalidad at pagiging maaasahan ng mga nasubok na produkto ay tinutukoy. Para sa kaginhawahan ng mga mambabasa, ang kinakailangang impormasyon mula sa mga istatistika ng matematika ay ibinigay, pati na rin ang isang malaking bilang ng mga auxiliary na mga talahanayan ng matematika na nagpapadali sa mga kinakailangang kalkulasyon.

Ang pagtatanghal ay inilalarawan ng isang malaking bilang ng mga halimbawa na kinuha mula sa larangan ng radio electronics at teknolohiya ng artilerya.

Tantyahin natin ang function sa pamamagitan ng polynomial ng degree 2. Upang gawin ito, kinakalkula namin ang mga coefficient ng normal na sistema ng mga equation:

, ,

Gumawa tayo ng normal na least squares system, na may anyo:

Ang solusyon sa system ay madaling mahanap:, , .

Kaya, ang isang polynomial ng 2nd degree ay matatagpuan: .

Teoretikal na impormasyon

Bumalik sa pahina<Введение в вычислительную математику. Примеры>

Halimbawa 2. Paghahanap ng pinakamainam na antas ng isang polynomial.

Bumalik sa pahina<Введение в вычислительную математику. Примеры>

Halimbawa 3. Derivation ng isang normal na sistema ng mga equation para sa paghahanap ng mga parameter ng empirical dependence.

Kumuha tayo ng isang sistema ng mga equation upang matukoy ang mga coefficient at function , na nagsasagawa ng root-mean-square approximation ng isang ibinigay na function sa pamamagitan ng mga puntos. Bumuo tayo ng isang function at isulat ang kinakailangang extremum na kondisyon para dito:

Pagkatapos ang normal na sistema ay kukuha ng anyo:

Nakuha namin ang isang linear na sistema ng mga equation para sa hindi kilalang mga parameter at, na madaling malutas.

Teoretikal na impormasyon

Bumalik sa pahina<Введение в вычислительную математику. Примеры>

Halimbawa.

Pang-eksperimentong data sa mga halaga ng mga variable X At sa ay ibinigay sa talahanayan.

Bilang resulta ng kanilang pagkakahanay, nakuha ang pag-andar

Gamit hindi bababa sa parisukat na pamamaraan, tantiyahin ang mga data na ito sa pamamagitan ng isang linear na dependence y=ax+b(hanapin ang mga parameter A At b). Alamin kung alin sa dalawang linya ang mas mahusay (sa kahulugan ng paraan ng least squares) ang nakahanay sa pang-eksperimentong data. Gumawa ng isang guhit.

Ang kakanyahan ng least squares method (LSM).

Ang gawain ay upang mahanap ang mga linear dependence coefficients kung saan ang function ng dalawang variable A At bkumukuha ng pinakamaliit na halaga. Ibig sabihin, binigay A At b ang kabuuan ng mga squared deviations ng pang-eksperimentong data mula sa nahanap na tuwid na linya ang magiging pinakamaliit. Ito ang buong punto ng pamamaraan ng least squares.

Kaya, ang paglutas ng halimbawa ay bumababa sa paghahanap ng extremum ng isang function ng dalawang variable.

Pagkuha ng mga formula para sa paghahanap ng mga coefficient.

Ang isang sistema ng dalawang equation na may dalawang hindi alam ay pinagsama-sama at nalutas. Paghahanap ng mga partial derivatives ng isang function sa pamamagitan ng mga variable A At b, itinutumbas namin ang mga derivatives na ito sa zero.

Nalulutas namin ang nagresultang sistema ng mga equation gamit ang anumang pamamaraan (halimbawa sa pamamagitan ng paraan ng pagpapalit o Cramer’s method) at kumuha ng mga formula para sa paghahanap ng mga coefficient gamit ang least squares method (LSM).

Ibinigay A At b function kumukuha ng pinakamaliit na halaga. Ang patunay ng katotohanang ito ay ibinigay sa ibaba sa teksto sa dulo ng pahina.

Iyan ang buong paraan ng hindi bababa sa mga parisukat. Formula para sa paghahanap ng parameter a naglalaman ng mga kabuuan , , at parameter n— dami ng pang-eksperimentong data. Inirerekomenda namin ang pagkalkula ng mga halaga ng mga halagang ito nang hiwalay.

Coefficient b natagpuan pagkatapos ng pagkalkula a.

Oras na para alalahanin ang orihinal na halimbawa.

Solusyon.

Sa ating halimbawa n=5. Pinupuno namin ang talahanayan para sa kaginhawaan ng pagkalkula ng mga halaga na kasama sa mga formula ng kinakailangang coefficients.

Ang mga halaga sa ika-apat na hilera ng talahanayan ay nakuha sa pamamagitan ng pagpaparami ng mga halaga ng ika-2 hilera sa mga halaga ng ika-3 hilera para sa bawat numero i.

Ang mga halaga sa ikalimang hilera ng talahanayan ay nakuha sa pamamagitan ng pag-squaring ng mga halaga sa ika-2 hilera para sa bawat numero i.

Ang mga halaga sa huling hanay ng talahanayan ay ang mga kabuuan ng mga halaga sa mga hilera.

Ginagamit namin ang mga formula ng pinakamaliit na paraan ng mga parisukat upang mahanap ang mga coefficient A At b. Pinapalitan namin ang kaukulang mga halaga mula sa huling hanay ng talahanayan sa kanila:

Kaya naman, y = 0.165x+2.184— ang nais na tinatayang tuwid na linya.

Ito ay nananatiling alamin kung alin sa mga linya y = 0.165x+2.184 o mas mahusay na tinatantya ang orihinal na data, iyon ay, gumagawa ng isang pagtatantya gamit ang least squares method.

Error sa pagtatantya ng least squares method.

Upang gawin ito, kailangan mong kalkulahin ang kabuuan ng mga squared deviations ng orihinal na data mula sa mga linyang ito At , ang isang mas maliit na halaga ay tumutugma sa isang linya na mas mahusay na tinatantya ang orihinal na data sa kahulugan ng paraan ng least squares.

Since , tapos straight y = 0.165x+2.184 mas mahusay na tinatantya ang orihinal na data.

Graphic na paglalarawan ng least squares (LS) na pamamaraan.

Ang lahat ay malinaw na nakikita sa mga graph. Ang pulang linya ay ang natagpuang tuwid na linya y = 0.165x+2.184, ang asul na linya ay , ang mga pink na tuldok ay ang orihinal na data.

Bakit kailangan ito, bakit lahat ng mga pagtatantya na ito?

Personal kong ginagamit ito upang malutas ang mga problema ng data smoothing, interpolation at extrapolation na mga problema (sa orihinal na halimbawa ay maaaring hilingin sa kanila na hanapin ang halaga ng isang naobserbahang halaga y sa x=3 o kailan x=6 gamit ang paraan ng least squares). Ngunit pag-uusapan natin ang higit pa tungkol dito sa ibang seksyon ng site.

Ibabaw ng Pahina

Patunay.

Kaya't kapag natagpuan A At b Kinukuha ng function ang pinakamaliit na halaga, kinakailangan na sa puntong ito ang matrix ng quadratic form ng second order differential para sa function ay tiyak na positibo. Ipakita natin.

Ang second order differential ay may anyo:

Yan ay

Samakatuwid, ang matrix ng quadratic form ay may anyo

at ang mga halaga ng mga elemento ay hindi nakasalalay sa A At b.

Ipakita natin na ang matrix ay positibong tiyak. Upang gawin ito, ang mga angular na menor de edad ay dapat na positibo.

Angular minor ng unang order . Ang hindi pagkakapantay-pantay ay mahigpit dahil ang mga punto ay hindi nagtutugma. Sa mga sumusunod ay ipahiwatig natin ito.

Pangalawang order angular minor

Patunayan natin yan sa pamamagitan ng paraan ng mathematical induction.

Konklusyon: nahanap na mga halaga A At b tumutugma sa pinakamaliit na halaga ng function , samakatuwid, ang mga kinakailangang parameter para sa paraan ng least squares.

Walang oras upang malaman ito?
Mag-order ng solusyon

Ibabaw ng Pahina

Pagbuo ng pagtataya gamit ang least squares method. Halimbawa ng solusyon sa problema

Extrapolation ay isang paraan ng siyentipikong pananaliksik na nakabatay sa pagpapakalat ng nakaraan at kasalukuyang mga uso, pattern, koneksyon sa hinaharap na pag-unlad ng forecast object. Kasama sa mga pamamaraan ng extrapolation moving average method, exponential smoothing method, least squares method.

Kakanyahan paraan ng least squares binubuo sa pagliit ng kabuuan ng mga square deviations sa pagitan ng naobserbahan at nakalkulang mga halaga. Ang mga kinakalkula na halaga ay matatagpuan gamit ang napiling equation - ang regression equation. Ang mas maliit na distansya sa pagitan ng mga aktwal na halaga at ang mga kinakalkula na halaga, mas tumpak ang pagtataya batay sa equation ng regression.

Ang isang teoretikal na pagsusuri ng kakanyahan ng hindi pangkaraniwang bagay na pinag-aaralan, ang pagbabago kung saan makikita ng isang serye ng oras, ay nagsisilbing batayan para sa pagpili ng isang kurba. Minsan ang mga pagsasaalang-alang tungkol sa likas na katangian ng pagtaas sa mga antas ng serye ay isinasaalang-alang. Kaya, kung ang paglaki ng output ay inaasahan sa isang pag-unlad ng aritmetika, kung gayon ang pagpapakinis ay isinasagawa sa isang tuwid na linya. Kung ito ay lumabas na ang paglago ay nasa geometric na pag-unlad, kung gayon ang pag-smoothing ay dapat gawin gamit ang isang exponential function.

Gumagamit na pormula para sa pamamaraang least squares : Y t+1 = a*X + b, kung saan t + 1 – panahon ng pagtataya; Уt+1 – hinulaang tagapagpahiwatig; a at b ay mga coefficient; Ang X ay simbolo ng oras.

Ang pagkalkula ng mga coefficient a at b ay isinasagawa gamit ang mga sumusunod na formula:

kung saan, Uf – aktwal na mga halaga ng serye ng dinamika; n – bilang ng mga antas ng serye ng oras;

Ang pag-smoothing time series gamit ang least squares na paraan ay nagsisilbing ipakita ang pattern ng pag-unlad ng phenomenon na pinag-aaralan. Sa analytical expression ng isang trend, ang oras ay itinuturing na isang independent variable, at ang mga level ng series ay gumaganap bilang isang function ng independent variable na ito.

Ang pag-unlad ng isang kababalaghan ay hindi nakasalalay sa kung gaano karaming taon ang lumipas mula noong simula, ngunit sa kung anong mga kadahilanan ang nakaimpluwensya sa pag-unlad nito, sa anong direksyon at kung anong intensity. Mula dito ay malinaw na ang pag-unlad ng isang phenomenon sa paglipas ng panahon ay ang resulta ng pagkilos ng mga salik na ito.

Ang wastong pagtatatag ng uri ng curve, ang uri ng analytical na pagdepende sa oras ay isa sa pinakamahirap na gawain ng predictive analysis .

Ang pagpili ng uri ng function na naglalarawan sa trend, ang mga parameter na kung saan ay tinutukoy ng hindi bababa sa mga parisukat na pamamaraan, ay isinasagawa sa karamihan ng mga kaso empirically, sa pamamagitan ng pagbuo ng isang bilang ng mga function at paghahambing ng mga ito sa bawat isa ayon sa halaga ng ibig sabihin ng square error, na kinakalkula ng formula:

kung saan ang UV ay ang aktwal na mga halaga ng serye ng dinamika; Ur – kinakalkula (pinakinis) na mga halaga ng serye ng dynamics; n – bilang ng mga antas ng serye ng oras; p – ang bilang ng mga parameter na tinukoy sa mga pormula na naglalarawan sa kalakaran (kalakaran ng pag-unlad).

Mga disadvantages ng least squares method :

  • kapag sinusubukang ilarawan ang economic phenomenon na pinag-aaralan gamit ang isang mathematical equation, ang forecast ay magiging tumpak sa isang maikling panahon at ang regression equation ay dapat na muling kalkulahin kapag may bagong impormasyon;
  • ang pagiging kumplikado ng pagpili ng isang regression equation na nalulusaw gamit ang karaniwang mga computer program.

Isang halimbawa ng paggamit ng paraan ng least squares para bumuo ng forecast

Gawain . Mayroong data na nagpapakita ng unemployment rate sa rehiyon, %

  • Bumuo ng forecast ng unemployment rate sa rehiyon para sa Nobyembre, Disyembre, Enero gamit ang mga sumusunod na pamamaraan: moving average, exponential smoothing, least squares.
  • Kalkulahin ang mga error sa mga resultang pagtataya gamit ang bawat pamamaraan.
  • Ihambing ang mga resulta at gumawa ng mga konklusyon.

Pinakamababang mga parisukat na solusyon

Upang malutas ito, gagawa kami ng isang talahanayan kung saan gagawin namin ang mga kinakailangang kalkulasyon:

ε = 28.63/10 = 2.86% katumpakan ng hula mataas.

Konklusyon : Paghahambing ng mga resultang nakuha mula sa mga kalkulasyon moving average na paraan , paraan ng exponential smoothing at ang pinakamababang paraan ng mga parisukat, masasabi nating ang average na kamag-anak na error kapag kinakalkula gamit ang exponential smoothing na paraan ay nasa hanay na 20-50%. Nangangahulugan ito na ang katumpakan ng hula sa kasong ito ay kasiya-siya lamang.

Sa una at ikatlong mga kaso, ang katumpakan ng forecast ay mataas, dahil ang average na kamag-anak na error ay mas mababa sa 10%. Ngunit ang moving average na paraan ay naging posible upang makakuha ng mas maaasahang mga resulta (pagtataya para sa Nobyembre - 1.52%, pagtataya para sa Disyembre - 1.53%, pagtataya para sa Enero - 1.49%), dahil ang average na kamag-anak na error kapag ginagamit ang pamamaraang ito ay ang pinakamaliit - 1 ,13%.

Pinakamababang parisukat na pamamaraan

Iba pang mga artikulo sa paksang ito:

Listahan ng mga mapagkukunang ginamit

  1. Mga rekomendasyong pang-agham at pamamaraan sa pag-diagnose ng mga panganib sa lipunan at pagtataya ng mga hamon, banta at mga kahihinatnan sa lipunan. Russian State Social University. Moscow. 2010;
  2. Vladimirova L.P. Pagtataya at pagpaplano sa mga kondisyon ng pamilihan: Textbook. allowance. M.: Publishing House "Dashkov and Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. Pagtataya ng pambansang ekonomiya: Manwal na pang-edukasyon at pamamaraan. Ekaterinburg: Ural Publishing House. estado econ. Univ., 2007;
  4. Slutskin L.N. MBA na kurso sa pagtataya ng negosyo. M.: Alpina Business Books, 2006.

programa ng MNC

Ipasok ang data

Data at approximation y = a + b x

i- bilang ng pang-eksperimentong punto;
x i- halaga ng isang nakapirming parameter sa isang punto i;
y i- halaga ng sinusukat na parameter sa isang punto i;
ωi- pagsukat ng timbang sa isang punto i;
y i, calc.- pagkakaiba sa pagitan ng nasusukat at nakalkulang halaga ng regression y sa punto i;
S x i (x i)- pagtatantya ng error x i kapag nagsusukat y sa punto i.

Data at approximation y = k x

i x i y i ωi y i, calc. Δy i S x i (x i)

Mag-click sa tsart

Manual ng gumagamit para sa online na programa ng MNC.

Sa field ng data, ilagay sa bawat hiwalay na linya ang mga halaga ng `x` at `y` sa isang pang-eksperimentong punto. Ang mga halaga ay dapat paghiwalayin ng isang character na whitespace (espasyo o tab).

Ang ikatlong halaga ay maaaring ang bigat ng puntong `w`. Kung ang bigat ng isang punto ay hindi tinukoy, ito ay katumbas ng isa. Sa karamihan ng mga kaso, ang mga bigat ng mga pang-eksperimentong punto ay hindi alam o hindi kinakalkula, i.e. lahat ng pang-eksperimentong data ay itinuturing na katumbas. Minsan ang mga timbang sa pinag-aralan na hanay ng mga halaga ay ganap na hindi katumbas at maaaring kalkulahin sa teorya. Halimbawa, sa spectrophotometry, ang mga timbang ay maaaring kalkulahin gamit ang mga simpleng formula, bagaman ito ay kadalasang napapabayaan upang mabawasan ang mga gastos sa paggawa.

Maaaring i-paste ang data sa pamamagitan ng clipboard mula sa isang spreadsheet sa isang office suite gaya ng Excel mula sa Microsoft Office o Calc mula sa Open Office. Upang gawin ito, sa spreadsheet, piliin ang hanay ng data na kokopyahin, kopyahin ito sa clipboard, at i-paste ang data sa field ng data sa pahinang ito.

Upang kalkulahin gamit ang paraan ng least squares, kailangan ng hindi bababa sa dalawang puntos upang matukoy ang dalawang coefficients `b` - ang tangent ng angle ng inclination ng linya at `a` - ang value na naharang ng linya sa `y` axis.

Upang matantya ang error ng mga nakalkulang coefficient ng regression, kailangan mong itakda ang bilang ng mga pang-eksperimentong punto sa higit sa dalawa.

Paraan ng least squares (LSM).

Kung mas malaki ang bilang ng mga pang-eksperimentong puntos, mas tumpak ang istatistikal na pagtatasa ng mga koepisyent (dahil sa pagbaba sa koepisyent ng Mag-aaral) at mas malapit ang pagtatantya sa pagtatantya ng pangkalahatang sample.

Ang pagkuha ng mga halaga sa bawat pang-eksperimentong punto ay madalas na nauugnay sa mga makabuluhang gastos sa paggawa, kaya ang isang kompromiso na bilang ng mga eksperimento ay madalas na isinasagawa na nagbibigay ng isang napapamahalaang pagtatantya at hindi humahantong sa labis na mga gastos sa paggawa. Bilang isang patakaran, ang bilang ng mga pang-eksperimentong puntos para sa isang linear na hindi bababa sa mga parisukat na dependence na may dalawang coefficient ay pinili sa rehiyon na 5-7 puntos.

Isang Maikling Teorya ng Least Squares para sa Linear Relationships

Sabihin nating mayroon kaming isang set ng pang-eksperimentong data sa anyo ng mga pares ng mga halaga [`y_i`, `x_i`], kung saan ang `i` ay ang bilang ng isang pang-eksperimentong pagsukat mula 1 hanggang `n`; `y_i` - ang halaga ng sinusukat na dami sa puntong `i`; `x_i` - ang halaga ng parameter na itinakda namin sa puntong `i`.

Bilang halimbawa, isaalang-alang ang pagpapatakbo ng batas ng Ohm. Sa pamamagitan ng pagbabago ng boltahe (potensyal na pagkakaiba) sa pagitan ng mga seksyon ng isang de-koryenteng circuit, sinusukat namin ang dami ng kasalukuyang dumadaan sa seksyong ito. Ang pisika ay nagbibigay sa atin ng isang pag-asa na natagpuan sa eksperimento:

`Ako = U/R`,
kung saan ang `I` ay ang kasalukuyang lakas; `R` - paglaban; `U` - boltahe.

Sa kasong ito, ang `y_i` ay ang kasalukuyang halaga na sinusukat, at ang `x_i` ay ang halaga ng boltahe.

Bilang isa pang halimbawa, isaalang-alang ang pagsipsip ng liwanag ng isang solusyon ng isang sangkap sa solusyon. Ang Chemistry ay nagbibigay sa atin ng formula:

`A = ε l C`,
kung saan ang `A` ay ang optical density ng solusyon; `ε` - transmittance ng solute; `l` - haba ng landas kapag dumaan ang liwanag sa isang cuvette na may solusyon; Ang `C` ay ang konsentrasyon ng dissolved substance.

Sa kasong ito, ang `y_i` ay ang sinusukat na halaga ng optical density `A`, at ang `x_i` ay ang halaga ng konsentrasyon ng substance na aming tinukoy.

Isasaalang-alang namin ang kaso kapag ang kamag-anak na error sa detalye `x_i` ay makabuluhang mas mababa kaysa sa kamag-anak na error sa pagsukat `y_i`. Ipagpalagay din namin na ang lahat ng nasusukat na halaga `y_i` ay random at normal na ipinamamahagi, i.e. sundin ang normal na batas sa pamamahagi.

Sa kaso ng isang linear dependence ng `y` sa `x`, maaari naming isulat ang theoretical dependence:
`y = a + b x`.

Mula sa isang geometric na punto ng view, ang coefficient `b` ay tumutukoy sa tangent ng anggulo ng inclination ng linya sa `x` axis, at coefficient `a` - ang halaga ng `y` sa punto ng intersection ng linya na may ang axis na `y` (sa `x = 0`).

Paghahanap ng mga parameter ng linya ng regression.

Sa isang eksperimento, ang mga sinusukat na halaga ng `y_i` ay hindi maaaring eksaktong namamalagi sa teoretikal na tuwid na linya dahil sa mga error sa pagsukat, na palaging likas sa totoong buhay. Samakatuwid, ang isang linear na equation ay dapat na kinakatawan ng isang sistema ng mga equation:
`y_i = a + b x_i + ε_i` (1),
kung saan ang `ε_i` ay ang hindi kilalang error sa pagsukat ng `y` sa `i`-th experiment.

Ang dependency (1) ay tinatawag din regression, ibig sabihin. ang pag-asa ng dalawang dami sa isa't isa na may statistical significance.

Ang gawain ng pagpapanumbalik ng dependence ay upang mahanap ang mga coefficient na `a` at `b` mula sa mga eksperimentong punto [`y_i`, `x_i`].

Upang mahanap ang mga coefficient na `a` at `b` ito ay karaniwang ginagamit hindi bababa sa parisukat na pamamaraan(MNC). Ito ay isang espesyal na kaso ng prinsipyo ng maximum na posibilidad.

Isulat muli natin ang (1) sa anyong `ε_i = y_i - a - b x_i`.

Pagkatapos ang kabuuan ng mga squared error ay magiging
`Φ = kabuuan_(i=1)^(n) ε_i^2 = kabuuan_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Ang prinsipyo ng hindi bababa sa mga parisukat (hindi bababa sa mga parisukat) ay upang mabawasan ang kabuuan (2) na may paggalang sa mga parameter na `a` at `b`.

Ang pinakamababa ay nakakamit kapag ang mga partial derivatives ng kabuuan (2) na may kinalaman sa mga coefficient na `a` at `b` ay katumbas ng zero:
`frac(partial Φ)(partial a) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial a) = 0`
`frac(partial Φ)(partial b) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial b) = 0`

Ang pagpapalawak ng mga derivatives, nakakakuha kami ng isang sistema ng dalawang equation na may dalawang hindi alam:
`sum_(i=1)^(n) (2a + 2bx_i — 2y_i) = sum_(i=1)^(n) (a + bx_i — y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i — 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i — x_iy_i) = 0`

Binubuksan namin ang mga bracket at inilipat ang mga kabuuan na independiyenteng ng mga kinakailangang coefficient sa kabilang kalahati, nakakakuha kami ng isang sistema ng mga linear na equation:
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

Ang paglutas ng nagresultang sistema, nakahanap kami ng mga formula para sa mga coefficient na `a` at `b`:

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 — sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i — sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.2)

Ang mga formula na ito ay may mga solusyon kapag `n > 1` (ang linya ay maaaring gawin gamit ang hindi bababa sa 2 puntos) at kapag ang determinant na `D = n sum_(i=1)^(n) x_i^2 - (sum_(i= 1) )^(n) x_i)^2 != 0`, ibig sabihin. kapag ang mga `x_i` na puntos sa eksperimento ay naiiba (ibig sabihin, kapag ang linya ay hindi patayo).

Pagtatantya ng mga error ng regression line coefficients

Para sa isang mas tumpak na pagtatasa ng error sa pagkalkula ng mga coefficient na `a` at `b`, isang malaking bilang ng mga pang-eksperimentong punto ay kanais-nais. Kapag `n = 2`, imposibleng matantya ang error ng coefficients, dahil ang tinatayang linya ay kakaibang dadaan sa dalawang punto.

Ang error ng random variable na `V` ay tinutukoy batas ng akumulasyon ng pagkakamali
`S_V^2 = sum_(i=1)^p (frac(partial f)(partial z_i))^2 S_(z_i)^2`,
kung saan ang `p` ay ang bilang ng mga parameter `z_i` na may error `S_(z_i)`, na nakakaapekto sa error na `S_V`;
Ang `f` ay isang function ng dependence ng `V` sa `z_i`.

Isulat natin ang batas ng akumulasyon ng error para sa error ng coefficients `a` at `b`
`S_a^2 = sum_(i=1)^(n)(frac(partial a)(partial y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(partial a )(partial x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(partial a)(partial y_i))^2 `,
`S_b^2 = sum_(i=1)^(n)(frac(partial b)(partial y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(partial b )(partial x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(partial b)(partial y_i))^2 `,
kasi `S_(x_i)^2 = 0` (nauna kaming gumawa ng reserbasyon na ang error na `x` ay bale-wala).

`S_y^2 = S_(y_i)^2` - error (variance, squared standard deviation) sa pagsukat ng `y`, sa pag-aakalang pare-pareho ang error para sa lahat ng value ng `y`.

Ang pagpapalit ng mga formula para sa pagkalkula ng `a` at `b` sa mga resultang expression na nakukuha namin

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 — x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i — sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

Sa karamihan ng mga totoong eksperimento, ang halaga ng `Sy` ay hindi sinusukat. Upang gawin ito, kinakailangan na magsagawa ng ilang magkakatulad na mga sukat (mga eksperimento) sa isa o ilang mga punto sa plano, na nagpapataas ng oras (at posibleng ang gastos) ng eksperimento. Samakatuwid, karaniwang ipinapalagay na ang paglihis ng `y` mula sa linya ng regression ay maaaring ituring na random. Ang pagtatantya ng variance `y` sa kasong ito ay kinakalkula gamit ang formula.

`S_y^2 = S_(y, pahinga)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Lumilitaw ang `n-2` divisor dahil ang aming bilang ng mga degree ng kalayaan ay bumaba dahil sa pagkalkula ng dalawang coefficient gamit ang parehong sample ng pang-eksperimentong data.

Ang pagtatantya na ito ay tinatawag ding natitirang variance na nauugnay sa linya ng regression `S_(y, rest)^2`.

Ang kahalagahan ng mga coefficient ay tinasa gamit ang Student's t test

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Kung ang kalkuladong pamantayan na `t_a`, `t_b` ay mas mababa kaysa sa naka-tabulate na pamantayan na `t(P, n-2)`, kung gayon ay ituturing na ang kaukulang coefficient ay hindi gaanong naiiba sa zero na may ibinigay na posibilidad na `P`.

Upang masuri ang kalidad ng paglalarawan ng isang linear na relasyon, maaari mong ihambing ang `S_(y, rest)^2` at `S_(bar y)` na nauugnay sa mean gamit ang Fisher criterion.

`S_(bar y) = frac(sum_(i=1)^n (y_i — bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i — (sum_(i=) 1)^n y_i) /n)^2) (n-1)` - sample na pagtatantya ng variance `y` na nauugnay sa mean.

Upang masuri ang pagiging epektibo ng equation ng regression upang ilarawan ang dependence, kinakalkula ang Fisher coefficient
`F = S_(bar y) / S_(y, pahinga)^2`,
na kung saan ay inihambing sa tabular Fisher coefficient `F(p, n-1, n-2)`.

Kung `F > F(P, n-1, n-2)`, ang pagkakaiba sa pagitan ng paglalarawan ng relasyon `y = f(x)` gamit ang regression equation at ang paglalarawan gamit ang mean ay itinuturing na makabuluhang istatistika na may posibilidad `P`. Yung. inilalarawan ng regression ang dependence na mas mahusay kaysa sa pagkalat ng `y` sa paligid ng mean.

Mag-click sa tsart
upang magdagdag ng mga halaga sa talahanayan

Pinakamababang parisukat na pamamaraan. Ang pinakamababang paraan ng mga parisukat ay nangangahulugang ang pagpapasiya ng hindi kilalang mga parameter a, b, c, ang tinatanggap na functional dependence

Ang paraan ng least squares ay tumutukoy sa pagtukoy ng mga hindi kilalang parameter a, b, c,... tinatanggap na functional dependence

y = f(x,a,b,c,…),

na magbibigay ng minimum ng mean square (variance) ng error

, (24)

kung saan ang x i, y i ay isang set ng mga pares ng mga numero na nakuha mula sa eksperimento.

Dahil ang kundisyon para sa extremum ng isang function ng ilang variable ay ang kundisyon na ang mga partial derivatives nito ay katumbas ng zero, kung gayon ang mga parameter a, b, c,... ay tinutukoy mula sa sistema ng mga equation:

; ; ; … (25)

Dapat alalahanin na ang paraan ng hindi bababa sa mga parisukat ay ginagamit upang pumili ng mga parameter pagkatapos ng uri ng pag-andar y = f(x) tinukoy

Kung, mula sa mga teoretikal na pagsasaalang-alang, walang mga konklusyon ang maaaring iguguhit tungkol sa kung ano ang dapat na empirikal na pormula, kung gayon ang isa ay kailangang magabayan ng mga visual na representasyon, pangunahin ng mga graphical na representasyon ng naobserbahang data.

Sa pagsasagawa, kadalasang limitado ang mga ito sa mga sumusunod na uri ng pag-andar:

1) linear ;

2) parisukat a.

Pagtataya, o pagtatantya- isang siyentipikong pamamaraan na binubuo sa pagpapalit ng ilang mga bagay sa iba, sa isang kahulugan o iba pang malapit sa orihinal, ngunit mas simple.

Ang approximation ay nagpapahintulot sa iyo na pag-aralan ang mga numerical na katangian at husay na katangian ng isang bagay, na binabawasan ang problema sa pag-aaral ng mas simple o mas maginhawang mga bagay (halimbawa, ang mga katangian na madaling kalkulahin o ang mga katangian ay kilala na). Sa teorya ng numero, pinag-aaralan ang mga pagtatantya ng Diophantine, lalo na, ang mga pagtatantya ng mga hindi makatwiran na numero ng mga makatwiran. Sa geometry, ang mga pagtatantya ng mga kurba sa pamamagitan ng mga putol na linya ay isinasaalang-alang. Ang ilang mga sangay ng matematika ay mahalagang ganap na nakatuon sa pagtatantya, halimbawa, ang teorya ng pagtatantya ng mga pag-andar, mga numerical na pamamaraan ng pagsusuri.

Sa isang matalinghagang kahulugan ito ay ginagamit sa pilosopiya bilang paraan ng pagtatantya, isang indikasyon ng tinatayang, hindi pangwakas na kalikasan. Halimbawa, sa ganitong diwa, ang terminong "approximation" ay aktibong ginamit ni Søren Kierkegaard (1813-1855) sa "The Final Unscientific Afterword..."

Kung ang function ay ginagamit lamang para sa interpolation, kung gayon ito ay sapat na upang tantiyahin ang mga puntos na may polynomial, sabihin nating, ng ikalimang antas:

Ang sitwasyon ay mas kumplikado kung ang natural na data sa itaas ay nagsisilbing mga reference point para sa pagtukoy ng batas ng pagbabago na may alam na mga kundisyon sa hangganan. Halimbawa: at . Dito nakasalalay ang kalidad ng resulta sa propesyonalismo ng mananaliksik. Sa kasong ito, ang pinakaangkop na batas ay:

Para sa pinakamainam na pagpili ng mga parameter ng equation, kadalasang ginagamit ang paraan ng least squares.

Paraan ng least squares (LSM,InglesOrdinaryo Hindi bababa sa Mga parisukat , O.L.S. ) - isang matematikal na pamamaraan na ginagamit upang malutas ang iba't ibang mga problema, batay sa pag-minimize ng kabuuan ng mga parisukat ng ilang mga function ng nais na mga variable. Maaari itong magamit upang "malutas" ang mga overdetermined system ng mga equation (kapag ang bilang ng mga equation ay lumampas sa bilang ng mga hindi alam), upang makahanap ng solusyon sa kaso ng mga ordinaryong (hindi overdetermined) nonlinear system ng mga equation, sa tinatayang mga halaga ng punto na may ilang function. Ang OLS ay isa sa mga pangunahing pamamaraan ng pagsusuri ng regression para sa pagtantya ng hindi kilalang mga parameter ng mga modelo ng regression mula sa sample na data.

Kung ang isang tiyak na pisikal na dami ay nakasalalay sa isa pang dami, kung gayon ang pag-asa na ito ay maaaring pag-aralan sa pamamagitan ng pagsukat ng y sa iba't ibang mga halaga ng x. Bilang resulta ng mga pagsukat, ang isang bilang ng mga halaga ay nakuha:

x 1, x 2, ..., x i, ..., x n;

y 1 , y 2 , ..., y i , ... , y n .

Batay sa data ng naturang eksperimento, posibleng bumuo ng graph ng dependence y = ƒ(x). Ginagawang posible ng resultang curve na hatulan ang anyo ng function na ƒ(x). Gayunpaman, ang mga pare-parehong coefficient na pumapasok sa function na ito ay nananatiling hindi kilala. Maaari silang matukoy gamit ang pamamaraan ng least squares. Ang mga pang-eksperimentong punto, bilang panuntunan, ay hindi eksaktong nagsisinungaling sa kurba. Ang pinakamababang paraan ng mga parisukat ay nangangailangan na ang kabuuan ng mga parisukat ng mga paglihis ng mga pang-eksperimentong punto mula sa kurba, i.e. 2 ang pinakamaliit.

Sa pagsasagawa, ang pamamaraang ito ay pinakamadalas (at pinakasimpleng) ginagamit sa kaso ng isang linear na relasyon, i.e. Kailan

y = kx o y = a + bx.

Ang linear dependence ay napakalawak sa pisika. At kahit na ang relasyon ay hindi linear, kadalasan ay sinusubukan nilang bumuo ng isang graph upang makakuha ng isang tuwid na linya. Halimbawa, kung ipinapalagay na ang refractive index ng salamin n ay nauugnay sa light wavelength λ sa pamamagitan ng kaugnayan n = a + b/λ 2, kung gayon ang pagdepende ng n sa λ -2 ay naka-plot sa graph.

Isaalang-alang ang dependency y = kx(isang tuwid na linya na dumadaan sa pinanggalingan). Buuin natin ang halaga φ - ang kabuuan ng mga parisukat ng mga paglihis ng ating mga punto mula sa tuwid na linya

.

Ang halaga ng φ ay palaging positibo at lumalabas na mas maliit kapag mas malapit ang ating mga punto sa tuwid na linya. Ang pamamaraan ng least squares ay nagsasaad na ang halaga para sa k ay dapat piliin upang ang φ ay may pinakamababa

o (19)

Ang pagkalkula ay nagpapakita na ang root-mean-square error sa pagtukoy ng halaga ng k ay katumbas ng

, (20) kung saan ang n ay ang bilang ng mga sukat.

Isaalang-alang natin ngayon ang isang bahagyang mas mahirap na kaso, kapag ang mga puntos ay dapat masiyahan ang formula y = a + bx(isang tuwid na linya na hindi dumadaan sa pinanggalingan).

Ang gawain ay upang mahanap ang pinakamahusay na mga halaga ng a at b mula sa magagamit na hanay ng mga halaga x i, y i.

Muli nating buuin ang parisukat na anyo φ, katumbas ng kabuuan ng mga squared deviations ng mga puntos x i, y i mula sa tuwid na linya

at hanapin ang mga halaga ng a at b kung saan ang φ ay may pinakamababa

;

.

Ang pinagsamang solusyon ng mga equation na ito ay nagbibigay

(21)

Ang root mean square errors ng determinasyon ng a at b ay pantay

(23)

. (24)

Kapag pinoproseso ang mga resulta ng pagsukat gamit ang paraang ito, maginhawang ibuod ang lahat ng data sa isang talahanayan kung saan ang lahat ng halagang kasama sa mga formula (19)–(24) ay paunang kinakalkula. Ang mga anyo ng mga talahanayan na ito ay ibinigay sa mga halimbawa sa ibaba.

Halimbawa 1. Ang pangunahing equation ng dynamics ng rotational motion ε = M/J (isang tuwid na linya na dumadaan sa pinanggalingan) ay pinag-aralan. Sa iba't ibang mga halaga ng sandaling M, ang angular acceleration ε ng isang tiyak na katawan ay sinusukat. Kinakailangan upang matukoy ang sandali ng pagkawalang-galaw ng katawan na ito. Ang mga resulta ng mga sukat ng sandali ng puwersa at angular acceleration ay nakalista sa pangalawa at pangatlong hanay talahanayan 5.

Talahanayan 5

Gamit ang formula (19) natutukoy natin:

.

Upang matukoy ang root mean square error, ginagamit namin ang formula (20)

0.005775 kg-1 · m -2 .

Ayon sa formula (18) mayroon tayo

S J = (2.996 0.005775)/0.3337 = 0.05185 kg m 2 .

Ang pagkakaroon ng itakda ang pagiging maaasahan P = 0.95, gamit ang talahanayan ng Student coefficients para sa n = 5, makikita natin ang t = 2.78 at matukoy ang ganap na error ΔJ = 2.78 0.05185 = 0.1441 ≈ 0.2 kg m 2 .

Isulat natin ang mga resulta sa form:

J = (3.0 ± 0.2) kg m 2 ;

Halimbawa 2. Kalkulahin natin ang koepisyent ng temperatura ng paglaban ng metal gamit ang paraan ng hindi bababa sa mga parisukat. Ang paglaban ay nakasalalay nang linear sa temperatura

R t = R 0 (1 + α t°) = R 0 + R 0 α t°.

Tinutukoy ng libreng termino ang paglaban R 0 sa temperatura na 0 ° C, at ang slope ay ang produkto ng koepisyent ng temperatura α at ang paglaban R 0 .

Ang mga resulta ng mga sukat at kalkulasyon ay ibinibigay sa talahanayan ( tingnan ang talahanayan 6).

Talahanayan 6

(r - bt - a) 2 .10 -6

Gamit ang mga formula (21), (22) natutukoy natin

R 0 = ¯R- α R 0 ¯ t = 1.4005 - 0.002645 85.83333 = 1.1735 Ohm .

Maghanap tayo ng error sa kahulugan ng α. Dahil , pagkatapos ayon sa formula (18) mayroon tayong:

.

Gamit ang mga formula (23), (24) mayroon tayo

;

0.014126 Ohm.

Ang pagkakaroon ng pagtakda ng pagiging maaasahan sa P = 0.95, gamit ang talahanayan ng Student coefficients para sa n = 6, nakita namin ang t = 2.57 at tinutukoy ang ganap na error Δα = 2.57 0.000132 = 0.000338 granizo -1 .

α = (23 ± 4) 10 -4 granizo-1 sa P = 0.95.

Halimbawa 3. Kinakailangang matukoy ang radius ng curvature ng lens gamit ang mga singsing ni Newton. Ang radii ng mga singsing ni Newton r m ay sinusukat at ang mga bilang ng mga singsing na ito ay natukoy. Ang radii ng mga singsing ni Newton ay nauugnay sa radius ng curvature ng lens R at ang ring number sa pamamagitan ng equation

r 2 m = mλR - 2d 0 R,

kung saan ang d 0 ay ang kapal ng puwang sa pagitan ng lens at ng plane-parallel plate (o ang deformation ng lens),

Ang λ ay ang wavelength ng liwanag ng insidente.

λ = (600 ± 6) nm; r 2 m = y; m = x; λR = b; -2d 0 R = a,

pagkatapos ay ang equation ay kukuha ng anyo y = a + bx.

Ang mga resulta ng mga sukat at kalkulasyon ay ipinasok talahanayan 7.

Talahanayan 7

y = r 2, 10 -2 mm 2

y - bx - a, 10 -4

(y - bx - a) 2 , 10 -6

Kinakalkula namin:

1. a at b ayon sa mga formula (21), (22).

a = ¯r 2 - b¯m = (0.208548333 - 0.0594957 3.5) = 0.0003133 mm 2 .

2. Kalkulahin ang root-mean-square error para sa mga halaga b at a gamit ang mga formula (23), (24)

3. Sa pagiging maaasahan ng P = 0.95, gamit ang talahanayan ng mga koepisyent ng Mag-aaral para sa n = 6, makikita natin ang t = 2.57 at tinutukoy ang mga ganap na pagkakamali

Δb = 2.57 · 0.000211179 = 6·10 -4 mm 2 ;

Δa = 2.57 0.000822424 = 3 10 -3 mm 2 .

4. Itala ang mga resulta

b = (595 ± 6) 10 -4 mm 2 sa P = 0.95;

a = (0.3 ± 3)·10 -3 mm 2 sa P = 0.95;

Mula sa mga resultang pang-eksperimentong nakuha, sumusunod na, sa loob ng pagkakamali ng eksperimentong ito, ang tuwid na linya r 2 m = ƒ(m) ay dumadaan sa pinagmulan ng mga coordinate, dahil kung ang error sa halaga ng anumang parameter ay lumalabas na maihahambing o lumampas sa halaga ng parameter, nangangahulugan ito na malamang na ang tunay na halaga ng parameter na ito ay zero.

Sa ilalim ng mga kundisyon ng eksperimentong ito, ang halaga ng a ay hindi interesado. Samakatuwid, hindi na natin ito haharapin.

5. Kalkulahin ang radius ng curvature ng lens:

R = b / λ = 594.5 / 6 = 99.1 mm.

6. Dahil ang isang sistematikong error ay ibinibigay para sa wavelength, kalkulahin din natin ang sistematikong error para sa R ​​gamit ang formula (16), na kunin ang random na error nito Δb bilang sistematikong error ng dami b.

Isinulat namin ang huling resulta R = (99 ± 2) mmε ≈ 3% sa P = 0.95.

Ang pagtatantya ng pang-eksperimentong data ay isang paraan batay sa pagpapalit ng data na nakuha sa eksperimentong gamit ang isang analytical function na pinaka malapit na pumasa o nag-tutugma sa mga nodal point na may orihinal na mga halaga (data na nakuha sa panahon ng isang eksperimento o eksperimento). Sa kasalukuyan, mayroong dalawang paraan upang tukuyin ang isang analytical function:

Sa pamamagitan ng pagbuo ng n-degree interpolation polynomial na pumasa direkta sa lahat ng mga punto isang ibinigay na hanay ng data. Sa kasong ito, ang approximating function ay ipinakita sa anyo ng: isang interpolation polynomial sa Lagrange form o isang interpolation polynomial sa Newton form.

Sa pamamagitan ng pagbuo ng isang n-degree na tinatayang polynomial na pumasa sa agarang paligid ng mga punto mula sa isang ibinigay na hanay ng data. Kaya, pinapawi ng approximating function ang lahat ng random na ingay (o mga error) na maaaring lumitaw sa panahon ng eksperimento: ang mga sinusukat na halaga sa panahon ng eksperimento ay nakasalalay sa mga random na salik na nagbabago ayon sa kanilang sariling mga random na batas (mga error sa pagsukat o instrumento, hindi tumpak o eksperimentong mga pagkakamali). Sa kasong ito, ang approximating function ay tinutukoy gamit ang least squares method.

Pinakamababang parisukat na pamamaraan(sa English-language literature Ordinary Least Squares, OLS) ay isang mathematical method batay sa pagtukoy sa approximating function, na binuo sa pinakamalapit na proximity sa mga puntos mula sa isang naibigay na array ng experimental data. Ang lapit ng orihinal at tinatayang function na F(x) ay tinutukoy ng isang numerical na sukat, ibig sabihin: ang kabuuan ng mga squared deviations ng eksperimental na data mula sa approximating curve na F(x) ay dapat na pinakamaliit.

Tinatayang curve na ginawa gamit ang least squares method

Ang paraan ng least squares ay ginagamit:

Upang malutas ang mga overdetermined system ng mga equation kapag ang bilang ng mga equation ay lumampas sa bilang ng mga hindi alam;

Upang makahanap ng solusyon sa kaso ng mga ordinaryo (hindi overdetermined) nonlinear system ng mga equation;

Upang tantiyahin ang mga halaga ng punto na may ilang tinatayang function.

Ang approximating function gamit ang least squares method ay tinutukoy mula sa kundisyon ng minimum sum ng squared deviations ng kinakalkula approximating function mula sa isang ibinigay na array ng experimental data. Ang criterion na ito ng least squares method ay nakasulat bilang sumusunod na expression:

Ang mga halaga ng kinakalkula na approximating function sa mga nodal point,

Isang ibinigay na hanay ng pang-eksperimentong data sa mga nodal na punto.

Ang quadratic criterion ay may ilang "magandang" katangian, tulad ng differentiability, na nagbibigay ng natatanging solusyon sa problema sa pagtatantya sa mga polynomial approximating function.

Depende sa mga kondisyon ng problema, ang approximating function ay isang polynomial ng degree m

Ang antas ng approximating function ay hindi nakadepende sa bilang ng mga nodal point, ngunit ang dimensyon nito ay dapat palaging mas mababa kaysa sa dimensyon (bilang ng mga puntos) ng isang ibinigay na pang-eksperimentong array ng data.

∙ Kung ang antas ng approximating function ay m=1, pagkatapos ay tinatantya namin ang tabular function na may isang tuwid na linya (linear regression).

∙ Kung ang antas ng approximating function ay m=2, pagkatapos ay tinatantya namin ang table function na may isang quadratic parabola (quadratic approximation).

∙ Kung ang antas ng approximating function ay m=3, pagkatapos ay tinatantya namin ang table function na may cubic parabola (cubic approximation).

Sa pangkalahatang kaso, kapag kinakailangan na bumuo ng tinatayang polynomial ng degree m para sa mga ibinigay na halaga ng talahanayan, ang kundisyon para sa minimum ng kabuuan ng mga squared deviations sa lahat ng nodal point ay muling isusulat sa sumusunod na anyo:

- hindi kilalang coefficient ng tinatayang polynomial ng degree m;

Ang bilang ng mga halaga ng talahanayan na tinukoy.

Ang isang kinakailangang kondisyon para sa pagkakaroon ng isang minimum ng isang function ay ang pagkakapantay-pantay sa zero ng mga partial derivatives nito na may kinalaman sa mga hindi kilalang variable. . Bilang resulta, nakukuha namin ang sumusunod na sistema ng mga equation:

Ibahin natin ang resultang linear system ng mga equation: buksan ang mga bracket at ilipat ang mga libreng termino sa kanang bahagi ng expression. Bilang resulta, ang resultang sistema ng mga linear algebraic na expression ay isusulat sa sumusunod na anyo:

Ang sistemang ito ng mga linear algebraic na expression ay maaaring muling isulat sa matrix form:

Bilang resulta, nakuha ang isang sistema ng mga linear na equation ng dimensyon na m+1, na binubuo ng m+1 na hindi alam. Ang sistemang ito ay maaaring malutas gamit ang anumang paraan para sa paglutas ng mga linear algebraic equation (halimbawa, ang Gaussian method). Bilang resulta ng solusyon, makikita ang hindi kilalang mga parameter ng approximating function na nagbibigay ng pinakamababang kabuuan ng squared deviations ng approximating function mula sa orihinal na data, i.e. pinakamahusay na posibleng quadratic approximation. Dapat alalahanin na kung magbago man ang isang value ng source data, babaguhin ng lahat ng coefficient ang kanilang mga value, dahil ganap silang natutukoy ng source data.

Approximation ng source data sa pamamagitan ng linear dependence

(linear regression)

Bilang isang halimbawa, isaalang-alang natin ang pamamaraan para sa pagtukoy ng approximating function, na tinukoy sa anyo ng isang linear dependence. Alinsunod sa paraan ng least squares, ang kundisyon para sa minimum ng kabuuan ng squared deviations ay nakasulat sa sumusunod na anyo:

Mga coordinate ng mga node ng talahanayan;

Mga hindi kilalang coefficient ng approximating function, na tinukoy bilang linear dependence.

Ang isang kinakailangang kondisyon para sa pagkakaroon ng isang minimum ng isang function ay ang pagkakapantay-pantay sa zero ng mga partial derivatives nito na may paggalang sa mga hindi kilalang variable. Bilang resulta, nakukuha namin ang sumusunod na sistema ng mga equation:

Ibahin natin ang resultang linear system ng mga equation.

Nalulutas namin ang nagresultang sistema ng mga linear na equation. Ang mga coefficient ng approximating function sa analytical form ay tinutukoy tulad ng sumusunod (Cramer's method):

Tinitiyak ng mga coefficient na ito ang pagbuo ng isang linear approximating function alinsunod sa criterion ng pag-minimize ng kabuuan ng mga parisukat ng approximating function mula sa ibinigay na mga halaga ng tabular (pang-eksperimentong data).

Algorithm para sa pagpapatupad ng pamamaraan ng least squares

1. Paunang data:

Isang hanay ng pang-eksperimentong data na may bilang ng mga sukat N ay tinukoy

Tinukoy ang antas ng tinatayang polynomial (m).

2. Algoritmo ng pagkalkula:

2.1. Ang mga coefficient para sa pagbuo ng isang sistema ng mga equation na may mga sukat ay tinutukoy

Coefficients ng system of equation (kaliwang bahagi ng equation)

- index ng numero ng column ng square matrix ng sistema ng mga equation

Mga libreng termino ng isang sistema ng mga linear na equation (kanang bahagi ng equation)

- index ng row number ng square matrix ng system of equation

2.2. Pagbubuo ng isang sistema ng mga linear na equation na may dimensyon .

2.3. Paglutas ng isang sistema ng mga linear na equation upang matukoy ang hindi kilalang coefficient ng isang tinatayang polynomial ng degree m.

2.4. Pagpapasiya ng kabuuan ng mga parisukat na paglihis ng tinatayang polynomial mula sa orihinal na mga halaga sa lahat ng mga nodal na punto

Ang nahanap na halaga ng kabuuan ng mga squared deviations ay ang pinakamababang posible.

Approximation gamit ang iba pang function

Dapat tandaan na kapag tinatantya ang orihinal na data alinsunod sa pamamaraan ng hindi bababa sa mga parisukat, ang logarithmic function, exponential function at power function ay minsan ginagamit bilang approximating function.

Logarithmic approximation

Isaalang-alang natin ang kaso kapag ang approximating function ay ibinigay ng isang logarithmic function ng form:

Mayroon itong maraming mga application, dahil pinapayagan nito ang isang tinatayang representasyon ng isang naibigay na function ng iba pang mas simple. Ang LSM ay maaaring maging lubhang kapaki-pakinabang sa pagproseso ng mga obserbasyon, at ito ay aktibong ginagamit upang tantyahin ang ilang dami batay sa mga resulta ng mga sukat ng iba na naglalaman ng mga random na error. Sa artikulong ito, matututunan mo kung paano ipatupad ang mga kalkulasyon ng hindi bababa sa mga parisukat sa Excel.

Paglalahad ng problema gamit ang isang tiyak na halimbawa

Ipagpalagay na mayroong dalawang mga tagapagpahiwatig X at Y. Bukod dito, ang Y ay nakasalalay sa X. Dahil ang OLS ay interesado sa amin mula sa punto ng view ng pagsusuri ng regression (sa Excel ang mga pamamaraan nito ay ipinatupad gamit ang mga built-in na function), dapat nating agad na magpatuloy sa pagsasaalang-alang ng isang tiyak na problema.

Kaya, hayaan ang X ang retail space ng isang grocery store, na sinusukat sa square meters, at ang Y ang taunang turnover, na sinusukat sa milyun-milyong rubles.

Kinakailangang gumawa ng forecast kung ano ang magiging turnover (Y) ng tindahan kung mayroon itong ganito o ganoong retail space. Malinaw, ang function na Y = f (X) ay tumataas, dahil ang hypermarket ay nagbebenta ng mas maraming kalakal kaysa sa stall.

Ilang salita tungkol sa kawastuhan ng paunang data na ginamit para sa hula

Sabihin nating mayroon kaming isang talahanayan na binuo gamit ang data para sa n mga tindahan.

Ayon sa mga istatistika ng matematika, ang mga resulta ay magiging mas o mas tama kung ang data sa hindi bababa sa 5-6 na mga bagay ay susuriin. Bilang karagdagan, hindi maaaring gamitin ang mga "anomalous" na resulta. Sa partikular, ang isang piling maliit na boutique ay maaaring magkaroon ng turnover nang maraming beses na mas malaki kaysa sa turnover ng malalaking retail outlet ng klase ng "masmarket".

Ang kakanyahan ng pamamaraan

Ang data ng talahanayan ay maaaring ilarawan sa eroplano ng Cartesian bilang mga puntos M 1 (x 1, y 1), ... M n (x n, y n). Ngayon ang solusyon sa problema ay mababawasan sa pagpili ng isang approximating function y = f (x), na may isang graph na dumadaan nang mas malapit hangga't maaari sa mga puntos na M 1, M 2, .. M n.

Siyempre, maaari kang gumamit ng isang high-degree na polynomial, ngunit ang pagpipiliang ito ay hindi lamang mahirap ipatupad, ngunit mali din, dahil hindi ito magpapakita ng pangunahing trend na kailangang makita. Ang pinaka-makatwirang solusyon ay ang paghahanap para sa tuwid na linya y = ax + b, na pinakamahusay na tinatantya ang pang-eksperimentong data, o mas tiyak, ang mga coefficient a at b.

Pagtatasa ng katumpakan

Sa anumang pagtataya, ang pagtatasa ng katumpakan nito ay partikular na kahalagahan. Tukuyin natin sa pamamagitan ng e i ang pagkakaiba (paglihis) sa pagitan ng mga functional at pang-eksperimentong halaga para sa punto x i, ibig sabihin, e i = y i - f (x i).

Malinaw, upang masuri ang katumpakan ng pagtatantya, maaari mong gamitin ang kabuuan ng mga paglihis, ibig sabihin, kapag pumipili ng isang tuwid na linya para sa isang tinatayang representasyon ng pag-asa ng X sa Y, kailangan mong bigyan ng kagustuhan ang isa na may pinakamaliit na halaga ng ang sum e i sa lahat ng puntong pinag-iisipan. Gayunpaman, hindi lahat ay napakasimple, dahil kasama ang mga positibong paglihis ay magkakaroon din ng mga negatibo.

Ang isyu ay maaaring malutas gamit ang mga module ng paglihis o ang kanilang mga parisukat. Ang huling paraan ay ang pinaka malawak na ginagamit. Ginagamit ito sa maraming lugar, kabilang ang pagsusuri ng regression (sa Excel, ipinatupad ito gamit ang dalawang built-in na function), at matagal nang napatunayang epektibo.

Pinakamababang parisukat na pamamaraan

Ang Excel, tulad ng alam mo, ay may built-in na AutoSum function na nagbibigay-daan sa iyo upang kalkulahin ang mga halaga ng lahat ng mga halaga na matatagpuan sa napiling hanay. Kaya, walang makakapigil sa amin sa pagkalkula ng halaga ng expression (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

Sa mathematical notation ganito ang hitsura:

Dahil ang desisyon ay unang ginawa sa pagtatantya gamit ang isang tuwid na linya, mayroon kaming:

Kaya, ang gawain ng paghahanap ng tuwid na linya na pinakamahusay na naglalarawan sa tiyak na pag-asa ng mga dami ng X at Y ay bumababa sa pagkalkula ng minimum ng isang function ng dalawang variable:

Upang gawin ito, kailangan mong i-equate ang mga partial derivatives na may paggalang sa mga bagong variable na a at b sa zero, at lutasin ang isang primitive system na binubuo ng dalawang equation na may 2 hindi alam ng form:

Pagkatapos ng ilang simpleng pagbabago, kabilang ang paghahati sa 2 at pagmamanipula ng mga kabuuan, makakakuha tayo ng:

Ang paglutas nito, halimbawa, gamit ang paraan ng Cramer, nakakakuha tayo ng isang nakatigil na punto na may ilang mga coefficient a * at b *. Ito ang minimum, ibig sabihin, upang mahulaan kung anong turnover ang magkakaroon ng isang tindahan para sa isang partikular na lugar, ang tuwid na linyang y = a * x + b * ay angkop, na isang modelo ng regression para sa halimbawang pinag-uusapan. Siyempre, hindi ka nito papayagan na mahanap ang eksaktong resulta, ngunit makakatulong ito sa iyong magkaroon ng ideya kung ang pagbili ng isang partikular na lugar sa credit ng tindahan ay magbabayad.

Paano Ipatupad ang Least Squares sa Excel

Ang Excel ay may function para sa pagkalkula ng mga halaga gamit ang hindi bababa sa mga parisukat. Mayroon itong sumusunod na anyo: "TREND" (kilalang mga halaga ng Y; kilalang mga halaga ng X; mga bagong halaga ng X; pare-pareho). Ilapat natin ang formula para sa pagkalkula ng OLS sa Excel sa aming talahanayan.

Upang gawin ito, ipasok ang "=" sign sa cell kung saan dapat ipakita ang resulta ng pagkalkula gamit ang pinakamababang paraan ng mga parisukat sa Excel at piliin ang function na "TREND". Sa window na bubukas, punan ang naaangkop na mga patlang, na naka-highlight:

  • hanay ng mga kilalang halaga para sa Y (sa kasong ito, data para sa trade turnover);
  • range x 1, …x n, ibig sabihin, ang laki ng retail space;
  • parehong kilala at hindi kilalang mga halaga ng x, kung saan kailangan mong malaman ang laki ng turnover (para sa impormasyon tungkol sa kanilang lokasyon sa worksheet, tingnan sa ibaba).

Bilang karagdagan, ang formula ay naglalaman ng lohikal na variable na "Const". Kung maglalagay ka ng 1 sa kaukulang field, nangangahulugan ito na dapat mong isagawa ang mga kalkulasyon, sa pag-aakalang b = 0.

Kung kailangan mong malaman ang forecast para sa higit sa isang x na halaga, pagkatapos ay pagkatapos na ipasok ang formula hindi mo dapat pindutin ang "Enter", ngunit kailangan mong i-type ang kumbinasyon na "Shift" + "Control" + "Enter" sa keyboard.

Ang ilang mga tampok

Ang pagsusuri ng regression ay maaaring ma-access kahit sa mga dummies. Ang formula ng Excel para sa paghula ng halaga ng isang hanay ng mga hindi kilalang variable—TREND—ay maaaring gamitin kahit na sa mga hindi pa nakakarinig ng hindi bababa sa mga parisukat. Sapat lamang na malaman ang ilan sa mga tampok ng gawain nito. Sa partikular:

  • Kung inayos mo ang hanay ng mga kilalang halaga ng variable y sa isang hilera o haligi, kung gayon ang bawat hilera (column) na may mga kilalang halaga ng x ay makikita ng programa bilang isang hiwalay na variable.
  • Kung ang isang hanay na may kilalang x ay hindi tinukoy sa window ng TREND, kung gayon kapag ginagamit ang function sa Excel, ituturing ito ng programa bilang isang array na binubuo ng mga integer, ang bilang nito ay tumutugma sa saklaw na may ibinigay na mga halaga ng variable y.
  • Upang mag-output ng array ng mga "hulaang" value, ang expression para sa pagkalkula ng trend ay dapat na ilagay bilang array formula.
  • Kung ang mga bagong halaga ng x ay hindi tinukoy, ang TREND function ay isinasaalang-alang ang mga ito na katumbas ng mga kilala. Kung hindi sila tinukoy, ang array 1 ay kukunin bilang argumento; 2; 3; 4;…, na naaayon sa hanay na may tinukoy nang mga parameter y.
  • Ang hanay na naglalaman ng mga bagong x value ay dapat na pareho o higit pang mga row o column gaya ng range na naglalaman ng mga ibinigay na y value. Sa madaling salita, dapat itong proporsyonal sa mga independiyenteng variable.
  • Ang isang array na may mga kilalang x value ay maaaring maglaman ng maraming variable. Gayunpaman, kung isa lamang ang pinag-uusapan, kinakailangan na ang mga saklaw na may ibinigay na mga halaga ng x at y ay proporsyonal. Sa kaso ng ilang mga variable, kinakailangan na ang saklaw na may ibinigay na mga halaga ng y ay magkasya sa isang hanay o isang hilera.

PREDICTION function

Ipinatupad gamit ang ilang mga function. Isa sa mga ito ay tinatawag na "PREDICTION". Ito ay katulad ng "TREND", ibig sabihin, binibigyan nito ang resulta ng mga kalkulasyon gamit ang paraan ng least squares. Gayunpaman, para lamang sa isang X, kung saan hindi alam ang halaga ng Y.

Ngayon alam mo na ang mga formula sa Excel para sa mga dummies na nagbibigay-daan sa iyong hulaan ang hinaharap na halaga ng isang partikular na tagapagpahiwatig ayon sa isang linear na trend.



gastroguru 2017