การหาค่าสัมประสิทธิ์ของฟังก์ชันเชิงเส้นโดยใช้วิธีกำลังสองน้อยที่สุด การประมาณข้อมูลการทดลอง

วิธีกำลังสองน้อยที่สุดใช้ในการประมาณค่าพารามิเตอร์ของสมการถดถอย

วิธีหนึ่งในการศึกษาความสัมพันธ์แบบสุ่มระหว่างคุณลักษณะคือการวิเคราะห์การถดถอย
การวิเคราะห์การถดถอยเป็นที่มาของสมการการถดถอย โดยใช้ค่าเฉลี่ยของตัวแปรสุ่ม (คุณลักษณะผลลัพธ์) ซึ่งสามารถหาได้หากทราบค่าของตัวแปรอื่น (หรืออื่นๆ) (คุณลักษณะปัจจัย) ประกอบด้วยขั้นตอนต่อไปนี้:

การเลือกรูปแบบการเชื่อมต่อ (ประเภทของสมการถดถอยเชิงวิเคราะห์)
การประมาณค่าพารามิเตอร์สมการ
การประเมินคุณภาพของสมการถดถอยเชิงวิเคราะห์

ส่วนใหญ่แล้ว รูปแบบเชิงเส้นจะใช้เพื่ออธิบายความสัมพันธ์ทางสถิติของคุณลักษณะต่างๆ การมุ่งเน้นที่ความสัมพันธ์เชิงเส้นอธิบายได้จากการตีความทางเศรษฐศาสตร์ที่ชัดเจนของพารามิเตอร์ การแปรผันของตัวแปรที่จำกัด และความจริงที่ว่าในกรณีส่วนใหญ่ของความสัมพันธ์แบบไม่เชิงเส้นจะถูกแปลง (โดยลอการิทึมหรือการแทนที่ตัวแปร) ให้เป็นรูปแบบเชิงเส้นเพื่อทำการคำนวณ .
ในกรณีของความสัมพันธ์เชิงเส้นตรงแบบคู่ สมการการถดถอยจะอยู่ในรูปแบบ: y i =a+b·x i +u i พารามิเตอร์ a และ b ของสมการนี้ประมาณจากข้อมูลการสังเกตทางสถิติ x และ y ผลลัพธ์ของการประเมินดังกล่าวคือสมการ โดยที่ คือค่าประมาณของพารามิเตอร์ a และ b คือค่าของคุณลักษณะผลลัพธ์ (ตัวแปร) ที่ได้รับจากสมการการถดถอย (ค่าที่คำนวณได้)

ส่วนใหญ่มักใช้ในการประมาณค่าพารามิเตอร์ วิธีกำลังสองน้อยที่สุด (LSM)
วิธีกำลังสองน้อยที่สุดให้การประมาณค่าพารามิเตอร์ของสมการถดถอยที่ดีที่สุด (สม่ำเสมอ มีประสิทธิภาพ และไม่เอนเอียง) แต่เฉพาะในกรณีที่เป็นไปตามสมมติฐานบางประการเกี่ยวกับเทอมสุ่ม (u) และตัวแปรอิสระ (x) เท่านั้น (ดูสมมติฐาน OLS)

ปัญหาการประมาณค่าพารามิเตอร์ของสมการคู่เชิงเส้นโดยใช้วิธีกำลังสองน้อยที่สุดมีดังต่อไปนี้: เพื่อให้ได้ค่าประมาณของพารามิเตอร์ ซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าที่แท้จริงของคุณลักษณะผลลัพธ์ - y ฉัน จากค่าที่คำนวณได้ - มีค่าน้อยที่สุด
อย่างเป็นทางการ การทดสอบโอแอลเอสสามารถเขียนได้ดังนี้: .

การจำแนกวิธีกำลังสองน้อยที่สุด

วิธีกำลังสองน้อยที่สุด
วิธีความน่าจะเป็นสูงสุด (สำหรับแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิกปกติ จะถือว่าค่าปกติของค่าตกค้างของการถดถอย)
วิธี OLS กำลังสองน้อยที่สุดทั่วไปใช้ในกรณีของความสัมพันธ์อัตโนมัติของข้อผิดพลาด และในกรณีของความแตกต่าง
วิธีกำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก (กรณีพิเศษของ OLS ที่มีค่าตกค้างเฮเทอโรเซดาสติก)

เรามาอธิบายประเด็นกันดีกว่า วิธีกำลังสองน้อยที่สุดแบบคลาสสิกแบบกราฟิก. ในการดำเนินการนี้ เราจะสร้างแผนภูมิกระจายตามข้อมูลเชิงสังเกต (x i, y i, i=1;n) ในระบบพิกัดสี่เหลี่ยม (แผนภูมิกระจายดังกล่าวเรียกว่าฟิลด์สหสัมพันธ์) ลองเลือกเส้นตรงที่ใกล้กับจุดของฟิลด์สหสัมพันธ์มากที่สุด ตามวิธีกำลังสองน้อยที่สุด เส้นจะถูกเลือกเพื่อให้ผลรวมของกำลังสองของระยะทางแนวตั้งระหว่างจุดของเขตข้อมูลสหสัมพันธ์และเส้นนี้มีค่าน้อยที่สุด

สัญกรณ์ทางคณิตศาสตร์สำหรับปัญหานี้: .
เรารู้จักค่าของ y i และ x i =1...n ซึ่งเป็นข้อมูลเชิงสังเกต ในฟังก์ชัน S พวกมันแทนค่าคงที่ ตัวแปรในฟังก์ชันนี้เป็นค่าประมาณที่จำเป็นของพารามิเตอร์ - , ในการค้นหาฟังก์ชันขั้นต่ำของตัวแปรสองตัว จำเป็นต้องคำนวณอนุพันธ์ย่อยของฟังก์ชันนี้สำหรับแต่ละพารามิเตอร์และจัดให้เป็นศูนย์ เช่น .
เป็นผลให้เราได้ระบบสมการเชิงเส้นปกติ 2 แบบ:
ในการแก้ปัญหาระบบนี้ เราจะพบการประมาณค่าพารามิเตอร์ที่ต้องการ:

ความถูกต้องของการคำนวณพารามิเตอร์ของสมการถดถอยสามารถตรวจสอบได้โดยการเปรียบเทียบจำนวน (อาจมีความคลาดเคลื่อนบางประการเนื่องจากการปัดเศษของการคำนวณ)
ในการคำนวณค่าประมาณพารามิเตอร์ คุณสามารถสร้างตารางที่ 1 ได้
เครื่องหมายของสัมประสิทธิ์การถดถอย b บ่งบอกถึงทิศทางของความสัมพันธ์ (ถ้า b >0 ความสัมพันธ์จะเป็นทางตรง ถ้า b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
อย่างเป็นทางการ ค่าของพารามิเตอร์ a คือค่าเฉลี่ยของ y โดยที่ x เท่ากับศูนย์ หากแอตทริบิวต์-ปัจจัยไม่มีและไม่สามารถมีค่าเป็นศูนย์ได้ การตีความพารามิเตอร์ a ข้างต้นก็ไม่สมเหตุสมผล

การประเมินความใกล้ชิดของความสัมพันธ์ระหว่างคุณลักษณะ ดำเนินการโดยใช้สัมประสิทธิ์สหสัมพันธ์เชิงเส้นคู่ - r x,y สามารถคำนวณได้โดยใช้สูตร: . นอกจากนี้ ค่าสัมประสิทธิ์สหสัมพันธ์คู่เชิงเส้นสามารถหาได้จากค่าสัมประสิทธิ์การถดถอย b: .
ช่วงของค่าที่ยอมรับได้ของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นคือตั้งแต่ –1 ถึง +1 สัญลักษณ์ของค่าสัมประสิทธิ์สหสัมพันธ์บ่งบอกถึงทิศทางของความสัมพันธ์ ถ้า r x, y >0 แสดงว่าการเชื่อมต่อเป็นแบบตรง ถ้า r x, y<0, то связь обратная.
หากสัมประสิทธิ์นี้ใกล้เคียงกับความสามัคคีในขนาด ความสัมพันธ์ระหว่างคุณลักษณะต่างๆ ก็สามารถตีความได้ว่าเป็นความสัมพันธ์เชิงเส้นที่ค่อนข้างใกล้เคียงกัน หากโมดูลมีค่าเท่ากับหนึ่ง ê r x , y ê =1 ความสัมพันธ์ระหว่างคุณลักษณะต่างๆ จะเป็นเชิงเส้นเชิงฟังก์ชัน หากจุดสนใจ x และ y มีความเป็นอิสระเชิงเส้น ดังนั้น r x,y จะใกล้เคียงกับ 0
ในการคำนวณ r x,y คุณสามารถใช้ตารางที่ 1 ได้เช่นกัน

ตารางที่ 1

ไม่มีข้อสังเกต	x ฉัน	ใช่แล้ว	x ฉัน ∙y ฉัน
1	x1	คุณ 1	x 1 ปี 1
2	x2	คุณ 2	x 2 ปี 2
...
n	เอ็กซ์เอ็น	ใช่	x ไม่ ใช่
ผลรวมคอลัมน์	∑x	∑ใช่	∑xy
ค่าเฉลี่ย

เพื่อประเมินคุณภาพของสมการการถดถอยที่เกิดขึ้น ให้คำนวณค่าสัมประสิทธิ์การกำหนดทางทฤษฎี - R 2 yx:

,
โดยที่ d 2 คือความแปรปรวนของ y อธิบายโดยสมการถดถอย
e 2 - ความแปรปรวนของ y ที่เหลือ (ไม่ได้อธิบายโดยสมการถดถอย)
s 2 y - ผลต่างรวม (ทั้งหมด) ของ y
ค่าสัมประสิทธิ์การกำหนดลักษณะสัดส่วนของความแปรผัน (การกระจายตัว) ของคุณลักษณะผลลัพธ์ y อธิบายโดยการถดถอย (และด้วยเหตุนี้ ตัวประกอบ x) ในรูปแบบรวม (การกระจายตัว) y ค่าสัมประสิทธิ์การกำหนด R 2 yx ใช้ค่าตั้งแต่ 0 ถึง 1 ดังนั้นค่า 1-R 2 yx จะแสดงลักษณะของสัดส่วนของความแปรปรวน y ที่เกิดจากอิทธิพลของปัจจัยอื่น ๆ ที่ไม่ได้คำนึงถึงในแบบจำลองและข้อผิดพลาดของข้อกำหนด
ด้วยการถดถอยเชิงเส้นคู่ R 2 yx = r 2 yx

ซึ่งพบการประยุกต์อย่างกว้างขวางที่สุดในสาขาวิทยาศาสตร์และกิจกรรมภาคปฏิบัติต่างๆ นี่อาจจะเป็นฟิสิกส์ เคมี ชีววิทยา เศรษฐศาสตร์ สังคมวิทยา จิตวิทยา และอื่นๆ อีกมากมาย ตามความประสงค์ของโชคชะตาฉันมักจะต้องรับมือกับเศรษฐกิจดังนั้นวันนี้ฉันจะจัดทริปให้คุณไปยังประเทศที่น่าอัศจรรย์ที่เรียกว่า เศรษฐมิติ=) ...จะไม่อยากได้ได้ยังไง! ที่นั่นดีมาก คุณแค่ต้องตัดสินใจ! ...แต่สิ่งที่คุณอาจต้องการอย่างแน่นอนคือการเรียนรู้วิธีการแก้ปัญหา วิธีกำลังสองน้อยที่สุด. และโดยเฉพาะอย่างยิ่งผู้อ่านที่ขยันจะได้เรียนรู้ที่จะแก้ปัญหาเหล่านี้ไม่เพียง แต่ถูกต้อง แต่ยังเร็วมาก ;-) แต่ก่อนอื่น คำแถลงทั่วไปของปัญหา+ ตัวอย่างประกอบ:

ให้เราศึกษาตัวบ่งชี้ในสาขาวิชาเฉพาะที่มีการแสดงออกเชิงปริมาณ ในขณะเดียวกัน ก็มีเหตุผลทุกประการที่ทำให้เชื่อได้ว่าตัวบ่งชี้นั้นขึ้นอยู่กับตัวบ่งชี้นั้น สมมติฐานนี้สามารถเป็นได้ทั้งสมมติฐานทางวิทยาศาสตร์หรือตามสามัญสำนึกขั้นพื้นฐาน อย่างไรก็ตาม ทิ้งวิทยาศาสตร์ไปซะ แล้วมาสำรวจเรื่องน่ารับประทานอื่นๆ กันดีกว่า เช่น ร้านขายของชำ มาแสดงโดย:

– พื้นที่ค้าปลีกของร้านขายของชำ ตร.ม.
– มูลค่าการซื้อขายประจำปีของร้านขายของชำ, ล้านรูเบิล

เป็นที่ชัดเจนอย่างยิ่งว่ายิ่งพื้นที่ร้านค้ามีขนาดใหญ่ขึ้น ในกรณีส่วนใหญ่มูลค่าการซื้อขายก็จะมากขึ้นตามไปด้วย

สมมติว่าหลังจากดำเนินการสังเกต/ทดลอง/คำนวณ/เต้นรำด้วยแทมโบรีน เราก็มีข้อมูลตัวเลขพร้อมใช้:

สำหรับร้านขายของชำ ฉันคิดว่าทุกอย่างชัดเจน: - นี่คือพื้นที่ของร้านที่ 1 - มูลค่าการซื้อขายประจำปี - พื้นที่ของร้านที่ 2 - มูลค่าการซื้อขายประจำปี ฯลฯ อย่างไรก็ตาม การเข้าถึงสื่อลับนั้นไม่จำเป็นเลย - การประเมินมูลค่าการค้าที่แม่นยำอย่างเป็นธรรมสามารถทำได้โดยใช้ สถิติทางคณิตศาสตร์. อย่างไรก็ตาม อย่าเพิ่งวอกแวก หลักสูตรจารกรรมเชิงพาณิชย์ได้รับค่าตอบแทนแล้ว =)

ข้อมูลแบบตารางสามารถเขียนในรูปแบบของจุดและแสดงในรูปแบบที่คุ้นเคยได้ ระบบคาร์ทีเซียน .

มาตอบคำถามสำคัญกัน: การศึกษาเชิงคุณภาพต้องใช้คะแนนกี่คะแนน?

ใหญ่กว่าดีกว่า. ชุดขั้นต่ำที่ยอมรับได้ประกอบด้วย 5-6 คะแนน นอกจากนี้ เมื่อข้อมูลมีน้อย ผลลัพธ์ที่ "ผิดปกติ" ก็ไม่สามารถรวมไว้ในตัวอย่างได้ ตัวอย่างเช่น ร้านค้าชั้นนำขนาดเล็กสามารถรับคำสั่งซื้อที่มีขนาดมากกว่า "เพื่อนร่วมงาน" ดังนั้นจึงบิดเบือนรูปแบบทั่วไปที่คุณต้องค้นหา!

พูดง่ายๆ ก็คือ เราต้องเลือกฟังก์ชัน กำหนดการซึ่งผ่านไปใกล้จุดมากที่สุด . ฟังก์ชันนี้เรียกว่า โดยประมาณ (การประมาณ - การประมาณ)หรือ ฟังก์ชันทางทฤษฎี . โดยทั่วไปแล้ว "คู่แข่ง" ที่ชัดเจนจะปรากฏขึ้นที่นี่ทันที - พหุนามระดับสูงซึ่งกราฟจะผ่านจุดทั้งหมด แต่ตัวเลือกนี้ซับซ้อนและมักจะไม่ถูกต้อง (เนื่องจากกราฟจะ “วนซ้ำ” ตลอดเวลาและสะท้อนแนวโน้มหลักได้ไม่ดี).

ดังนั้นฟังก์ชันที่ต้องการจะต้องค่อนข้างเรียบง่ายและในขณะเดียวกันก็สะท้อนถึงการพึ่งพาอย่างเพียงพอ ดังที่คุณอาจเดาได้ มีการเรียกวิธีหนึ่งในการค้นหาฟังก์ชันดังกล่าว วิธีกำลังสองน้อยที่สุด. ก่อนอื่นเรามาดูสาระสำคัญของมันในแง่ทั่วไปกันก่อน ให้ฟังก์ชันบางอย่างแสดงข้อมูลการทดลองโดยประมาณ:

จะประเมินความถูกต้องของการประมาณนี้ได้อย่างไร? ให้เราคำนวณความแตกต่าง (ส่วนเบี่ยงเบน) ระหว่างค่าการทดลองและค่าฟังก์ชันด้วย (เราศึกษาการวาดภาพ). ความคิดแรกที่เข้ามาในใจคือการประมาณว่าผลรวมจะมีขนาดใหญ่เพียงใด แต่ปัญหาคือความแตกต่างอาจเป็นลบได้ (ตัวอย่างเช่น, ) และการเบี่ยงเบนจากผลรวมดังกล่าวจะหักล้างกัน ดังนั้นในการประมาณความแม่นยำของการประมาณจึงขอผลรวม โมดูลการเบี่ยงเบน:

หรือยุบ: (เผื่อใครไม่รู้: – นี่คือไอคอนผลรวม และ – ตัวแปร “ตัวนับ” เสริม ซึ่งรับค่าตั้งแต่ 1 ถึง ).

โดยการประมาณคะแนนการทดลองที่มีฟังก์ชันต่างกัน เราจะได้ค่าที่แตกต่างกัน และแน่นอนว่าเมื่อผลรวมน้อยกว่า ฟังก์ชันนั้นก็จะแม่นยำมากขึ้น

มีวิธีการดังกล่าวอยู่และเรียกว่า วิธีโมดูลัสน้อยที่สุด. อย่างไรก็ตามในทางปฏิบัติก็มีแพร่หลายมากขึ้น วิธีกำลังสองน้อยที่สุดซึ่งค่าลบที่เป็นไปได้ไม่ได้ถูกกำจัดโดยโมดูล แต่โดยการยกกำลังสองส่วนเบี่ยงเบน:

หลังจากนั้นความพยายามมุ่งเป้าไปที่การเลือกฟังก์ชันดังกล่าวซึ่งผลรวมของการเบี่ยงเบนกำลังสอง มีขนาดเล็กที่สุดเท่าที่จะเป็นไปได้ ที่จริงแล้วนี่คือที่มาของชื่อของวิธีการ

และตอนนี้เรากลับมาที่จุดสำคัญอื่น: ตามที่ระบุไว้ข้างต้นฟังก์ชั่นที่เลือกควรจะค่อนข้างง่าย - แต่ก็มีฟังก์ชั่นดังกล่าวมากมายเช่นกัน: เชิงเส้น , ซึ่งเกินความจริง, เอ็กซ์โปเนนเชียล, ลอการิทึม, กำลังสอง ฯลฯ และแน่นอนว่า ณ ที่นี้ ฉันต้องการ "ลดขอบเขตของกิจกรรม" ทันที ฉันควรเลือกฟังก์ชันประเภทใดเพื่อการวิจัย? เทคนิคดั้งเดิมแต่มีประสิทธิภาพ:

– วิธีที่ง่ายที่สุดคือการพรรณนาจุดต่างๆ บนภาพวาดและวิเคราะห์ตำแหน่งของพวกเขา หากมีแนวโน้มที่จะวิ่งเป็นเส้นตรง คุณก็ควรมองหา สมการของเส้น ด้วยค่าที่เหมาะสมที่สุดและ กล่าวอีกนัยหนึ่ง ภารกิจคือการหาค่าสัมประสิทธิ์ดังกล่าวเพื่อให้ผลรวมของการเบี่ยงเบนกำลังสองมีค่าน้อยที่สุด

หากจุดต่างๆ อยู่ เช่น ตามแนว อติพจน์เห็นได้ชัดว่าฟังก์ชันเชิงเส้นจะให้การประมาณที่ไม่ดี ในกรณีนี้ เรากำลังมองหาค่าสัมประสิทธิ์ที่ "เหมาะสม" ที่สุดสำหรับสมการไฮเปอร์โบลา – พวกที่ให้ผลรวมกำลังสองขั้นต่ำ .

โปรดทราบว่าในทั้งสองกรณีเรากำลังพูดถึง ฟังก์ชันของตัวแปรสองตัวซึ่งมีข้อโต้แย้งอยู่ ค้นหาพารามิเตอร์การพึ่งพา:

และโดยพื้นฐานแล้ว เราจำเป็นต้องแก้ปัญหามาตรฐาน - หา ฟังก์ชันขั้นต่ำของตัวแปรสองตัว.

ลองจำตัวอย่างของเรา: สมมติว่าจุด "ร้านค้า" มักจะอยู่ในแนวเส้นตรงและมีเหตุผลทุกประการที่เชื่อได้ว่า การพึ่งพาเชิงเส้นมูลค่าการซื้อขายจากพื้นที่ค้าปลีก ลองหาค่าสัมประสิทธิ์ "a" และ "be" ดังกล่าวซึ่งผลรวมของการเบี่ยงเบนกำลังสอง มีขนาดเล็กที่สุด ทุกอย่างเป็นไปตามปกติ - ก่อนอื่น อนุพันธ์ย่อยอันดับ 1. ตาม กฎความเป็นเส้นตรงคุณสามารถแยกความแตกต่างได้ภายใต้ไอคอนผลรวม:

หากคุณต้องการใช้ข้อมูลนี้สำหรับเรียงความหรือภาคเรียน ฉันจะขอบคุณมากสำหรับลิงก์ในรายการแหล่งข้อมูล คุณจะพบการคำนวณโดยละเอียดดังกล่าวได้ในไม่กี่แห่ง:

มาสร้างระบบมาตรฐานกัน:

เราลดแต่ละสมการลง "สอง" และนอกจากนี้ "แยก" ผลรวม:

บันทึก : วิเคราะห์อย่างอิสระว่าเหตุใดจึงนำ "a" และ "be" ออกไปนอกเหนือจากไอคอนผลรวม อย่างไรก็ตาม อย่างเป็นทางการสามารถทำได้ด้วยผลรวม

มาเขียนระบบใหม่ในรูปแบบ "นำไปใช้":

หลังจากนั้นอัลกอริทึมในการแก้ปัญหาของเราก็เริ่มปรากฏ:

เรารู้พิกัดของจุดต่างๆ ไหม? พวกเรารู้. จำนวนเงิน เราจะหามันเจอไหม? อย่างง่ายดาย. มาทำให้ง่ายที่สุดกันดีกว่า ระบบสมการเชิงเส้นสองสมการในสองไม่ทราบ(“ก” และ “เป็น”) เราแก้ระบบ เช่น วิธีการของแครมเมอร์ซึ่งเป็นผลมาจากการที่เราได้จุดที่อยู่นิ่ง กำลังตรวจสอบ สภาพที่เพียงพอสำหรับสุดขั้วเราสามารถตรวจสอบได้ว่า ณ จุดนี้ฟังก์ชัน ถึงอย่างแน่นอน ขั้นต่ำ. การตรวจสอบเกี่ยวข้องกับการคำนวณเพิ่มเติม ดังนั้นเราจะละทิ้งการตรวจสอบไว้เบื้องหลัง (หากจำเป็นสามารถดูเฟรมที่หายไปได้). เราได้ข้อสรุปสุดท้าย:

การทำงาน วิธีที่ดีที่สุด (อย่างน้อยเมื่อเปรียบเทียบกับฟังก์ชันเชิงเส้นอื่นๆ)นำจุดทดลองเข้ามาใกล้ยิ่งขึ้น . หากพูดโดยคร่าวๆ กราฟของมันจะผ่านไปใกล้จุดเหล่านี้มากที่สุด ในประเพณี เศรษฐมิติฟังก์ชันการประมาณผลลัพธ์จะเรียกอีกอย่างว่า สมการถดถอยเชิงเส้นคู่ .

ปัญหาที่อยู่ระหว่างการพิจารณามีความสำคัญอย่างยิ่งในทางปฏิบัติ ในสถานการณ์ตัวอย่างของเรา สมการ ช่วยให้คุณสามารถคาดการณ์มูลค่าการซื้อขายได้ ("อิเกรก")ร้านค้าจะมีค่าพื้นที่ขายอย่างน้อยหนึ่งค่า (ความหมายอย่างใดอย่างหนึ่งของ “x”). ใช่ ผลการพยากรณ์จะเป็นเพียงการคาดการณ์เท่านั้น แต่ในหลายกรณีกลับกลายเป็นว่าค่อนข้างแม่นยำ

ฉันจะวิเคราะห์ปัญหาเดียวด้วยตัวเลข "จริง" เนื่องจากไม่มีปัญหาในนั้น - การคำนวณทั้งหมดอยู่ในระดับหลักสูตรของโรงเรียนชั้นประถมศึกษาปีที่ 7-8 ในกรณี 95 เปอร์เซ็นต์ คุณจะถูกขอให้ค้นหาฟังก์ชันเชิงเส้น แต่ในตอนท้ายของบทความ ผมจะแสดงให้เห็นว่าการค้นหาสมการของไฮเปอร์โบลา เลขชี้กำลัง และฟังก์ชันอื่นๆ ที่เหมาะสมที่สุดนั้นไม่ใช่เรื่องยากอีกต่อไป

ในความเป็นจริงสิ่งที่เหลืออยู่คือการแจกจ่ายสารพัดที่สัญญาไว้ - เพื่อให้คุณสามารถเรียนรู้ที่จะแก้ไขตัวอย่างดังกล่าวไม่เพียง แต่แม่นยำ แต่ยังรวดเร็วอีกด้วย เราศึกษามาตรฐานอย่างรอบคอบ:

งาน

จากการศึกษาความสัมพันธ์ระหว่างตัวชี้วัด 2 ตัว พบว่าได้ตัวเลขคู่ดังนี้

ใช้วิธีกำลังสองน้อยที่สุด หาฟังก์ชันเชิงเส้นที่ประมาณค่าเชิงประจักษ์ได้ดีที่สุด (มีประสบการณ์)ข้อมูล. เขียนแบบเพื่อสร้างจุดทดลองและกราฟของฟังก์ชันการประมาณในระบบพิกัดสี่เหลี่ยมคาร์ทีเซียน . ค้นหาผลรวมของการเบี่ยงเบนกำลังสองระหว่างค่าเชิงประจักษ์และค่าทางทฤษฎี ค้นหาว่าคุณสมบัติจะดีกว่านี้หรือไม่ (จากมุมมองของวิธีกำลังสองน้อยที่สุด)นำจุดทดลองเข้ามาใกล้ยิ่งขึ้น

โปรดทราบว่าความหมาย "x" เป็นไปตามธรรมชาติและนี่มีความหมายที่มีความหมายซึ่งฉันจะพูดถึงในภายหลัง แต่แน่นอนว่าพวกมันสามารถเป็นเศษส่วนได้เช่นกัน นอกจากนี้ขึ้นอยู่กับเนื้อหาของงานเฉพาะทั้งค่า "X" และ "เกม" อาจเป็นค่าลบทั้งหมดหรือบางส่วนก็ได้ เราได้รับภารกิจที่ "ไร้หน้า" และเราเริ่มต้นมันได้ สารละลาย:

เราค้นหาค่าสัมประสิทธิ์ของฟังก์ชันที่เหมาะสมที่สุดเป็นวิธีแก้ปัญหาของระบบ:

เพื่อวัตถุประสงค์ในการบันทึกที่มีขนาดกะทัดรัดมากขึ้น สามารถละเว้นตัวแปร "ตัวนับ" ได้ เนื่องจากเป็นที่แน่ชัดแล้วว่าการรวมจะดำเนินการตั้งแต่ 1 ถึง

สะดวกกว่าในการคำนวณจำนวนเงินที่ต้องการในรูปแบบตาราง:

การคำนวณสามารถทำได้ด้วยไมโครเครื่องคิดเลข แต่ควรใช้ Excel ดีกว่ามาก - ทั้งเร็วกว่าและไม่มีข้อผิดพลาด ดูวิดีโอสั้น ๆ:

ดังนั้นเราจึงได้สิ่งต่อไปนี้ ระบบ:

ที่นี่คุณสามารถคูณสมการที่สองด้วย 3 และ ลบอันที่ 2 จากเทอมของสมการที่ 1 ทีละเทอม. แต่นี่คือโชค - ในทางปฏิบัติ ระบบมักไม่ใช่ของขวัญ และในกรณีเช่นนี้จะช่วยประหยัดได้ วิธีการของแครมเมอร์:
ซึ่งหมายความว่าระบบมีวิธีแก้ปัญหาเฉพาะตัว

มาตรวจสอบกัน ฉันเข้าใจว่าคุณไม่ต้องการ แต่ทำไมต้องข้ามข้อผิดพลาดโดยที่ไม่ควรพลาดอย่างแน่นอน ให้เราแทนที่คำตอบที่พบทางด้านซ้ายของแต่ละสมการของระบบ:

จะได้ทางด้านขวาของสมการที่สอดคล้องกัน ซึ่งหมายความว่าระบบได้รับการแก้ไขอย่างถูกต้อง

ดังนั้นฟังก์ชันการประมาณที่ต้องการ: – จาก ฟังก์ชันเชิงเส้นทั้งหมดเธอคือผู้ที่ประมาณข้อมูลการทดลองได้ดีที่สุด

ไม่เหมือน ตรง การพึ่งพาการหมุนเวียนของร้านค้าในพื้นที่ การพึ่งพาที่พบคือ ย้อนกลับ (หลักการ “ยิ่งมาก ยิ่งน้อย”)และความจริงเรื่องนี้ก็ถูกเปิดเผยทันทีในแง่ลบ ความลาดชัน. การทำงาน บอกเราว่าเมื่อเพิ่มตัวบ่งชี้บางตัวขึ้น 1 หน่วย ค่าของตัวบ่งชี้ตามจะลดลง เฉลี่ยเพิ่มขึ้น 0.65 หน่วย อย่างที่พวกเขาพูดกันว่ายิ่งราคาบัควีทสูงเท่าไหร่ก็ยิ่งขายได้น้อยลงเท่านั้น

ในการพล็อตกราฟของฟังก์ชันการประมาณ เราจะพบค่าสองค่า:

และดำเนินการวาดภาพ:

เส้นตรงที่สร้างขึ้นเรียกว่า เส้นแนวโน้ม (กล่าวคือ เส้นแนวโน้มเชิงเส้น กล่าวคือ ในกรณีทั่วไป แนวโน้มไม่จำเป็นต้องเป็นเส้นตรง). ใครๆ ก็คุ้นเคยกับสำนวนที่ว่า “เป็นกระแส” และผมคิดว่าคำนี้ไม่ต้องการความคิดเห็นเพิ่มเติม

ลองคำนวณผลรวมของการเบี่ยงเบนกำลังสองกัน ระหว่างค่าเชิงประจักษ์และค่าทางทฤษฎี ในเชิงเรขาคณิต นี่คือผลรวมของกำลังสองของความยาวของส่วน "ราสเบอร์รี่" (สองอันมีขนาดเล็กมากจนมองไม่เห็นด้วยซ้ำ).

สรุปการคำนวณในตาราง:

อีกครั้ง สามารถทำได้ด้วยตนเอง ในกรณีนี้ ฉันจะยกตัวอย่างสำหรับประเด็นที่ 1:

แต่จะมีประสิทธิภาพมากกว่ามากหากทำด้วยวิธีที่ทราบอยู่แล้ว:

เราทำซ้ำอีกครั้ง: ความหมายของผลลัพธ์ที่ได้รับคืออะไร?จาก ฟังก์ชันเชิงเส้นทั้งหมดฟังก์ชัน y ตัวบ่งชี้นั้นเล็กที่สุดนั่นคือในตระกูลมันเป็นค่าประมาณที่ดีที่สุด และที่นี่ คำถามสุดท้ายของปัญหาไม่ใช่เรื่องบังเอิญ: จะเกิดอะไรขึ้นถ้าฟังก์ชันเอ็กซ์โปเนนเชียลที่เสนอมา จะดีกว่าไหมถ้านำจุดทดลองเข้ามาใกล้มากขึ้น?

มาหาผลรวมของการเบี่ยงเบนกำลังสองที่สอดคล้องกัน - เพื่อแยกแยะฉันจะเขียนแทนด้วยตัวอักษร "เอปไซลอน" เทคนิคเหมือนกันทุกประการ:

และอีกครั้ง ในกรณีนี้ การคำนวณสำหรับจุดที่ 1:

ใน Excel เราใช้ฟังก์ชันมาตรฐาน ประสบการณ์ (ไวยากรณ์สามารถพบได้ในวิธีใช้ Excel).

บทสรุป: ซึ่งหมายความว่าฟังก์ชันเลขชี้กำลังประมาณจุดทดลองที่แย่กว่าเส้นตรง .

แต่ที่นี่ควรสังเกตว่า "แย่กว่า" คือ ยังไม่ได้หมายความว่า, เกิดอะไรขึ้น. ตอนนี้ ฉันได้สร้างกราฟของฟังก์ชันเอ็กซ์โปเนนเชียลแล้ว และกราฟยังส่งผ่านใกล้กับจุดต่างๆ ด้วย - มากเสียจนหากไม่มีการวิจัยเชิงวิเคราะห์ก็ยากที่จะบอกว่าฟังก์ชันใดแม่นยำกว่า

นี่เป็นการสรุปวิธีแก้ปัญหาและฉันกลับไปสู่คำถามเกี่ยวกับคุณค่าตามธรรมชาติของการโต้แย้ง ในการศึกษาต่างๆ โดยทั่วไปแล้ว "X" ตามธรรมชาติทางเศรษฐกิจหรือสังคมวิทยาจะใช้เพื่อนับเดือน ปี หรือช่วงเวลาอื่นๆ ที่เท่ากัน ลองพิจารณาปัญหาต่อไปนี้เป็นตัวอย่าง

มีการใช้กันอย่างแพร่หลายในเศรษฐมิติในรูปแบบของการตีความพารามิเตอร์ทางเศรษฐกิจที่ชัดเจน

การถดถอยเชิงเส้นลงมาเพื่อค้นหาสมการของรูปแบบ

หรือ

สมการของแบบฟอร์ม อนุญาตตามค่าพารามิเตอร์ที่ระบุ เอ็กซ์มีค่าทางทฤษฎีของลักษณะผลลัพธ์โดยแทนที่ค่าที่แท้จริงของปัจจัยลงไป เอ็กซ์.

การสร้างการถดถอยเชิงเส้นนั้นมาจากการประมาณค่าพารามิเตอร์ - กและ วี.การประมาณค่าพารามิเตอร์การถดถอยเชิงเส้นสามารถพบได้โดยใช้วิธีการต่างๆ

วิธีการดั้งเดิมในการประมาณค่าพารามิเตอร์การถดถอยเชิงเส้นนั้นยึดตาม วิธีกำลังสองน้อยที่สุด(เอ็มเอ็นซี)

วิธีกำลังสองน้อยที่สุดช่วยให้เราสามารถประมาณค่าพารามิเตอร์ดังกล่าวได้ กและ วีซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าที่แท้จริงของลักษณะผลลัพธ์ (ญ)จากการคำนวณ (ทางทฤษฎี) ขั้นต่ำ:

ในการหาค่าต่ำสุดของฟังก์ชัน คุณต้องคำนวณอนุพันธ์ย่อยของพารามิเตอร์แต่ละตัว กและ ขและตั้งค่าให้เท่ากับศูนย์

มาแสดงกันเถอะ ผ่าน S จากนั้น:

การแปลงสูตรเราได้รับระบบสมการปกติต่อไปนี้สำหรับการประมาณค่าพารามิเตอร์ กและ วี:

การแก้ระบบสมการปกติ (3.5) ไม่ว่าจะโดยวิธีการกำจัดตัวแปรตามลำดับหรือโดยวิธีการกำหนดเราจะพบการประมาณค่าพารามิเตอร์ที่ต้องการ กและ วี.

พารามิเตอร์ วีเรียกว่าสัมประสิทธิ์การถดถอย ค่าของมันแสดงการเปลี่ยนแปลงโดยเฉลี่ยของผลลัพธ์โดยมีการเปลี่ยนแปลงปัจจัยหนึ่งหน่วย

สมการถดถอยจะเสริมด้วยตัวบ่งชี้ความใกล้ชิดของการเชื่อมต่อเสมอ เมื่อใช้การถดถอยเชิงเส้น ตัวบ่งชี้ดังกล่าวคือค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้น มีการปรับเปลี่ยนสูตรสัมประสิทธิ์สหสัมพันธ์เชิงเส้นที่แตกต่างกัน บางส่วนได้รับด้านล่าง:

ดังที่ทราบ ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นอยู่ภายในขีดจำกัด: -1 ≤ ≤ 1.

เพื่อประเมินคุณภาพของการเลือกฟังก์ชันเชิงเส้น จะมีการคำนวณกำลังสอง

สัมประสิทธิ์สหสัมพันธ์เชิงเส้นที่เรียกว่า ค่าสัมประสิทธิ์การตัดสินใจ.ค่าสัมประสิทธิ์การกำหนดลักษณะสัดส่วนของความแปรปรวนของลักษณะผลลัพธ์ ใช่อธิบายโดยการถดถอย ในความแปรปรวนรวมของลักษณะผลลัพธ์:

ดังนั้น ค่า 1 จึงแสดงถึงส่วนแบ่งของความแปรปรวน ใช่เกิดจากอิทธิพลของปัจจัยอื่นๆ ที่ไม่ได้นำมาพิจารณาในแบบจำลอง

คำถามเพื่อการควบคุมตนเอง

1. สาระสำคัญของวิธีกำลังสองน้อยที่สุด?

2. การถดถอยแบบคู่มีตัวแปรกี่ตัว?

3. ค่าสัมประสิทธิ์ใดกำหนดความใกล้ชิดของการเชื่อมต่อระหว่างการเปลี่ยนแปลง?

4. ค่าสัมประสิทธิ์การตัดสินใจถูกกำหนดไว้ภายในขอบเขตใด?

5. การประมาณค่าพารามิเตอร์ b ในการวิเคราะห์สหสัมพันธ์-การถดถอย?

1. คริสโตเฟอร์ โดเฮอร์ตี้ เศรษฐมิติเบื้องต้น - อ.: INFRA - ม. 2544 - 402 หน้า

2. เอส.เอ. โบโรดิช. เศรษฐมิติ. Minsk LLC "ความรู้ใหม่" 2544

3. ร.ศ. Rakhmetova หลักสูตรระยะสั้นทางเศรษฐมิติ บทช่วยสอน อัลมาตี 2004. -78น.

4. II. Eliseeva เศรษฐมิติ. - อ.: “การเงินและสถิติ”, 2545

5. ข้อมูลรายเดือนและนิตยสารเชิงวิเคราะห์

แบบจำลองเศรษฐศาสตร์ไม่เชิงเส้น ตัวแบบการถดถอยแบบไม่เชิงเส้น การเปลี่ยนแปลงของตัวแปร

โมเดลเศรษฐกิจไม่เชิงเส้น..

การเปลี่ยนแปลงของตัวแปร

ค่าสัมประสิทธิ์ความยืดหยุ่น

หากมีความสัมพันธ์แบบไม่เชิงเส้นระหว่างปรากฏการณ์ทางเศรษฐกิจ ก็จะแสดงออกมาโดยใช้ฟังก์ชันไม่เชิงเส้นที่สอดคล้องกัน เช่น ไฮเปอร์โบลาด้านเท่ากันหมด , พาราโบลาของระดับที่สอง และอื่น ๆ.

การถดถอยแบบไม่เชิงเส้นมีสองประเภท:

1. การถดถอยที่ไม่เชิงเส้นตามตัวแปรอธิบายที่รวมอยู่ในการวิเคราะห์ แต่เป็นเส้นตรงตามพารามิเตอร์ที่ประมาณไว้ เช่น

พหุนามขององศาต่างๆ - , ;

ไฮเปอร์โบลาด้านเท่ากันหมด - ;

ฟังก์ชันเซมิลอการิทึม - .

2. การถดถอยที่ไม่เป็นเชิงเส้นในพารามิเตอร์ที่กำลังประมาณ ตัวอย่างเช่น:

พลัง - ;

สาธิต - ;

เอ็กซ์โปเนนเชียล - .

ผลรวมของการเบี่ยงเบนกำลังสองของแต่ละค่าของลักษณะผลลัพธ์ ที่จากค่าเฉลี่ยนั้นเกิดจากอิทธิพลของหลายสาเหตุ ให้เราแบ่งเหตุผลทั้งหมดออกเป็นสองกลุ่มอย่างมีเงื่อนไข: ปัจจัยภายใต้การศึกษา xและ ปัจจัยอื่น ๆ

หากปัจจัยไม่ส่งผลต่อผลลัพธ์ เส้นการถดถอยบนกราฟจะขนานกับแกน โอ้และ

จากนั้นความแปรปรวนทั้งหมดของลักษณะผลลัพธ์นั้นเกิดจากอิทธิพลของปัจจัยอื่น ๆ และผลรวมของการเบี่ยงเบนกำลังสองจะตรงกับค่าคงเหลือ หากปัจจัยอื่นไม่ส่งผลต่อผลลัพธ์แล้ว คุณผูกอยู่กับ เอ็กซ์ตามหน้าที่และผลรวมที่เหลือของกำลังสองเป็นศูนย์ ในกรณีนี้ ผลรวมของการเบี่ยงเบนกำลังสองซึ่งอธิบายโดยการถดถอยจะเท่ากับผลรวมของกำลังสองทั้งหมด

เนื่องจากไม่ใช่ทุกจุดของสนามความสัมพันธ์จะอยู่บนเส้นถดถอย การกระจัดกระจายจึงเกิดขึ้นเสมออันเป็นผลมาจากอิทธิพลของปัจจัย เอ็กซ์นั่นคือการถดถอย ที่โดย เอ็กซ์,และเกิดจากสาเหตุอื่น (ความแปรผันที่ไม่สามารถอธิบายได้) ความเหมาะสมของเส้นการถดถอยในการพยากรณ์ขึ้นอยู่กับส่วนใดของการแปรผันรวมของลักษณะ ที่อธิบายความแปรผันที่อธิบายไว้

แน่นอนว่า หากผลรวมของการเบี่ยงเบนกำลังสองเนื่องจากการถดถอยมากกว่าผลรวมที่เหลือของกำลังสอง สมการการถดถอยจะมีนัยสำคัญทางสถิติและเป็นปัจจัย เอ็กซ์มีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ ยู.

, นั่นคือด้วยจำนวนอิสระของการแปรผันที่เป็นอิสระของคุณลักษณะ จำนวนระดับความเป็นอิสระสัมพันธ์กับจำนวนหน่วยของประชากร n และจำนวนค่าคงที่ที่กำหนด ในความสัมพันธ์กับปัญหาที่กำลังศึกษา จำนวนระดับความเป็นอิสระควรแสดงจำนวนค่าเบี่ยงเบนอิสระจาก ป

การประเมินนัยสำคัญของสมการการถดถอยโดยรวมจะใช้ เอฟ-เกณฑ์ชาวประมง ในกรณีนี้ มีการเสนอสมมติฐานว่างว่าสัมประสิทธิ์การถดถอยเท่ากับศูนย์ นั่นคือ ข = 0 และด้วยเหตุนี้จึงเป็นปัจจัย เอ็กซ์ไม่ส่งผลกระทบต่อผลลัพธ์ ยู.

การคำนวณการทดสอบ F ในทันทีนั้นนำหน้าด้วยการวิเคราะห์ความแปรปรวน จุดศูนย์กลางในนั้นถูกครอบครองโดยการสลายตัวของผลรวมของการเบี่ยงเบนกำลังสองของตัวแปร ที่จากค่าเฉลี่ย ที่ออกเป็นสองส่วน - "อธิบาย" และ "ไม่ได้อธิบาย":

- ผลรวมของการเบี่ยงเบนกำลังสอง;

- ผลรวมของการเบี่ยงเบนกำลังสองที่อธิบายโดยการถดถอย

- ผลรวมที่เหลือของการเบี่ยงเบนกำลังสอง

ผลรวมของการเบี่ยงเบนกำลังสองสัมพันธ์กับจำนวนดีกรีอิสระ , นั่นคือด้วยจำนวนอิสระของการแปรผันที่เป็นอิสระของคุณลักษณะ จำนวนองศาอิสระสัมพันธ์กับจำนวนหน่วยประชากร nและด้วยจำนวนค่าคงที่ที่กำหนดจากมัน ในความสัมพันธ์กับปัญหาที่กำลังศึกษา จำนวนระดับความเป็นอิสระควรแสดงจำนวนค่าเบี่ยงเบนอิสระจาก ปเป็นไปได้ที่จำเป็นในการสร้างผลรวมของกำลังสองที่กำหนด

การกระจายตัวต่อระดับความเป็นอิสระดี.

อัตราส่วน F (การทดสอบ F):

ถ้าสมมุติฐานว่างเป็นจริงแล้วปัจจัยและความแปรปรวนคงเหลือไม่แตกต่างกัน สำหรับ H 0 จำเป็นต้องมีการพิสูจน์เพื่อให้การกระจายตัวของปัจจัยเกินการกระจายตัวของสารตกค้างหลายครั้ง Snedekor นักสถิติชาวอังกฤษได้พัฒนาตารางค่าวิกฤต เอฟ-ความสัมพันธ์ในระดับนัยสำคัญต่างๆ ของสมมติฐานว่างและระดับความเป็นอิสระที่แตกต่างกัน ค่าตาราง เอฟ-เกณฑ์คือค่าสูงสุดของอัตราส่วนของความแปรปรวนที่สามารถเกิดขึ้นได้ในกรณีของความแตกต่างแบบสุ่มสำหรับระดับความน่าจะเป็นของการมีอยู่ของสมมติฐานที่เป็นโมฆะ ค่าที่คำนวณได้ เอฟ-ความสัมพันธ์จะถือว่าเชื่อถือได้ถ้า o มากกว่าตาราง

ในกรณีนี้ สมมติฐานว่างเกี่ยวกับการไม่มีความสัมพันธ์ระหว่างสัญญาณต่างๆ จะถูกปฏิเสธ และได้ข้อสรุปเกี่ยวกับความสำคัญของความสัมพันธ์นี้: F ข้อเท็จจริง > ตาราง F H 0 ถูกปฏิเสธ

หากค่าน้อยกว่าตาราง F ข้อเท็จจริง ‹, ตาราง Fดังนั้นความน่าจะเป็นของสมมติฐานว่างจะสูงกว่าระดับที่ระบุและไม่สามารถปฏิเสธได้หากไม่มีความเสี่ยงร้ายแรงในการสรุปข้อสรุปที่ผิดเกี่ยวกับการมีอยู่ของความสัมพันธ์ ในกรณีนี้ สมการการถดถอยถือว่าไม่มีนัยสำคัญทางสถิติ แต่เขาไม่เบี่ยงเบน

ค่าคลาดเคลื่อนมาตรฐานของสัมประสิทธิ์การถดถอย

เพื่อประเมินความสำคัญของสัมประสิทธิ์การถดถอย ค่าของมันจะถูกเปรียบเทียบกับข้อผิดพลาดมาตรฐาน เช่น กำหนดค่าจริง ที-แบบทดสอบของนักเรียน: ซึ่งนำไปเปรียบเทียบกับค่าตารางในระดับนัยสำคัญและจำนวนระดับความเป็นอิสระ ( n- 2).

ข้อผิดพลาดของพารามิเตอร์มาตรฐาน ก:

ความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นได้รับการตรวจสอบตามขนาดของข้อผิดพลาด ค่าสัมประสิทธิ์สหสัมพันธ์ ทีอาร์:

ความแปรปรวนลักษณะรวม เอ็กซ์:

การถดถอยเชิงเส้นพหุคูณ

การสร้างแบบจำลอง

การถดถอยหลายครั้งแสดงถึงการถดถอยของคุณลักษณะที่มีประสิทธิผลด้วยปัจจัยตั้งแต่ 2 ตัวขึ้นไป เช่น แบบจำลองของแบบฟอร์ม

การถดถอยสามารถให้ผลลัพธ์ที่ดีในการสร้างแบบจำลองได้ หากสามารถละเลยอิทธิพลของปัจจัยอื่นที่ส่งผลต่อวัตถุประสงค์ของการศึกษาได้ ไม่สามารถควบคุมพฤติกรรมของตัวแปรทางเศรษฐกิจแต่ละรายการได้ กล่าวคือ ไม่สามารถรับประกันความเท่าเทียมกันของเงื่อนไขอื่น ๆ ทั้งหมดในการประเมินอิทธิพลของปัจจัยหนึ่งภายใต้การศึกษา ในกรณีนี้ คุณควรพยายามระบุอิทธิพลของปัจจัยอื่นๆ ด้วยการนำปัจจัยเหล่านั้นเข้าไปในแบบจำลอง เช่น สร้างสมการการถดถอยพหุคูณ: y = a+b 1 x 1 +b 2 +…+b p x p + .

เป้าหมายหลักของการถดถอยพหุคูณคือการสร้างแบบจำลองที่มีปัจจัยจำนวนมาก ในขณะเดียวกันก็กำหนดอิทธิพลของปัจจัยแต่ละอย่างแยกกัน รวมถึงผลกระทบที่รวมกันต่อตัวบ่งชี้ที่เป็นแบบจำลอง ข้อกำหนดของแบบจำลองประกอบด้วยประเด็นสองช่วง ได้แก่ การเลือกปัจจัย และการเลือกประเภทของสมการการถดถอย

วิธีกำลังสองน้อยที่สุด

วิธีกำลังสองน้อยที่สุด ( OLS, OLS, กำลังสองน้อยที่สุดสามัญ) - หนึ่งในวิธีพื้นฐานของการวิเคราะห์การถดถอยสำหรับการประมาณค่าพารามิเตอร์ที่ไม่รู้จักของแบบจำลองการถดถอยโดยใช้ข้อมูลตัวอย่าง วิธีการนี้ขึ้นอยู่กับการลดผลรวมของกำลังสองของเศษที่เหลือจากการถดถอยให้เหลือน้อยที่สุด

ควรสังเกตว่าวิธีกำลังสองน้อยที่สุดนั้นสามารถเรียกได้ว่าเป็นวิธีการแก้ปัญหาในพื้นที่ใดๆ หากวิธีการแก้ปัญหาอยู่ในหรือเป็นไปตามเกณฑ์บางประการในการลดผลรวมของกำลังสองของฟังก์ชันบางอย่างของตัวแปรที่ต้องการให้เหลือน้อยที่สุด ดังนั้น วิธีกำลังสองน้อยที่สุดยังสามารถใช้สำหรับการประมาณค่า (การประมาณ) ของฟังก์ชันที่กำหนดโดยฟังก์ชันอื่น (ที่ง่ายกว่า) เมื่อค้นหาชุดของปริมาณที่เป็นไปตามสมการหรือข้อจำกัด ซึ่งจำนวนเกินจำนวนเหล่านี้ ฯลฯ

สาระสำคัญของ MNC

ให้แบบจำลอง (พาราเมตริก) ของความสัมพันธ์ความน่าจะเป็น (การถดถอย) ระหว่างตัวแปร (อธิบาย) ได้รับ ยและปัจจัยหลายประการ (ตัวแปรอธิบาย) x

เวกเตอร์ของพารามิเตอร์แบบจำลองที่ไม่รู้จักอยู่ที่ไหน

- ข้อผิดพลาดของโมเดลแบบสุ่ม

ให้มีการสังเกตตัวอย่างค่าของตัวแปรเหล่านี้ด้วย อนุญาต เป็นหมายเลขสังเกต () จากนั้นเป็นค่าของตัวแปรในการสังเกตครั้งที่ 3 จากนั้นสำหรับค่าที่กำหนดของพารามิเตอร์ b คุณสามารถคำนวณค่าทางทฤษฎี (แบบจำลอง) ของตัวแปรที่อธิบาย y:

ขนาดของสิ่งตกค้างขึ้นอยู่กับค่าของพารามิเตอร์ b

สาระสำคัญของวิธีกำลังสองน้อยที่สุด (ธรรมดา, คลาสสิก) คือการค้นหาพารามิเตอร์ b ซึ่งผลรวมของกำลังสองของส่วนที่เหลือ (อังกฤษ. ผลรวมที่เหลือของกำลังสอง) จะน้อยที่สุด:

ในกรณีทั่วไป ปัญหานี้สามารถแก้ไขได้โดยวิธีการปรับให้เหมาะสมเชิงตัวเลข (การย่อขนาด) ในกรณีนี้พวกเขาพูดถึง กำลังสองน้อยที่สุดแบบไม่เชิงเส้น(NLS หรือ NLLS - ภาษาอังกฤษ) กำลังสองน้อยที่สุดที่ไม่ใช่เชิงเส้น). ในหลายกรณี เป็นไปได้ที่จะได้รับโซลูชันเชิงวิเคราะห์ ในการแก้ปัญหาการย่อเล็กสุดจำเป็นต้องค้นหาจุดที่คงที่ของฟังก์ชันโดยสร้างความแตกต่างด้วยพารามิเตอร์ที่ไม่รู้จัก b เท่ากับอนุพันธ์ให้เป็นศูนย์และแก้ระบบสมการผลลัพธ์:

หากข้อผิดพลาดแบบสุ่มของแบบจำลองมีการกระจายตามปกติ มีความแปรปรวนเท่ากัน และไม่มีความสัมพันธ์กัน การประมาณค่าพารามิเตอร์ OLS จะเหมือนกับการประมาณโอกาสสูงสุด (MLM)

OLS ในกรณีของโมเดลเชิงเส้น

ปล่อยให้การพึ่งพาการถดถอยเป็นเส้นตรง:

อนุญาต ยเป็นเวกเตอร์คอลัมน์ของการสังเกตของตัวแปรที่อธิบายและเป็นเมทริกซ์ของการสังเกตปัจจัย (แถวของเมทริกซ์เป็นเวกเตอร์ของค่าตัวประกอบในการสังเกตที่กำหนด คอลัมน์เป็นเวกเตอร์ของค่าของปัจจัยที่กำหนด ในการสังเกตทั้งหมด) การแสดงเมทริกซ์ของโมเดลเชิงเส้นคือ:

จากนั้นเวกเตอร์ของการประมาณค่าของตัวแปรที่อธิบายและเวกเตอร์ของเศษการถดถอยจะเท่ากัน

ดังนั้น ผลรวมของกำลังสองของเศษที่เหลือจากการถดถอยจะเท่ากับ

การแยกฟังก์ชันนี้ด้วยความเคารพต่อเวกเตอร์ของพารามิเตอร์และการทำให้อนุพันธ์เป็นศูนย์เราจะได้ระบบสมการ (ในรูปแบบเมทริกซ์):

การแก้ระบบสมการนี้ให้สูตรทั่วไปสำหรับการประมาณค่ากำลังสองน้อยที่สุดสำหรับแบบจำลองเชิงเส้น:

เพื่อวัตถุประสงค์ในการวิเคราะห์ การแสดงสูตรหลังนี้มีประโยชน์ หากอยู่ในแบบจำลองการถดถอยข้อมูล อยู่ตรงกลางจากนั้นในการเป็นตัวแทนนี้ เมทริกซ์แรกมีความหมายของเมทริกซ์ความแปรปรวนร่วมตัวอย่างของปัจจัย และเมทริกซ์ที่สองคือเวกเตอร์ของความแปรปรวนร่วมของปัจจัยที่มีตัวแปรตาม หากนอกเหนือจากข้อมูลแล้วยัง ทำให้เป็นมาตรฐานถึง MSE (นั่นคือท้ายที่สุดแล้ว ได้มาตรฐาน) จากนั้นเมทริกซ์แรกมีความหมายของเมทริกซ์ความสัมพันธ์ตัวอย่างของปัจจัย เวกเตอร์ที่สอง - เวกเตอร์ของความสัมพันธ์ตัวอย่างของปัจจัยกับตัวแปรตาม

คุณสมบัติที่สำคัญของการประมาณค่า OLS สำหรับแบบจำลอง มีค่าคงที่- เส้นของการถดถอยที่สร้างขึ้นผ่านจุดศูนย์ถ่วงของข้อมูลตัวอย่างนั่นคือความเท่าเทียมกันเป็นที่พอใจ:

โดยเฉพาะอย่างยิ่ง ในกรณีที่รุนแรง เมื่อตัวถดถอยตัวเดียวเป็นค่าคงที่ เราจะพบว่าการประมาณค่า OLS ของพารามิเตอร์ตัวเดียว (ค่าคงที่นั้นเอง) เท่ากับค่าเฉลี่ยของตัวแปรที่อธิบาย นั่นคือค่าเฉลี่ยเลขคณิตซึ่งเป็นที่รู้จักในเรื่องคุณสมบัติที่ดีจากกฎของจำนวนจำนวนมากก็เป็นค่าประมาณกำลังสองน้อยที่สุดเช่นกันซึ่งเป็นไปตามเกณฑ์ของผลรวมขั้นต่ำของการเบี่ยงเบนกำลังสองจากนั้น

ตัวอย่าง: การถดถอยที่ง่ายที่สุด (ตามคู่)

ในกรณีของการถดถอยเชิงเส้นแบบคู่ สูตรการคำนวณจะง่ายขึ้น (คุณสามารถทำได้โดยไม่ต้องใช้พีชคณิตเมทริกซ์):

คุณสมบัติของตัวประมาณค่า OLS

ก่อนอื่น เราทราบว่าสำหรับโมเดลเชิงเส้น การประมาณค่า OLS เป็นการประมาณเชิงเส้น ดังต่อไปนี้จากสูตรข้างต้น สำหรับการประมาณค่า OLS ที่เป็นกลาง มีความจำเป็นและเพียงพอในการตอบสนองเงื่อนไขที่สำคัญที่สุดของการวิเคราะห์การถดถอย: ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มตามเงื่อนไขของปัจจัย จะต้องเท่ากับศูนย์ โดยเฉพาะอย่างยิ่งเงื่อนไขนี้จะเป็นที่พอใจหาก

ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มคือศูนย์ และ
ปัจจัยและข้อผิดพลาดแบบสุ่มเป็นตัวแปรสุ่มอิสระ

เงื่อนไขที่สอง - เงื่อนไขของปัจจัยภายนอก - เป็นเงื่อนไขพื้นฐาน หากไม่ตรงตามคุณสมบัตินี้ เราสามารถสรุปได้ว่าการประมาณการเกือบทั้งหมดจะไม่เป็นที่น่าพอใจอย่างยิ่ง โดยจะไม่สอดคล้องกันด้วยซ้ำ (นั่นคือ แม้แต่ข้อมูลจำนวนมากก็ไม่อนุญาตให้เรารับการประมาณการคุณภาพสูงในกรณีนี้ ). ในกรณีคลาสสิก มีการตั้งสมมติฐานที่หนักแน่นกว่าเกี่ยวกับการกำหนดปัจจัยต่างๆ ซึ่งตรงข้ามกับข้อผิดพลาดแบบสุ่ม ซึ่งหมายความว่าเป็นไปตามเงื่อนไขภายนอกโดยอัตโนมัติ ในกรณีทั่วไป เพื่อความสอดคล้องของการประมาณการ ก็เพียงพอแล้วที่จะเป็นไปตามเงื่อนไขภายนอกร่วมกับการลู่เข้าของเมทริกซ์กับเมทริกซ์ที่ไม่ใช่เอกพจน์เมื่อขนาดตัวอย่างเพิ่มขึ้นจนถึงค่าอนันต์

เพื่อให้ นอกจากความสม่ำเสมอและความเป็นกลางแล้ว การประมาณค่ากำลังสองน้อยที่สุด (ปกติ) ให้มีประสิทธิภาพด้วย (ค่าที่ดีที่สุดในกลุ่มการประมาณค่าที่ไม่เอนเอียงเชิงเส้น) จะต้องมีคุณสมบัติเพิ่มเติมของข้อผิดพลาดแบบสุ่ม:

สมมติฐานเหล่านี้สามารถกำหนดสูตรสำหรับเมทริกซ์ความแปรปรวนร่วมของเวกเตอร์ข้อผิดพลาดแบบสุ่มได้

เรียกว่าแบบจำลองเชิงเส้นที่ตรงตามเงื่อนไขเหล่านี้ คลาสสิค. การประมาณค่า OLS สำหรับการถดถอยเชิงเส้นแบบคลาสสิกนั้นมีความเป็นกลาง สม่ำเสมอ และมีประสิทธิภาพมากที่สุดในกลุ่มของการประมาณค่าที่ไม่เอนเอียงเชิงเส้นทั้งหมด (ในวรรณคดีอังกฤษ บางครั้งจะใช้ตัวย่อ สีฟ้า (ตัวประมาณค่าเชิงเส้นแบบไม่มีฐานที่ดีที่สุด) - การประมาณการที่เป็นกลางเชิงเส้นที่ดีที่สุด ในวรรณคดีรัสเซียมักอ้างถึงทฤษฎีบทเกาส์-มาร์คอฟ) ตามที่แสดงได้ง่าย เมทริกซ์ความแปรปรวนร่วมของเวกเตอร์ของการประมาณค่าสัมประสิทธิ์จะเท่ากับ:

OLS ทั่วไป

วิธีกำลังสองน้อยที่สุดทำให้สามารถสรุปได้กว้างๆ แทนที่จะลดผลรวมของกำลังสองของส่วนที่เหลือให้เหลือน้อยที่สุด เราสามารถลดรูปแบบกำลังสองที่แน่นอนของเวกเตอร์ของส่วนที่เหลือให้เหลือน้อยที่สุด โดยที่เมทริกซ์น้ำหนักแน่นอนเชิงบวกแบบสมมาตรบางตัว กำลังสองน้อยที่สุดแบบธรรมดาเป็นกรณีพิเศษของแนวทางนี้ โดยที่เมทริกซ์น้ำหนักจะเป็นสัดส่วนกับเมทริกซ์เอกลักษณ์ ดังที่ทราบจากทฤษฎีเมทริกซ์สมมาตร (หรือตัวดำเนินการ) สำหรับเมทริกซ์ดังกล่าวจะมีการสลายตัว ดังนั้น ฟังก์ชันที่ระบุจึงสามารถแสดงได้ดังต่อไปนี้ กล่าวคือ ฟังก์ชันนี้สามารถแสดงเป็นผลรวมของกำลังสองของ "เศษที่เหลือ" ที่ถูกแปลงบางส่วน ดังนั้นเราจึงสามารถแยกแยะคลาสของวิธีกำลังสองน้อยที่สุดได้ - วิธี LS (กำลังสองน้อยที่สุด)

ได้รับการพิสูจน์แล้ว (ทฤษฎีบทของ Aitken) ว่าสำหรับแบบจำลองการถดถอยเชิงเส้นทั่วไป (ซึ่งไม่มีข้อจำกัดใดๆ กำหนดไว้กับเมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดแบบสุ่ม) สิ่งที่เรียกว่าการประมาณการที่มีประสิทธิผลมากที่สุด (ในกลุ่มของการประมาณค่าที่ไม่เอนเอียงเชิงเส้น) กำลังสองน้อยที่สุดทั่วไป (GLS - กำลังสองน้อยที่สุดทั่วไป)- วิธี LS ที่มีเมทริกซ์น้ำหนักเท่ากับเมทริกซ์ความแปรปรวนร่วมผกผันของข้อผิดพลาดแบบสุ่ม:

จะเห็นได้ว่าสูตรสำหรับการประมาณค่าพารามิเตอร์ของแบบจำลองเชิงเส้นของ GLS มีรูปแบบ

เมทริกซ์ความแปรปรวนร่วมของการประมาณค่าเหล่านี้จะเท่ากับตามนั้น

ในความเป็นจริง สาระสำคัญของ OLS อยู่ที่การแปลง (P) บางอย่าง (เชิงเส้น) ของข้อมูลต้นฉบับและการประยุกต์ใช้ OLS ธรรมดากับข้อมูลที่แปลงแล้ว วัตถุประสงค์ของการแปลงนี้คือ สำหรับข้อมูลที่แปลงแล้ว ข้อผิดพลาดแบบสุ่มเป็นไปตามสมมติฐานดั้งเดิมอยู่แล้ว

OLS แบบถ่วงน้ำหนัก

ในกรณีของเมทริกซ์น้ำหนักแนวทแยง (และด้วยเหตุนี้จึงเป็นเมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดแบบสุ่ม) เราจะเรียกว่ากำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก (WLS) ในกรณีนี้ ผลรวมถ่วงน้ำหนักของกำลังสองของส่วนที่เหลือของแบบจำลองจะลดลง กล่าวคือ การสังเกตแต่ละครั้งจะได้รับ "น้ำหนัก" ซึ่งเป็นสัดส่วนผกผันกับความแปรปรวนของข้อผิดพลาดแบบสุ่มในการสังเกตนี้: ข้อมูลจะถูกแปลงโดยการถ่วงน้ำหนักการสังเกต (หารด้วยจำนวนที่เป็นสัดส่วนกับค่าเบี่ยงเบนมาตรฐานโดยประมาณของข้อผิดพลาดแบบสุ่ม) และ OLS ธรรมดาจะถูกนำไปใช้กับข้อมูลที่ถ่วงน้ำหนัก

กรณีพิเศษบางประการของการใช้ MNC ในทางปฏิบัติ

การประมาณของการพึ่งพาเชิงเส้น

ให้เราพิจารณากรณีที่เป็นผลมาจากการศึกษาการพึ่งพาปริมาณสเกลาร์บางอย่างกับปริมาณสเกลาร์ที่แน่นอน (เช่นอาจเป็นเช่นการพึ่งพาแรงดันไฟฟ้ากับความแรงของกระแส: , โดยที่ค่าคงที่, ความต้านทานของ ตัวนำ) ทำการวัดปริมาณเหล่านี้ซึ่งเป็นผลมาจากค่าและค่าที่สอดคล้องกัน ข้อมูลการวัดจะต้องบันทึกไว้ในตาราง

โต๊ะ. ผลการวัด

หมายเลขการวัด
1
2
3
4
5
6

คำถามคือ: สามารถเลือกค่าสัมประสิทธิ์ใดเพื่ออธิบายการพึ่งพาได้ดีที่สุด? ตามวิธีกำลังสองน้อยที่สุดค่านี้ควรเป็นผลรวมของการเบี่ยงเบนกำลังสองของค่าจากค่า

น้อยที่สุด

ผลรวมของการเบี่ยงเบนกำลังสองจะมีค่าสุดขั้วหนึ่งค่า - ค่าต่ำสุดซึ่งทำให้เราสามารถใช้สูตรนี้ได้ ให้เราค้นหาค่าของสัมประสิทธิ์จากสูตรนี้ เมื่อต้องการทำเช่นนี้ เราแปลงด้านซ้ายดังนี้:

สูตรสุดท้ายช่วยให้เราสามารถหาค่าสัมประสิทธิ์ซึ่งเป็นค่าที่จำเป็นในโจทย์ได้

เรื่องราว

จนกระทั่งต้นศตวรรษที่ 19 นักวิทยาศาสตร์ไม่มีกฎเกณฑ์ที่แน่นอนในการแก้ระบบสมการซึ่งจำนวนไม่ทราบค่าน้อยกว่าจำนวนสมการ ก่อนหน้านั้นมีการใช้เทคนิคส่วนตัวซึ่งขึ้นอยู่กับประเภทของสมการและความเฉลียวฉลาดของเครื่องคิดเลข ดังนั้นเครื่องคิดเลขที่แตกต่างกันซึ่งใช้ข้อมูลเชิงสังเกตเดียวกันจึงได้ข้อสรุปที่ต่างกัน Gauss (1795) เป็นคนแรกที่ใช้วิธีการนี้ และ Legendre (1805) ค้นพบและตีพิมพ์โดยอิสระภายใต้ชื่อสมัยใหม่ (ฝรั่งเศส. Méthode des moindres quarrés ) . ลาปลาซเชื่อมโยงวิธีการนี้เข้ากับทฤษฎีความน่าจะเป็น และนักคณิตศาสตร์ชาวอเมริกัน แอดเรน (1808) ได้พิจารณาการประยุกต์ใช้ทฤษฎีความน่าจะเป็นของมัน วิธีการนี้แพร่หลายและปรับปรุงโดยการวิจัยเพิ่มเติมโดย Encke, Bessel, Hansen และคนอื่นๆ

การใช้ทางเลือกอื่นของ OLS

แนวคิดของวิธีกำลังสองน้อยที่สุดยังสามารถใช้ในกรณีอื่นที่ไม่เกี่ยวข้องโดยตรงกับการวิเคราะห์การถดถอย ความจริงก็คือผลรวมของกำลังสองเป็นหนึ่งในการวัดความใกล้ชิดที่ใช้กันทั่วไปสำหรับเวกเตอร์ (เมตริกแบบยูคลิดในปริภูมิมิติจำกัด)

แอปพลิเคชั่นหนึ่งคือ “คำตอบ” ของระบบสมการเชิงเส้นซึ่งจำนวนสมการมากกว่าจำนวนตัวแปร

โดยที่เมทริกซ์ไม่ใช่สี่เหลี่ยมจัตุรัส แต่เป็นขนาดสี่เหลี่ยมจัตุรัส .

ในกรณีทั่วไป ระบบสมการดังกล่าวไม่มีวิธีแก้ปัญหา (หากอันดับนั้นมากกว่าจำนวนตัวแปรจริงๆ) ดังนั้น ระบบนี้สามารถ "แก้ไข" ได้เฉพาะในแง่ของการเลือกเวกเตอร์ดังกล่าวเพื่อลด "ระยะห่าง" ระหว่างเวกเตอร์และ ในการทำเช่นนี้ คุณสามารถใช้เกณฑ์ในการลดผลรวมของกำลังสองของความแตกต่างระหว่างด้านซ้ายและด้านขวาของสมการของระบบได้ กล่าวคือ เป็นเรื่องง่ายที่จะแสดงให้เห็นว่าการแก้ปัญหาการย่อเล็กสุดนี้นำไปสู่การแก้ระบบสมการต่อไปนี้

100 รูเบิลโบนัสสำหรับการสั่งซื้อครั้งแรก

เลือกประเภทงาน งานอนุปริญญา งานหลักสูตร บทคัดย่อ วิทยานิพนธ์ระดับปริญญาโท รายงานการปฏิบัติ บทความ รายงาน ทบทวน งานทดสอบ เอกสาร การแก้ปัญหา แผนธุรกิจ คำตอบสำหรับคำถาม งานสร้างสรรค์ การเขียนเรียงความ การเขียนเรียงความ การแปล การนำเสนอ การพิมพ์ อื่น ๆ การเพิ่มเอกลักษณ์ของข้อความ วิทยานิพนธ์ปริญญาโท งานห้องปฏิบัติการ ความช่วยเหลือออนไลน์

ค้นหาราคา

วิธีกำลังสองน้อยที่สุดเป็นเทคนิคทางคณิตศาสตร์ (ทางคณิตศาสตร์-สถิติ) ที่ใช้ในการจัดลำดับอนุกรมเวลา ระบุรูปแบบของความสัมพันธ์ระหว่างตัวแปรสุ่ม ฯลฯ ประกอบด้วยข้อเท็จจริงที่ว่าฟังก์ชันที่อธิบายปรากฏการณ์ที่กำหนดนั้นประมาณด้วยฟังก์ชันที่ง่ายกว่า ยิ่งไปกว่านั้น ค่าหลังถูกเลือกในลักษณะที่ค่าเบี่ยงเบนมาตรฐาน (ดูการกระจายตัว) ของระดับที่แท้จริงของฟังก์ชันที่จุดที่สังเกตได้จากค่าที่อยู่ในแนวเดียวกันนั้นมีค่าน้อยที่สุด

ตัวอย่างเช่นตามข้อมูลที่มีอยู่ ( ซี,ยี่) (ฉัน = 1, 2, ..., n) เส้นโค้งดังกล่าวถูกสร้างขึ้น ย = ก + บีเอ็กซ์ซึ่งจะได้ผลรวมขั้นต่ำของการเบี่ยงเบนกำลังสอง

กล่าวคือ ฟังก์ชันที่ขึ้นอยู่กับพารามิเตอร์สองตัวจะถูกย่อให้เล็กสุด: ก- ส่วนบนแกนกำหนดและ ข- ความชันของเส้นตรง

สมการที่ให้เงื่อนไขที่จำเป็นสำหรับการลดฟังก์ชัน ส(ก,ข) เรียกว่า สมการปกติในการประมาณฟังก์ชันนั้น ไม่เพียงแต่ใช้เชิงเส้น (การจัดแนวตามเส้นตรง) แต่ยังใช้กำลังสอง พาราโบลา เอ็กซ์โปเนนเชียล ฯลฯ ด้วย สำหรับตัวอย่างการจัดอนุกรมเวลาตามแนวเส้นตรง โปรดดูรูป ม.2 โดยที่ผลรวมของระยะทางยกกำลังสอง ( ย 1 – ų 1)2 + (ย 2 – ų 2)2 .... มีค่าน้อยที่สุด และเส้นตรงที่ได้จะสะท้อนแนวโน้มของชุดการสังเกตแบบไดนามิกของตัวบ่งชี้บางตัวเมื่อเวลาผ่านไปได้ดีที่สุด

สำหรับการประมาณค่า OLS ที่เป็นกลาง มีความจำเป็นและเพียงพอในการตอบสนองเงื่อนไขที่สำคัญที่สุดของการวิเคราะห์การถดถอย: ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มตามเงื่อนไขของปัจจัย จะต้องเท่ากับศูนย์ โดยเฉพาะอย่างยิ่งจะตรงตามเงื่อนไขนี้หาก: 1.ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มเป็นศูนย์ และ 2.ปัจจัยและข้อผิดพลาดแบบสุ่มเป็นตัวแปรสุ่มอิสระ เงื่อนไขแรกสามารถถือว่าเป็นไปตามเงื่อนไขเสมอสำหรับโมเดลที่มีค่าคงที่ เนื่องจากค่าคงที่นั้นใช้การคาดการณ์ข้อผิดพลาดทางคณิตศาสตร์ที่ไม่เป็นศูนย์ เงื่อนไขที่สอง - เงื่อนไขของปัจจัยภายนอก - เป็นเงื่อนไขพื้นฐาน หากไม่ตรงตามคุณสมบัตินี้ เราสามารถสรุปได้ว่าการประมาณการเกือบทั้งหมดจะไม่เป็นที่น่าพอใจอย่างยิ่ง โดยจะไม่สอดคล้องกันด้วยซ้ำ (นั่นคือ แม้แต่ข้อมูลจำนวนมากก็ไม่อนุญาตให้เรารับการประมาณการคุณภาพสูงในกรณีนี้ ).

วิธีการประมาณค่าพารามิเตอร์ของสมการถดถอยทางสถิติที่ใช้กันมากที่สุดคือวิธีกำลังสองน้อยที่สุด วิธีการนี้ตั้งอยู่บนสมมติฐานหลายประการเกี่ยวกับลักษณะของข้อมูลและผลลัพธ์ของแบบจำลอง สิ่งสำคัญคือการแบ่งที่ชัดเจนของตัวแปรดั้งเดิมเป็นแบบขึ้นอยู่กับและอิสระ, ความไม่สัมพันธ์กันของปัจจัยที่รวมอยู่ในสมการ, ความเป็นเส้นตรงของความสัมพันธ์, การไม่มีความสัมพันธ์อัตโนมัติของส่วนที่เหลือ, ความเท่าเทียมกันของความคาดหวังทางคณิตศาสตร์ของพวกเขาเป็นศูนย์และค่าคงที่ การกระจายตัว

หนึ่งในสมมติฐานหลักของ OLS คือการสันนิษฐานของความเท่าเทียมกันของความแปรปรวนของการเบี่ยงเบน เช่น สเปรดรอบค่าเฉลี่ย (ศูนย์) ของซีรีย์ควรเป็นค่าคงที่ คุณสมบัตินี้เรียกว่าโฮโมสซิดาสติก ในทางปฏิบัติความแปรปรวนของการเบี่ยงเบนมักจะไม่เท่ากันนั่นคือสังเกตจากความเบี่ยงเบนที่แตกต่างกัน นี่อาจเป็นเพราะสาเหตุหลายประการ ตัวอย่างเช่น อาจมีข้อผิดพลาดในแหล่งข้อมูล ข้อมูลต้นฉบับที่ไม่ถูกต้องเป็นครั้งคราว เช่น ข้อผิดพลาดในลำดับตัวเลข อาจมีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ บ่อยครั้งที่การแพร่กระจายของการเบี่ยงเบนที่มากขึ้น єi ถูกสังเกตด้วยค่าขนาดใหญ่ของตัวแปรตาม (ตัวแปร) หากข้อมูลมีข้อผิดพลาดที่สำคัญ ค่าเบี่ยงเบนของค่าโมเดลที่คำนวณจากข้อมูลที่ผิดพลาดก็จะมีมากเช่นกัน เพื่อกำจัดข้อผิดพลาดนี้ เราจำเป็นต้องลดการมีส่วนร่วมของข้อมูลนี้ในผลการคำนวณ โดยให้น้ำหนักกับข้อมูลเหล่านี้น้อยกว่าข้อมูลอื่นๆ ทั้งหมด แนวคิดนี้ถูกนำไปใช้ใน OLS แบบถ่วงน้ำหนัก