ความสัมพันธ์ที่มีอยู่ระหว่างตัวแปรสุ่ม จากธรรมชาติที่แตกต่างกันตัวอย่างเช่น ระหว่างค่า X และค่า Y ไม่จำเป็นต้องเป็นผลมาจากการพึ่งพาโดยตรงของค่าหนึ่งกับอีกค่าหนึ่ง (ที่เรียกว่าความสัมพันธ์เชิงฟังก์ชัน) ในบางกรณี ปริมาณทั้งสองขึ้นอยู่กับปัจจัยที่แตกต่างกันทั้งชุดซึ่งเหมือนกันกับปริมาณทั้งสอง ซึ่งเป็นผลมาจากการที่ เพื่อนที่เกี่ยวข้องกับเพื่อนลาย. เมื่อค้นพบความสัมพันธ์ระหว่างตัวแปรสุ่มโดยใช้สถิติ เราไม่สามารถอ้างได้ว่าเราได้ค้นพบสาเหตุของการเปลี่ยนแปลงอย่างต่อเนื่องของพารามิเตอร์ แต่เราเห็นเพียงสองผลที่ตามมาซึ่งสัมพันธ์กัน

ตัวอย่างเช่น เด็กๆ ที่ดูภาพยนตร์แอ็คชั่นอเมริกันทางทีวีบ่อยขึ้นจะอ่านน้อยลง เด็กที่อ่านมากขึ้นจะเรียนรู้ได้ดีขึ้น ไม่ใช่เรื่องง่ายที่จะตัดสินใจว่าสาเหตุอยู่ที่ไหนและผลที่ตามมาอยู่ที่ไหน แต่นี่ไม่ใช่งานของสถิติ สถิติสามารถเสนอสมมติฐานเกี่ยวกับการมีอยู่ของการเชื่อมต่อและสนับสนุนด้วยตัวเลขเท่านั้น หากมีการเชื่อมต่อกันจริงๆ ตัวแปรสุ่มสองตัวจะบอกว่ามีความสัมพันธ์กัน ถ้าการเพิ่มขึ้นของตัวแปรสุ่มตัวหนึ่งสัมพันธ์กับการเพิ่มขึ้นของตัวแปรสุ่มตัวที่สอง ความสัมพันธ์นี้เรียกว่าโดยตรง เช่น จำนวนหน้าที่อ่านต่อปี และคะแนนเฉลี่ย (ผลการเรียน) ในทางกลับกัน หากการเพิ่มขึ้นของค่าหนึ่งสัมพันธ์กับการลดลงในอีกค่าหนึ่ง เราจะพูดถึงความสัมพันธ์แบบผกผัน เช่น จำนวนภาพยนตร์แอ็คชั่นและจำนวนหน้าที่อ่าน

การเชื่อมต่อระหว่างตัวแปรสุ่มสองตัวเรียกว่าความสัมพันธ์ การวิเคราะห์ความสัมพันธ์ทำให้สามารถระบุการมีอยู่ของการเชื่อมต่อดังกล่าว และประเมินว่าการเชื่อมต่อนี้มีความใกล้ชิดและมีนัยสำคัญเพียงใด ทั้งหมดนี้แสดงออกมาในเชิงปริมาณ

จะทราบได้อย่างไรว่าปริมาณมีความสัมพันธ์กันหรือไม่? ในกรณีส่วนใหญ่ สามารถดูได้บนกราฟปกติ ตัวอย่างเช่น สำหรับเด็กแต่ละคนจากตัวอย่างของเรา เราสามารถกำหนดค่า X i (จำนวนหน้า) และ Y i ( เกรดเฉลี่ยการประเมินประจำปี) และบันทึกข้อมูลนี้ในรูปแบบตาราง สร้างแกน X และ Y จากนั้นพล็อตจุดทั้งชุดบนกราฟเพื่อให้แต่ละจุดมีคู่พิกัดเฉพาะ (X i, Y i) จากตารางของเรา เนื่องจากในกรณีนี้ เราพบว่าเป็นการยากที่จะระบุได้ว่าอะไรเป็นสาเหตุและผลที่ตามมา ไม่สำคัญว่าแกนใดจะเป็นแนวตั้งและแนวนอน


หากกราฟดูเหมือน a) แสดงว่ามีความสัมพันธ์โดยตรง หากดูเหมือน b) แสดงว่าความสัมพันธ์นั้นกลับกัน ไม่มีความสัมพันธ์กัน
เมื่อใช้สัมประสิทธิ์สหสัมพันธ์ คุณสามารถคำนวณว่าความสัมพันธ์ระหว่างค่าต่างๆ มีความใกล้เคียงกันเพียงใด

ให้มีความสัมพันธ์ระหว่างราคาและความต้องการผลิตภัณฑ์ จำนวนหน่วยที่ซื้อขึ้นอยู่กับราคาจากผู้ขายที่แตกต่างกันแสดงอยู่ในตาราง:

จะเห็นได้ว่าเรากำลังเผชิญกับความสัมพันธ์แบบผกผัน ในการหาปริมาณความใกล้ชิดของการเชื่อมต่อ จะใช้ค่าสัมประสิทธิ์สหสัมพันธ์:

เราคำนวณค่าสัมประสิทธิ์ r ใน Excel โดยใช้ฟังก์ชัน f x ตามด้วยฟังก์ชันทางสถิติ ฟังก์ชัน CORREL เมื่อโปรแกรมแจ้ง ให้ใช้เมาส์เพื่อป้อนอาร์เรย์ที่แตกต่างกันสองตัว (X และ Y) ลงในฟิลด์ทั้งสองที่สอดคล้องกัน ในกรณีของเรา ค่าสัมประสิทธิ์สหสัมพันธ์กลายเป็น r = - 0.988 ควรสังเกตว่ายิ่งค่าสัมประสิทธิ์สหสัมพันธ์เข้าใกล้ 0 ความสัมพันธ์ระหว่างปริมาณก็จะยิ่งอ่อนลง การเชื่อมต่อที่ใกล้เคียงที่สุดและมีความสัมพันธ์โดยตรงสอดคล้องกับค่าสัมประสิทธิ์ r ใกล้ +1 ในกรณีของเรา ความสัมพันธ์เป็นแบบผกผัน แต่ก็ใกล้เคียงกันมากเช่นกัน และค่าสัมประสิทธิ์อยู่ใกล้กับ -1

สิ่งที่สามารถพูดเกี่ยวกับตัวแปรสุ่มที่มีค่าสัมประสิทธิ์มีค่ากลาง? เช่น หากเราได้ r=0.65 ในกรณีนี้ สถิติทำให้เราบอกได้ว่าตัวแปรสุ่มสองตัวมีความสัมพันธ์กันบางส่วน สมมติว่ามีอิทธิพล 65% ต่อจำนวนการซื้อราคาและ 35% - สถานการณ์อื่น ๆ

และต้องกล่าวถึงเหตุการณ์สำคัญอีกประการหนึ่ง เนื่องจากเรากำลังพูดถึงตัวแปรสุ่ม มีความเป็นไปได้เสมอที่การเชื่อมต่อที่เราสังเกตเห็นจะเป็นสถานการณ์แบบสุ่ม นอกจากนี้ ความน่าจะเป็นในการค้นหาการเชื่อมต่อที่ไม่มีเลยจะสูงเป็นพิเศษเมื่อมีจุดไม่กี่จุดในกลุ่มตัวอย่าง และในระหว่างการประเมิน คุณไม่ได้สร้างกราฟ แต่เพียงคำนวณค่าของสัมประสิทธิ์สหสัมพันธ์บนคอมพิวเตอร์ ดังนั้นหากเราเหลือเพียงสองคน จุดที่แตกต่างกันในตัวอย่างสุ่มใดๆ ค่าสัมประสิทธิ์สหสัมพันธ์จะเป็น +1 หรือ -1 จากหลักสูตรเรขาคณิตของโรงเรียน เรารู้ว่าคุณสามารถวาดเส้นตรงผ่านจุดสองจุดได้เสมอ สำหรับการประเมินผลข้อเท็จจริงของการเชื่อมต่อที่คุณค้นพบ การใช้สิ่งที่เรียกว่าการแก้ไขความสัมพันธ์จะเป็นประโยชน์:

แม้ว่าเป้าหมายของการวิเคราะห์สหสัมพันธ์คือการพิจารณาว่าตัวแปรสุ่มที่กำหนดมีความสัมพันธ์กันหรือไม่ แต่เป้าหมายก็คือ การวิเคราะห์การถดถอย- อธิบายการเชื่อมต่อนี้ด้วยการพึ่งพาเชิงวิเคราะห์ เช่น โดยใช้สมการ เราจะพิจารณากรณีที่ง่ายที่สุด เมื่อการเชื่อมต่อระหว่างจุดต่างๆ บนกราฟสามารถแสดงเป็นเส้นตรงได้ สมการของเส้นตรงนี้คือ Y=aX+b โดยที่ a=Yaverage-bXaverage

เมื่อรู้แล้ว เราสามารถค้นหาค่าของฟังก์ชันด้วยค่าของอาร์กิวเมนต์ ณ จุดที่ทราบค่าของ X แต่ Y ไม่ใช่ การประมาณการเหล่านี้มีประโยชน์มาก แต่ต้องใช้อย่างระมัดระวัง โดยเฉพาะอย่างยิ่งหากความสัมพันธ์ระหว่างปริมาณไม่ใกล้กันเกินไป

โปรดทราบด้วยว่าจากการเปรียบเทียบสูตรสำหรับ b และ r เป็นที่ชัดเจนว่าค่าสัมประสิทธิ์ไม่ได้ให้ค่าของความชันของเส้น แต่แสดงเพียงข้อเท็จจริงของการมีอยู่ของการเชื่อมต่อเท่านั้น

บริษัทมีพนักงาน 10 คน ตารางที่ 2 แสดงข้อมูลประสบการณ์การทำงานและ

เงินเดือนรายเดือน

คำนวณโดยใช้ข้อมูลเหล่านี้

  • - ค่าของการประมาณค่าความแปรปรวนร่วมตัวอย่าง
  • - ค่าของสัมประสิทธิ์สหสัมพันธ์เพียร์สันตัวอย่าง
  • - ประเมินทิศทางและความแรงของการเชื่อมต่อจากค่าที่ได้รับ
  • - กำหนดว่าข้อความนั้นถูกต้องเพียงใด บริษัท นี้การใช้งาน โมเดลญี่ปุ่นฝ่ายบริหารซึ่งประกอบด้วยสมมติฐานที่ว่ายิ่งพนักงานใช้เวลาในบริษัทใดบริษัทหนึ่งมากเท่าไร เงินเดือนของเขาก็จะยิ่งสูงขึ้นเท่านั้น

จากฟิลด์สหสัมพันธ์ สามารถเสนอสมมติฐานได้ (สำหรับ ประชากร) ว่าความสัมพันธ์ระหว่างค่าที่เป็นไปได้ทั้งหมดของ X และ Y นั้นเป็นเส้นตรง

ในการคำนวณพารามิเตอร์การถดถอย เราจะสร้างตารางการคำนวณ

หมายถึงตัวอย่าง.

ผลต่างตัวอย่าง:

จะได้สมการการถดถอยโดยประมาณ

y = bx + a + e,

โดยที่ ei คือค่าที่สังเกตได้ (ค่าประมาณ) ของข้อผิดพลาด ei, a และ b ตามลำดับ ค่าประมาณของพารามิเตอร์ b และในแบบจำลองการถดถอยที่ควรพบ

ในการประมาณค่าพารามิเตอร์ b และ c จะใช้วิธีกำลังสองน้อยที่สุด (วิธีกำลังสองน้อยที่สุด)

ระบบสมการปกติ

a?x + b?x2 = ?y*x

สำหรับข้อมูลของเรา ระบบสมการจะมีรูปแบบ

  • 10a + 307 ข = 33300
  • 307 ก + 1,0857 ข = 1127700

ลองคูณสมการ (1) ของระบบด้วย (-30.7) เราจะได้ระบบที่เราแก้โดยใช้วิธีบวกพีชคณิต

  • -307a -9424.9ข = -1022310
  • 307 ก + 1,0857 ข = 1127700

เราได้รับ:

1432.1 ข = 1,05390

b = 73.5912 มาจากไหน?

ตอนนี้เรามาหาค่าสัมประสิทธิ์ "a" จากสมการ (1):

  • 10a + 307 ข = 33300
  • 10a + 307 * 73.5912 = 33300
  • 10a = 10707.49

เราได้รับสัมประสิทธิ์การถดถอยเชิงประจักษ์: b = 73.5912, a = 1,070.7492

สมการการถดถอย (สมการถดถอยเชิงประจักษ์):

y = 73.5912 x + 1,070.7492

ความแปรปรวนร่วม

ในตัวอย่างของเรา ความเชื่อมโยงระหว่างคุณลักษณะ Y และปัจจัย X นั้นสูงและตรง

ดังนั้นเราจึงสามารถพูดได้อย่างปลอดภัยว่า ยิ่งพนักงานทำงานในบริษัทใดบริษัทหนึ่งมากเท่าไร เงินเดือนของเขาก็ก็จะสูงขึ้นตามไปด้วย

4. การทดสอบสมมติฐานทางสถิติ เมื่อแก้ไขปัญหานี้ ขั้นตอนแรกคือการกำหนดสมมติฐานที่ทดสอบได้และสมมติฐานทางเลือก

การตรวจสอบความเท่าเทียมกันของหุ้นสามัญ

การศึกษาผลการปฏิบัติงานของนักศึกษาทั้ง 2 คณะ ผลลัพธ์สำหรับตัวเลือกต่างๆ แสดงไว้ในตารางที่ 3 เป็นไปได้ไหมที่จะบอกว่าทั้งสองคณะมีเปอร์เซ็นต์นักเรียนดีเด่นเท่ากัน?

ค่าเฉลี่ยเลขคณิตอย่างง่าย

เราทดสอบสมมติฐานเกี่ยวกับความเท่าเทียมกันของหุ้นทั่วไป:

มาหาค่าทดลองของเกณฑ์ของนักเรียนกัน:

จำนวนองศาความเป็นอิสระ

f = nх + nу - 2 = 2 + 2 - 2 = 2

กำหนดค่า tkp โดยใช้ตารางการแจกแจงของนักเรียน

เมื่อใช้ตารางนักเรียนเราจะพบ:

Ttable(f;b/2) = Ttable(2;0.025) = 4.303

จากการใช้ตารางจุดวิกฤติของการแจกแจงของนักเรียนที่ระดับนัยสำคัญ b = 0.05 และจำนวนองศาอิสระที่กำหนด เราจะพบว่า tcr = 4.303

เพราะ tob > tcr จากนั้นสมมติฐานว่างจะถูกปฏิเสธ ส่วนแบ่งทั่วไปของทั้งสองตัวอย่างไม่เท่ากัน

ตรวจสอบความสม่ำเสมอของการกระจายทั่วไป

เจ้าหน้าที่ของมหาวิทยาลัยต้องการทราบว่าความนิยมของภาควิชามนุษยศาสตร์เปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป จำนวนผู้สมัครที่สมัครเข้าเรียนคณะนี้ได้รับการวิเคราะห์โดยสัมพันธ์กับจำนวนผู้สมัครทั้งหมดในปีที่เกี่ยวข้อง (ข้อมูลได้รับในตารางที่ 4) หากเราพิจารณาจำนวนผู้สมัครเพื่อเป็นตัวแทนของกลุ่มตัวอย่าง จำนวนทั้งหมดผู้สำเร็จการศึกษาแห่งปี อาจกล่าวได้ว่าความสนใจของเด็กนักเรียนในสาขาวิชาเฉพาะของคณะนี้ไม่เปลี่ยนแปลงไปตามกาลเวลา?

ตัวเลือกที่ 4

วิธีแก้ไข: ตารางการคำนวณตัวบ่งชี้

ตรงกลางของช่วงเวลา xi

ความถี่สะสม S

ความถี่, fi/n

ในการประเมินซีรีย์การจัดจำหน่าย เราจะพบตัวบ่งชี้ต่อไปนี้:

ถัวเฉลี่ยถ่วงน้ำหนัก

ช่วงของการแปรผันคือความแตกต่างระหว่างค่าสูงสุดและค่าต่ำสุดของคุณลักษณะอนุกรมหลัก

R = 2008 - 1988 = 20 การกระจายตัว - กำหนดลักษณะการวัดการกระจายตัวรอบๆ ค่าเฉลี่ย (การวัดการกระจาย กล่าวคือ การเบี่ยงเบนจากค่าเฉลี่ย)

ส่วนเบี่ยงเบนมาตรฐาน (ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ย)

แต่ละค่าของอนุกรมจะแตกต่างจากค่าเฉลี่ยปี 2545.66 โดยเฉลี่ย 6.32

ทดสอบสมมติฐานเกี่ยวกับการกระจายตัวของประชากรแบบสม่ำเสมอ

เพื่อทดสอบสมมติฐานเกี่ยวกับการกระจายตัวแบบสม่ำเสมอของ X กล่าวคือ ตามกฎหมาย: f(x) = 1/(b-a) ในช่วงเวลา (a,b) จำเป็น:

ประมาณค่าพารามิเตอร์ a และ b - จุดสิ้นสุดของช่วงเวลาที่สังเกตค่าที่เป็นไปได้ของ X โดยใช้สูตร (เครื่องหมาย * หมายถึงการประมาณค่าพารามิเตอร์):

ค้นหาความหนาแน่นของความน่าจะเป็นของการแจกแจงที่คาดหวัง f(x) = 1/(b* - a*)

หา ความถี่ทางทฤษฎี:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

เปรียบเทียบความถี่เชิงประจักษ์และความถี่ทางทฤษฎีโดยใช้เกณฑ์ของเพียร์สัน โดยหาจำนวนดีกรีอิสระ k = s-3 โดยที่ s คือจำนวนช่วงการสุ่มตัวอย่างเริ่มต้น หากมีการใช้การรวมกันของความถี่เล็ก ๆ และช่วงเวลานั้นเอง ดังนั้น s คือจำนวนช่วงเวลาที่เหลือหลังจากการรวมกัน ให้เราค้นหาค่าประมาณสำหรับพารามิเตอร์ a* และ b* ของการแจกแจงแบบสม่ำเสมอโดยใช้สูตร:

ให้เราค้นหาความหนาแน่นของการกระจายตัวแบบสมมติ:

ฉ(x) = 1/(b* - ก*) = 1/(2556.62 - 2534.71) = 0.0456

มาหาความถี่ทางทฤษฎี:

n1 = n*f(x)(x1 - a*) = 0.77 * 0.0456(1992-1991.71) = 0.0102

n5 = n*f(x)(b* - x4) = 0.77 * 0.0456(2556.62-2551) = 0.2

ns = n*f(x)(xi - xi-1)

เนื่องจากสถิติของเพียร์สันวัดความแตกต่างระหว่างการแจกแจงเชิงประจักษ์และการแจกแจงเชิงทฤษฎี ยิ่งค่า Kob ที่สังเกตได้มีค่ามากเท่าใด ข้อโต้แย้งที่ขัดแย้งกับสมมติฐานหลักก็จะยิ่งแข็งแกร่งขึ้นเท่านั้น

ดังนั้นขอบเขตวิกฤตสำหรับสถิตินี้จึงอยู่ทางขวาเสมอ: ) อาจแตกต่างอย่างมีนัยสำคัญจากลักษณะที่สอดคล้องกันของโครงร่างดั้งเดิม (ไม่บิดเบือน) (, l) - ตัวอย่างเช่นด้านล่าง (ดูหัวข้อ 1.1.4) จะแสดงขึ้น ว่าการกำหนดข้อผิดพลาดปกติแบบสุ่มในสองมิติดั้งเดิม รูปแบบปกติ (, m) จะลดค่าสัมบูรณ์ของสัมประสิทธิ์การถดถอย Ql ที่สัมพันธ์กัน (B. 15) เสมอและทำให้ระดับความใกล้ชิดของการเชื่อมต่อระหว่างมันลดลง (เช่น จะลดค่าสัมบูรณ์ของสัมประสิทธิ์สหสัมพันธ์ r)  

อิทธิพลของข้อผิดพลาดในการวัดต่อค่าสัมประสิทธิ์สหสัมพันธ์ สมมติว่าเราต้องการประมาณระดับความใกล้ชิดของความสัมพันธ์ระหว่างส่วนประกอบของตัวแปรสุ่มปกติสองมิติ (, TJ) แต่เราสามารถสังเกตได้เฉพาะกับข้อผิดพลาดในการวัดแบบสุ่ม es และ e ตามลำดับเท่านั้น (ดูแผนภาพของ D2 การพึ่งพาอาศัยกันในบทนำ) ดังนั้นข้อมูลการทดลอง (xit i/i), i = 1, 2, .., l เป็นค่าตัวอย่างของตัวแปรสุ่มสองมิติที่บิดเบี้ยว (, r)) โดยที่ =  

วิธีการร. ประกอบด้วยการหาสมการการถดถอย (รวมถึงการประมาณค่าพารามิเตอร์) โดยช่วยหาค่าเฉลี่ยของตัวแปรสุ่มหากทราบค่าของอีกค่าหนึ่ง (หรือค่าอื่น ๆ ในกรณีของการถดถอยหลายตัวแปรหรือหลายตัวแปร) (ในทางตรงกันข้าม การวิเคราะห์ความสัมพันธ์ใช้เพื่อค้นหาและแสดงจุดแข็งของความสัมพันธ์ระหว่างตัวแปรสุ่ม71)  

ในการศึกษาความสัมพันธ์ของสัญญาณที่ไม่เกี่ยวข้องกับการเปลี่ยนแปลงอย่างต่อเนื่องเมื่อเวลาผ่านไป แต่ละสัญญาณจะเปลี่ยนแปลงภายใต้อิทธิพลของเหตุผลหลายประการ โดยถือเป็นการสุ่ม ในซีรีส์ไดนามิก การเปลี่ยนแปลงในเวลาของแต่ละซีรีส์จะถูกเพิ่มเข้าไป การเปลี่ยนแปลงนี้นำไปสู่สิ่งที่เรียกว่าความสัมพันธ์อัตโนมัติ - อิทธิพลของการเปลี่ยนแปลงในระดับของซีรีส์ก่อนหน้าต่อลำดับที่ตามมา ดังนั้นความสัมพันธ์ระหว่างระดับของอนุกรมเวลาจะแสดงความสัมพันธ์อย่างใกล้ชิดระหว่างปรากฏการณ์ที่สะท้อนในอนุกรมเวลาได้ก็ต่อเมื่อไม่มีความสัมพันธ์อัตโนมัติในแต่ละปรากฏการณ์ นอกจากนี้ ความสัมพันธ์อัตโนมัติยังนำไปสู่การบิดเบือนค่าของค่าคลาดเคลื่อนกำลังสองเฉลี่ยของสัมประสิทธิ์การถดถอย ซึ่งทำให้ยากต่อการสร้างช่วงความเชื่อมั่นสำหรับค่าสัมประสิทธิ์การถดถอย ตลอดจนทดสอบนัยสำคัญด้วย  

ค่าสัมประสิทธิ์สหสัมพันธ์ทางทฤษฎีและตัวอย่างที่กำหนดโดยความสัมพันธ์ (1.8) และ (1.8) ตามลำดับ สามารถคำนวณอย่างเป็นทางการสำหรับระบบการสังเกตสองมิติใดๆ ก็ได้ โดยเป็นการวัดระดับความใกล้ชิดของความสัมพันธ์ทางสถิติเชิงเส้นระหว่างคุณลักษณะที่วิเคราะห์ อย่างไรก็ตาม เฉพาะในกรณีของการแจกแจงปกติร่วมกันของตัวแปรสุ่มภายใต้การศึกษาและ q ค่าสัมประสิทธิ์สหสัมพันธ์ r มีความหมายที่ชัดเจนในฐานะลักษณะของระดับความใกล้ชิดของความสัมพันธ์ระหว่างตัวแปรเหล่านั้น โดยเฉพาะอย่างยิ่งในกรณีนี้ อัตราส่วน r - 1 ยืนยันความสัมพันธ์เชิงเส้นตรงเชิงฟังก์ชันระหว่างปริมาณที่กำลังศึกษา และสมการ r = 0 บ่งบอกถึงความเป็นอิสระซึ่งกันและกันโดยสมบูรณ์ นอกจากนี้ ค่าสัมประสิทธิ์สหสัมพันธ์ ร่วมกับค่าเฉลี่ยและความแปรปรวนของตัวแปรสุ่มและ TJ ถือเป็นพารามิเตอร์ทั้ง 5 รายการที่ให้ข้อมูลที่ครอบคลุมเกี่ยวกับ

การวิเคราะห์การถดถอย

การประมวลผลผลการทดลองโดยใช้วิธีการ

เมื่อศึกษากระบวนการทำงานของระบบที่ซับซ้อน เราจะต้องจัดการกับตัวแปรสุ่มที่ออกฤทธิ์พร้อมกันจำนวนหนึ่ง เพื่อทำความเข้าใจกลไกของปรากฏการณ์ ความสัมพันธ์ระหว่างเหตุและผลระหว่างองค์ประกอบของระบบ ฯลฯ จากการสังเกตที่ได้รับ เราพยายามสร้างความสัมพันธ์ระหว่างปริมาณเหล่านี้

ในการวิเคราะห์ทางคณิตศาสตร์ การพึ่งพาระหว่างปริมาณสองปริมาณจะถูกแสดงโดยแนวคิดเรื่องฟังก์ชัน

โดยที่แต่ละค่าของตัวแปรหนึ่งสอดคล้องกับค่าของตัวแปรอื่นเพียงค่าเดียว การพึ่งพาอาศัยกันนี้เรียกว่า ใช้งานได้.

สถานการณ์ที่มีแนวคิดเรื่องการพึ่งพาตัวแปรสุ่มนั้นซับซ้อนกว่ามาก ตามกฎแล้วระหว่างตัวแปรสุ่ม (ปัจจัยสุ่ม) ที่กำหนดการทำงานของระบบที่ซับซ้อนมักจะมีความเชื่อมโยงซึ่งเมื่อมีการเปลี่ยนแปลงในค่าหนึ่งจะเป็นการกระจายของการเปลี่ยนแปลงอื่น การเชื่อมต่อนี้เรียกว่า สุ่ม, หรือ ความน่าจะเป็น- ในกรณีนี้คือขนาดของการเปลี่ยนแปลงของปัจจัยสุ่ม สอดคล้องกับการเปลี่ยนแปลงของค่า เอ็กซ์, สามารถแบ่งออกได้เป็น 2 องค์ประกอบ. ประการแรกเกี่ยวข้องกับการติดยาเสพติด จาก เอ็กซ์และอย่างที่สองด้วยอิทธิพลขององค์ประกอบสุ่ม "ของตัวเอง" และ เอ็กซ์- หากองค์ประกอบแรกหายไป แสดงว่าตัวแปรสุ่ม และ เอ็กซ์เป็นอิสระ หากองค์ประกอบที่สองหายไป และ เอ็กซ์ขึ้นอยู่กับการใช้งาน หากมีองค์ประกอบทั้งสองอยู่ ความสัมพันธ์ระหว่างองค์ประกอบทั้งสองจะกำหนดความแรงหรือความใกล้ชิดของการเชื่อมต่อระหว่างตัวแปรสุ่ม และ เอ็กซ์.

มีตัวบ่งชี้ต่างๆ ที่แสดงลักษณะของความสัมพันธ์แบบสุ่ม ดังนั้น, การพึ่งพาเชิงเส้นระหว่างตัวแปรสุ่ม เอ็กซ์และ กำหนดค่าสัมประสิทธิ์สหสัมพันธ์

ความคาดหวังทางคณิตศาสตร์ของตัวแปรสุ่ม X และ .

– ส่วนเบี่ยงเบนมาตรฐานของตัวแปรสุ่ม เอ็กซ์และ .


การพึ่งพาความน่าจะเป็นเชิงเส้นของตัวแปรสุ่มคือเมื่อตัวแปรสุ่มตัวหนึ่งเพิ่มขึ้น อีกตัวมีแนวโน้มที่จะเพิ่มขึ้น (หรือลดลง) ตามกฎเชิงเส้น ถ้าเป็นตัวแปรสุ่ม เอ็กซ์และ เชื่อมต่อกันด้วยการพึ่งพาฟังก์ชันเชิงเส้นที่เข้มงวด ตัวอย่างเช่น

y=b 0 +b 1 x 1,

จากนั้นค่าสัมประสิทธิ์สหสัมพันธ์จะเท่ากับ ; และเครื่องหมายนั้นสอดคล้องกับเครื่องหมายของสัมประสิทธิ์ ข 1.หากค่า เอ็กซ์และ เชื่อมต่อกันด้วยการพึ่งพาสุ่มโดยพลการ จากนั้นค่าสัมประสิทธิ์สหสัมพันธ์จะแปรผันภายใน

ควรเน้นว่าสำหรับตัวแปรสุ่มอิสระ ค่าสัมประสิทธิ์สหสัมพันธ์จะเป็นศูนย์ อย่างไรก็ตาม ค่าสัมประสิทธิ์สหสัมพันธ์ที่เป็นตัวบ่งชี้การพึ่งพาระหว่างตัวแปรสุ่มมีข้อเสียร้ายแรง ประการแรกจากความเท่าเทียมกัน = 0 ไม่ได้หมายความถึงความเป็นอิสระของตัวแปรสุ่ม เอ็กซ์และ (ยกเว้นตัวแปรสุ่มที่อยู่ภายใต้กฎการแจกแจงแบบปกติซึ่ง = 0 หมายถึง ไม่มีการพึ่งพาใดๆ ในเวลาเดียวกัน) ประการที่สองค่าสุดขีดก็ไม่มีประโยชน์เช่นกันเนื่องจากไม่สอดคล้องกับการพึ่งพาการทำงานใด ๆ แต่จะเป็นเพียงค่าเชิงเส้นเท่านั้น



คำอธิบายแบบเต็มการพึ่งพาอาศัยกัน จาก เอ็กซ์และยิ่งไปกว่านั้น สามารถแสดงความสัมพันธ์เชิงฟังก์ชันที่แน่นอนได้โดยการรู้ฟังก์ชันการแจกแจงแบบมีเงื่อนไข

ควรสังเกตว่าในกรณีนี้ตัวแปรตัวใดตัวหนึ่งที่สังเกตได้จะถือว่าไม่สุ่ม โดยการแก้ไขค่าของตัวแปรสุ่มสองตัวพร้อมกัน เอ็กซ์และ เมื่อเปรียบเทียบค่า เราสามารถระบุข้อผิดพลาดทั้งหมดว่าเป็นค่าเท่านั้น - ดังนั้นข้อผิดพลาดในการสังเกตจะประกอบด้วยข้อผิดพลาดขนาดแบบสุ่มของตัวเอง และจากความผิดพลาดในการเปรียบเทียบอันเนื่องมาจากข้อเท็จจริงที่ว่ามีค่า เปรียบเทียบค่าไม่เท่ากันทุกประการ เอ็กซ์ซึ่งเกิดขึ้นจริง

อย่างไรก็ตามการค้นหาฟังก์ชันการแจกแจงแบบมีเงื่อนไขตามกฎแล้วกลายเป็นเรื่องที่ดีมาก งานที่ท้าทาย- วิธีที่ง่ายที่สุดในการตรวจสอบความสัมพันธ์ระหว่าง เอ็กซ์และ โดยมีการกระจายแบบปกติ เนื่องจากถูกกำหนดโดยความคาดหวังและความแปรปรวนทางคณิตศาสตร์อย่างสมบูรณ์ ในกรณีนี้ เพื่ออธิบายการพึ่งพาอาศัยกัน จาก เอ็กซ์ไม่จำเป็นต้องสร้างฟังก์ชันการแจกแจงแบบมีเงื่อนไข แต่เพียงระบุวิธีการเปลี่ยนพารามิเตอร์ เอ็กซ์ความคาดหวังทางคณิตศาสตร์และความแปรปรวนของการเปลี่ยนแปลงปริมาณ .

ดังนั้นเราจึงจำเป็นต้องค้นหาฟังก์ชันเพียงสองอย่างเท่านั้น:

การพึ่งพาความแปรปรวนแบบมีเงื่อนไข ดีจากพารามิเตอร์ เอ็กซ์เรียกว่า นักวิชาการการพึ่งพา เป็นลักษณะการเปลี่ยนแปลงความแม่นยำของเทคนิคการสังเกตเมื่อพารามิเตอร์เปลี่ยนแปลงและไม่ค่อยได้ใช้

การพึ่งพาความคาดหวังทางคณิตศาสตร์แบบมีเงื่อนไข จาก เอ็กซ์เรียกว่า การถดถอยมันให้การพึ่งพาปริมาณที่แท้จริง เอ็กซ์และ คุณไร้ชั้นสุ่มทั้งหมด ดังนั้น เป้าหมายในอุดมคติของการศึกษาตัวแปรตามก็คือการค้นหาสมการถดถอย และความแปรปรวนจะใช้เพื่อประเมินความแม่นยำของผลลัพธ์ที่ได้รับเท่านั้น

คำจำกัดความโดยตรงของคำศัพท์ ความสัมพันธ์ - สุ่ม, น่าจะเป็น, เป็นไปได้ การเชื่อมต่อ ระหว่างตัวแปรสุ่มสองตัว (คู่) หรือหลายตัว (หลายตัว)

กล่าวไว้ข้างต้นว่าหากเป็นสอง SV ( เอ็กซ์และ ) มีความเท่าเทียมกัน ป(XY) =ป(X) ป(Y)จากนั้นปริมาณ เอ็กซ์และ ถือว่าเป็นอิสระ แล้วถ้าไม่เป็นเช่นนั้นล่ะ!?

ท้ายที่สุดแล้วคำถามนั้นสำคัญเสมอ - และ เท่าไร SV หนึ่งอันขึ้นอยู่กับอีกอันหนึ่งหรือไม่? และประเด็นก็คือผู้คนไม่มีความปรารถนาที่จะวิเคราะห์บางสิ่งที่จำเป็นในมิติเชิงตัวเลข เป็นที่ชัดเจนแล้วว่าการวิเคราะห์ระบบหมายถึงการคำนวณอย่างต่อเนื่อง ซึ่งการใช้คอมพิวเตอร์บังคับให้เราต้องทำงานด้วย ตัวเลขไม่ใช่แนวคิด

ในการประเมินความสัมพันธ์ที่เป็นไปได้ระหว่างตัวแปรสุ่มสองตัวเป็นตัวเลข: (มีค่าเฉลี่ย ของฉันเอสวาย) และ - เอ็กซ์(มีค่าเฉลี่ย เอ็ม เอ็กซ์และค่าเบี่ยงเบนมาตรฐาน ) เป็นเรื่องปกติที่จะใช้สิ่งที่เรียกว่า ค่าสัมประสิทธิ์สหสัมพันธ์

อาร์ xy = . {2 - 11}

ค่าสัมประสิทธิ์นี้สามารถรับค่าได้ตั้งแต่ -1 ถึง +1 - ขึ้นอยู่กับความใกล้ชิดของการเชื่อมต่อระหว่างตัวแปรสุ่มเหล่านี้

หากค่าสัมประสิทธิ์สหสัมพันธ์เป็นศูนย์แสดงว่า เอ็กซ์และ เรียกว่า ไม่สัมพันธ์กัน - โดยปกติไม่มีเหตุผลที่จะต้องพิจารณาว่าเป็นอิสระ - ปรากฎว่าตามกฎแล้วมีความสัมพันธ์แบบไม่เชิงเส้นของปริมาณที่ R xy = 0แม้ว่าปริมาณจะต่างกันก็ตาม การสนทนาเป็นจริงเสมอ - หากเป็นปริมาณ เป็นอิสระ , ที่ ร็อกซี่ = 0 - แต่ถ้าเป็นโมดูล ร็อกซี่= 1 นั่นคือมีเหตุผลทุกประการที่จะถือว่ามีอยู่ เชิงเส้นการเชื่อมต่อระหว่าง และ เอ็กซ์- นี่คือสาเหตุที่พวกเขามักพูดถึง ความสัมพันธ์เชิงเส้น เมื่อใช้วิธีการประเมินความเชื่อมโยงระหว่าง SV นี้

ให้เราทราบอีกวิธีหนึ่งในการประเมินความสัมพันธ์ระหว่างตัวแปรสุ่มสองตัว - หากเรารวมผลคูณของการเบี่ยงเบนของแต่ละตัวแปรจากค่าเฉลี่ยแล้วค่าผลลัพธ์จะเป็น

ด้วย xy = S (X - M x)· (ใช่ - ของฉัน)

หรือ ความแปรปรวนร่วม ปริมาณ เอ็กซ์และ แยกตัวบ่งชี้สองตัวออกจากค่าสัมประสิทธิ์สหสัมพันธ์ : ประการแรก การหาค่าเฉลี่ย(หารด้วยจำนวนการสังเกตหรือคู่ เอ็กซ์, ) และประการที่สอง การปันส่วนโดยการหารด้วยส่วนเบี่ยงเบนมาตรฐานที่สอดคล้องกัน

การประเมินความสัมพันธ์ระหว่างตัวแปรสุ่มในระบบที่ซับซ้อนดังกล่าวถือเป็นระยะเริ่มต้นประการหนึ่ง การวิเคราะห์ระบบดังนั้นคำถามเกี่ยวกับความไว้วางใจในการสรุปเกี่ยวกับการมีหรือไม่มีการเชื่อมต่อระหว่างสอง SV จึงเกิดขึ้นในทุกระดับความรุนแรง

ใน วิธีการที่ทันสมัยการวิเคราะห์ระบบมักจะทำเช่นนี้ โดยมูลค่าที่ค้นพบ คำนวณปริมาณเสริม:

W = 0.5 Ln[(1 + R)/(1-R)]{2 - 12}

และคำถามเกี่ยวกับความเชื่อมั่นในสัมประสิทธิ์สหสัมพันธ์จะลดลงเหลือช่วงความเชื่อมั่นสำหรับตัวแปรสุ่ม W ซึ่งกำหนดโดยตารางหรือสูตรมาตรฐาน

ในบางกรณีของการวิเคราะห์ระบบ จำเป็นต้องแก้ไขปัญหาการเชื่อมต่อระหว่างตัวแปรสุ่มหลายตัว (มากกว่า 2) หรือปัญหาของ ความสัมพันธ์หลายประการ.

อนุญาต เอ็กซ์, และ ซี- ตัวแปรสุ่ม ขึ้นอยู่กับการสังเกตที่เราสร้างค่าเฉลี่ย เอ็ม เอ็กซ์, ของฉัน,มซและส่วนเบี่ยงเบนมาตรฐาน , เอส , เอส ซ .

แล้วคุณจะพบ คู่ผสม ค่าสัมประสิทธิ์สหสัมพันธ์ ร็อกซี่, ริซ, ริซตามสูตรข้างต้น แต่เห็นได้ชัดว่ายังไม่เพียงพอ - ท้ายที่สุดในแต่ละขั้นตอนทั้งสามเราลืมไปเลยว่ามีตัวแปรสุ่มตัวที่สามอยู่! ดังนั้น ในกรณีของการวิเคราะห์ความสัมพันธ์หลายรายการ บางครั้งจำเป็นต้องมองหาสิ่งที่เรียกว่า ส่วนตัว ค่าสัมประสิทธิ์สหสัมพันธ์ - เช่นการประมาณค่าโยกเยก ซีบนความเชื่อมโยงระหว่าง เอ็กซ์และ ทำโดยใช้สัมประสิทธิ์

Rxy.z = {2 - 13}

และสุดท้าย เราสามารถตั้งคำถามได้ - อะไรคือความเชื่อมโยงระหว่าง SV นี้กับจำนวนรวมของ SV อื่นๆ? คำตอบสำหรับคำถามดังกล่าวได้มาจากค่าสัมประสิทธิ์ หลายรายการ ความสัมพันธ์ R x.yz , R y.zx , R z.xy ,สูตรการคำนวณนั้นสร้างขึ้นบนหลักการเดียวกันโดยคำนึงถึงการเชื่อมโยงของปริมาณหนึ่งกับปริมาณอื่น ๆ ทั้งหมดในผลรวม

ความซับซ้อนในการคำนวณตัวบ่งชี้สหสัมพันธ์ที่อธิบายไว้ทั้งหมดสามารถละเลยได้ ความสนใจเป็นพิเศษ- โปรแกรมสำหรับการคำนวณค่อนข้างง่ายและพร้อมใช้งานใน PPP ของคอมพิวเตอร์สมัยใหม่หลายเครื่อง

ก็เพียงพอที่จะเข้าใจสิ่งสำคัญ - หากเมื่ออธิบายองค์ประกอบของระบบที่ซับซ้อนอย่างเป็นทางการชุดขององค์ประกอบดังกล่าวในรูปแบบของระบบย่อยหรือในที่สุดระบบโดยรวมเราจะพิจารณา การสื่อสาร ระหว่างแต่ละส่วน ระดับของความใกล้ชิดของการเชื่อมต่อนี้ในรูปแบบของอิทธิพลของ SV หนึ่งต่ออีกส่วนหนึ่งสามารถและควรได้รับการประเมินในระดับความสัมพันธ์

โดยสรุป เราสังเกตอีกสิ่งหนึ่ง - ในทุกกรณีของการวิเคราะห์ระบบที่ระดับความสัมพันธ์ ทั้งตัวแปรสุ่มในความสัมพันธ์แบบคู่หรือทั้งหมดในความสัมพันธ์แบบพหุคูณจะถือว่า "เท่ากัน" - กล่าวคือ เรากำลังพูดถึงเกี่ยวกับอิทธิพลซึ่งกันและกันของ SV ที่มีต่อกัน

นี่ไม่ใช่กรณีเสมอไป - บ่อยครั้งคำถามเกี่ยวกับการเชื่อมต่อ และ เอ็กซ์ถูกวางไว้ในระนาบอื่น - ปริมาณหนึ่งขึ้นอยู่กับ (ฟังก์ชัน) ในอีกระนาบหนึ่ง (อาร์กิวเมนต์)