Docsity
Docsity

Prepare for your exams
Prepare for your exams

Study with the several resources on Docsity


Earn points to download
Earn points to download

Earn points by helping other students or get them with a premium plan


Guidelines and tips
Guidelines and tips

BTL Xác suất thống kê, Study Guides, Projects, Research of Probability and Statistics

Bài tập lớn môn xác suất thống kê của khoa giao thông

Typology: Study Guides, Projects, Research

2022/2023

Uploaded on 03/31/2025

bla-bla-8ut
bla-bla-8ut 🇻🇳

1 document

1 / 43

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
1
ĐẠI HC QUC GIA TP H CHÍ MINH
TRƯỜNG ĐẠI HC BÁCH KHOA
BÀI TP LN
Ch đề: Phân tích tn sut chuyến bay ca các hãng hàng không
Môn: Xác sut thng kê
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b

Partial preview of the text

Download BTL Xác suất thống kê and more Study Guides, Projects, Research Probability and Statistics in PDF only on Docsity!

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

BÀI TẬP LỚN

Chủ đề: Phân tích tần suất chuyến bay của các hãng hàng không

Môn: Xác suất thống kê

MỤC LỤC

LỜI MỞ ĐẦU

Xác suất thống kê là một lĩnh vực quan trọng trong toán học, có ứng dụng rộng rãi trong

nhiều lĩnh vực khác nhau như kinh tế, y học, kỹ thuật và khoa học xã hội. Việc hiểu và áp dụng

các nguyên lý của xác suất thống kê không chỉ giúp chúng ta phân tích và dự đoán các hiện

tượng ngẫu nhiên mà còn hỗ trợ trong việc ra quyết định dựa trên dữ liệu. Chủ đề “Phân tích

tần suất chuyến bay của các hãng hàng không” của nhóm GT04 thực hiện sau đây là một dẫn

chứng cụ thể về việc áp dụng các lý thuyết thống kê vào đời sống. Việc tìm hiểu và nghiên cứu

giải quyết đề tài một phần củng cố kiến thức lý thuyết về các mãng như anova, kiểm định, ước

lượng.... Ngoài ra, giải quyết vấn đề này đã khiến nhóm có góc nhìn khác về môn học, không

khô khan như phần lý thuyết mà chúng mình đã cùng nhau tìm hiểu để áp dụng lý thuyết vào

phân tích một vấn đề thực tế cụ thể là “tần suất chuyến bay”. Thông qua việc áp dụng các

phương pháp thống kê, chúng ta có thể xác định được những yếu tố ảnh hưởng đến tần suất

chuyến bay, từ đó đưa ra các chiến lược kinh doanh hiệu quả hơn. Chẳng hạn, việc phân tích

dữ liệu tần suất chuyến bay có thể giúp các hãng hàng không tối ưu hóa lịch trình bay, cải thiện

dịch vụ khách hàng, và nâng cao hiệu quả vận hành. Hy vọng rằng, nghiên cứu này sẽ mang lại

những kết quả đáng tin cậy và hữu ích, đóng góp vào sự phát triển bền vững của ngành hàng

không.

1. TỔNG QUAN DỮ LIỆU

1. 1 Tổng quan sơ bộ về dữ liệu

Tệp tin ‘ Air_Traffic_Passenger_Statistics.csv ’chứa thông tin về số liệu thống

kê hành khách lưu thông hàng không của hãng hàng không. Bộ dữ liệu bao gồm thông

tin về các hãng hàng không, sân bay và khu vực mà các chuyến bay khởi hành và đến.

Bộ dữ liệu cũng bao gồm thông tin về loại hoạt động, hạng giá, nhà ga, khu vực lên máy

bay và số lượng hành khách.

1.2 Cá c biến chính trong bộ dữ liệu:

Tên biến Mô tả

Activity Period Thời gian hoạt động của các chuyến bay

Operating Airline Hãng hàng không khai thác chuyến bay

Operating Airline IATA

Code

Mã IATA của hãng hàng không khai thác chuyến bay

Published Airline Hãng hàng không đã công bố giá vé cho chuyến bay

Published Airline IATA

Code

Mã IATA của hãng hàng không đã công bố giá vé cho

chuyến bay

GEO Summary Tính chất của chuyến bay (nội địa, quốc tế)

GEO Region Khu vực hoạt động của chuyến bay

Activity Type Code Loại hoạt động

Price Category Code Loại giá của giá vé

Terminal Các sân bay

Boarding Area Khu vực lên máy bay của chuyến bay

Passenger Count Số lượng hành khách trên chuyến bay

Adjusted Activity Type

Code

Loại hoạt động được điều chỉnh cho dữ liệu bị thiếu

Adjusted Passenger Count

Số lượng hành khách trên chuyến bay được điều chỉnh cho dữ

liệu bị thiếu

Year Năm hoạt động của chuyến bay

Month Tháng hoạt động của chuyến bay

Tổng bình phương chênh lệch Bậc tự do

Phương sai

(Trung bình BPCL)

Tiêu chuẩn

kiểm định F

SSB

(SSTr)

k - 1

SSW

(SSE)

N - k

SST N - 1

Miền bác bỏ:

Kết luận

Khi bác bỏ H 0

, yếu tố đang xét xem như có ảnh hưởng đến bnn X .

Hệ số xác đ ịnh:

Hệ số xác định R

2

của mô hình Phân tích phương sai được sử dụng để đo mức độ ảnh

hưởng của yếu tố được xem xét trong mô hình đối với sự biến động của các giá trị của

biến ngẫu nhiên X quanh giá trị trung bình của nó. R

2

càng lớn thì mô hình càng gọi là

thích hợp.

2. 3 Hồi quy tuyến tính

Trong thống kê, “hồi quy tuyến tính” là phương pháp dùng để mô hình hóa và nghiên cứu

mối liên hệ giữa một biến - biến phụ thuộc vào một hoặc nhiều biến khác - biến độc lập.

Hình 1

Định nghĩa : Hàm hồi quy của Y theo X chính là kỳ vọng có điều kiện của Y đối với X

tức là E(Y/X)

Hàm hồi quy tuyến tính đơn có dạng: f y

X

=E

Y/X

=β 0

  • β 1

X

Mô hình hồi quy tuyến tính đơn: Giả định của mô hình hồi quy tuyến tính đơn: Ta có

các tham số β 0

, β 1

và σ

2

sao cho với mỗi giá trị x của biến độc lập, biến Y phụ thuộc vào x theo

phương trình Y = β 0

  • β 1

x + ε

ε: Sai số ngẫu nhiên có phân phối chuẩn N (μ, φ

2

Hệ số tương quan và phương trình hồi quy tuyến tính mẫu:

Hệ số tương quan mẫu:

1

2 2

1 1

( )( )

( ) ( )

n

i i

i

n n

i i

i i

x x y y

r

x x y y

=

= =

− −

=

− −

Mô hình hồi quy tuyến tính bội

Mô hình này được sử dụng khi chúng ta muốn dự đoán một giá trị của một biến phản hồi

dựa trên giá trị của hai hoặc nhiều biến giải thích. Biến phản hồi – biến phụ thuộc là biến mà

chúng ta muốn dự đoạn. Biến giải thích là các biến mà chúng ta sử dụng để dự đoán các giá trị

của biến phản hồi.

Dạng tổng quát của mô hình hồi quy tuyến tính:

1 1 2 2

...

k k

Y =  +  X +  X + +  X + u

Trong đó:

Y: Biến phụ thuộc (Biến phản hồi)

1

X : Biến độc lập

 : Hệ số hồi quy riêng

k

 : Hệ số tự do

Hàm hồi quy tổng thể (PRF- Population Regression Function)

  • Kỳ vọng của các yếu tố ngẫu nhiên 𝑢 𝑖

= 0. Trung bình tổng thể sai số là bằng 0. Điều

này có nghĩa là một số giá trị sai số mang dấu dương và một số giá trị sai số mang dấu

âm. Do hàm xem như là đường trung bình nên có thể giả định rằng các sai số ngẫu

nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể.

  • Các sai số độc lập với nhau.
  • Các sai số có phương sai bằng nhau. Tất cả giá trị u được phân phối giống nhau với

cùng phương sai σ

2

, sao cho

2 2

ar( ) ( )

i i

V u = E u = .

  • Các sai số có phân phối chuẩn. Điều này rất quan trọng khi phát sinh khoảng tin cậy và

thực hiện kiểm định giả thuyết trong những phạm vi mẫu nhỏ. Tuy nhiên đối với các

phạm vi mẫu lớn, việc này không quá quan trọng.

2.4 Ước lượng bằng khoảng tin cậy

Định nghĩa: chính là tìm ra khoảng ước lượng (G 1

; G

2

) cho tham số 𝜃 trong tổng thể sao cho

ứng với độ tin cậy (confidence) bằng 𝛾 cho trước, P (G 1

< 𝜃 < G

2

Ưu điểm:

Phương pháp ước lượng bằng khoảng tin cậy có ưu thế hơn phương pháp ước lượng điểm vì nó

làm tăng độ chính xác của ước lượng và còn đánh giá được mức độ tin cậy của ước lượng.

Khả năng mắc sai lầm của phương pháp là 𝛼 = 1 - 𝛾.

Trong thống kê, người ta dùng ký hiệu 𝛼 để biểu diễn cho giá trị xác suất nhỏ. Vì vậy, kí hiệu

1 - 𝛼 còn được dùng để biểu diễn độ tin cậy của khoảng ước lượng.

Phương pháp tìm kho ảng tin cậy cho tham số 𝜽 với độ tin cậy 𝜶 = 1 - 𝜸 cho trước:

Trước tiên, tìm hàm ước lượng G = f(X 1

, X

2

, .., X

n

, 𝜃) sao cho quy luật phân phối xác suất của

G hoàn toàn xác định, không phụ thuộc vào các đối số.

Chọn cặp số 𝛼

1

2

≥ 0 sao cho 𝛼

1

2

= 𝛼 và tìm G𝛼

1

, G𝛼

2

mà P( G < G𝛼

1

1

& P(G > G𝛼

2

2

; suy ra P(G𝛼

1

< G < G𝛼

2

Biến đổi để tìm được các giá trị G1 , G2 sao cho P(G 1

< 𝜃 < G

2

) = 1 - 𝛼. Khi đó khoảng (G 1

G

2

) chính là một trong các khoảng tin cậy (confidence interval) cần tìm.

Theo nguyên lý xác suất lớn thì với độ tin cậy (1 - 𝛼) đủ lớn, hầu như chắc chắn biến cố (G 1

𝜃 < G

2

) sẽ xảy ra trong một phép thử. Vì vậy trong thực tế chỉ cần thực hiện phép thử để có

được một mẫu cụ thể W = (x 1

, x 2

, .., x n

) rồi tính giá trị của G 1

và G 2

ứng với mẫu đã cho sẽ

cho ta một khoảng ước lượng thỏa yêu cầu.

b) Kiểm định thống kê

Một số khái niệm

Giả thiết không H 0

: (Null Hypothesis) là giả thiết về yếu tố cần kiểm định của tổng thể ở trạng

thái bình thường, không chịu tác động của các hiện tượng liên quan. Yếu tố trong H 0

phải được

xác định cụ thể.

Giả thiết đối H 1

(Alternative Hypothesis) là một mệnh đề mâu thuẫn với H 0

, H

1

thể hiện xu

hướng cần kiểm định.

Tiêu chuẩn kiểm định là hàm thống kê G = G( X 1

,X

2

, ..,X

n

0

), xây dựng trên mẫu ngẫu

nhiên W= ( X 1

, X

2

, .., X

n

) và tham số 𝜃

0

liên quan đến H0 ; Điều kiện đặt ra với thống kê G là

nếu H 0

đúng thì quy luật phân phối xác suất của G phải hoàn toàn xác định.

Miền bác bỏ giả thiết RR = 𝜶. 𝜶

Miền bác bỏ giả thiết RR ( Rejection region) là miền số thực thỏa P(G RR /H0 đúng).

𝛂. 𝛂 là một số khá bé, thường không quá 10% và được gọi là mức ý nghĩa của kiểm định. Một

ký hiệu khác của miền bác bỏ được dùng trong bài: W

α

Miền chấp nhận AR : phần bù của miền bác bỏ trong R.

Quy tắc kiểm định : Từ mẫu thực nghiệm, ta tính được một giá trị cụ thể của tiêu chuẩn kiểm

định, gọi là giá trị kiểm định thống kê:

gqs = G( X 1

,X

2

, ..,X

n

0

Theo nguyên lý xác suất bé, biến cố G ∈ RR có xác suất nhỏ nên với 1 mẫu thực nghiệm

ngẫu nhiên, nó không thể xảy ra.

Kết quả:

3.2 Làm sạch dữ liệu

Lọc dữ liệu theo khu vực Europe.

Code R:

Hàm subset(...): Được sử dụng để tạo một bộ dữ liệu con từ bộ dữ liệu gốc dựa trên điều

kiện đã chỉ định.

Tạo biến Europe_data chỉ chứa các dòng từ dữ liệu Passenger_data mà có giá trị trong

cột “GEO Region" là “Europe”

Kết quả:

Tạo tệp dữ liệu mới chứa các biến quan trọng.

Code R:

Sử dụng gói lệnh tidyverse từ library() để sử dụng hàm select.

Tạo ra biến dữ liệu mới tên là New_Europe_data chứa các biến chính mà đề bài quan tâm

trích từ dữ liệu Europe_data.

Lệnh head(Europe_data) trích phần đầu của biến dữ liệu mới.

  • Không chọn biến GEO.Summary và Terminal bởi vì đó là hàm hằng khi trong dữ liệu

New_Europe_data chỉ có các quan sát là International đối với Europe.

4. THỐNG KÊ MÔ TẢ

4.1 Kiểm tra dữ liệu khuyết

Code R:

is.na(New_Europe_data) : tạo 1 ma trận nhận các giá trị khuyết trong biến

New_Europe_data. Trong đó mỗi phần tử là TRUE nếu tương ứng với phần tử của

New_Europe_data là NA và FALSE nếu không.

2 : cho biết hàm sẽ được áp dụng theo cột.

sum: Hàm mà bạn muốn áp dụng lên mỗi cột của is.na(New_Europe_data). Trong trường

hợp này, sum sẽ tính tổng số lượng giá trị TRUE trong mỗi cột, vì TRUE được coi là 1

và FALSE là 0 khi thực hiện phép cộng.

Kết quả:

Lập bảng thống kê tần số cho các biến trong New_Europe_data.

Code R:

Hàm table() để lập bảng thống kê tần số của các biến “Operating.Airline.IATA.Code”,

“Activity.Type.Code”, “Price.Category.Code”,” Boarding.Area”.

Kết quả:

b) Vẽ đồ thị phân phối số lượng hành khách bằng biểu đồ Histogram

Code R:

Hàm hist() dùng để vẽ biểu đồ histogram, breaks chỉ số lượng cột được chia ra trong

biểu đồ, labels = T (True) để hiển thị số lượng của từng cột tương ứng.

Kết quả:

Hình 2 Đồ thị histogram của số lượng hành khách của Europe.

Nhận xét:

Phân bố không đồng đều: Số lượng hành khách không phân bố đều trên các khoảng giá

trị. Có một số khoảng có tần số rất cao (ví dụ: khoảng 0-20.000 hành khách), trong khi

đó có những khoảng có tần số rất thấp (ví dụ: khoảng 30.000-50.000 hành khách).

Độ lệch phải: Đường cong mật độ xác suất có hình dạng lệch phải, khẳng định lại nhận

xét trước đó về sự lệch phải của dữ liệu. Điều này có nghĩa là phần lớn các chuyến bay

có số lượng hành khách thấp hoặc trung bình, nhưng có một số ít các chuyến bay có số

lượng hành khách rất cao.

  • Đỉnh phân bố: Đỉnh của đường cong mật độ xác suất cho biết khoảng giá trị có xác suất

xảy ra cao nhất, tức là số lượng hành khách phổ biến nhất trên các chuyến bay

c) Vẽ đồ thị phân tán của số lượng hành khách so với các biến phân loại.

Code R:

Hàm par(mfrow=c(1,2)) để tạo một ma trận có 1 hàng 2 cột để biểu diễn 2 biểu đồ phân

tán.

Kết quả:

Hình 4 Biểu đồ phân tán của số lượng hành khách theo từng tháng năm

Nhận xét: từ biểu đồ trên ta thấy hai biến không có tính tuyến tính, số lượng hành khách đều

theo từng tháng, từng năm.

Sự biến động theo tháng:

Biến động lớn: Số lượng hành khách có sự biến động khá lớn theo từng tháng. Điều

này cho thấy có những tháng cao điểm và những tháng thấp điểm trong năm.

Xu hướng không rõ ràng: Từ biểu đồ, không thể xác định rõ một xu hướng tăng hoặc

giảm rõ ràng theo từng tháng.

Sự biến động theo năm:

Xu hướng tăng: Nhìn chung, số lượng hành khách có xu hướng tăng dần qua các năm.

Điều này cho thấy nhu cầu đi lại bằng đường hàng không đang tăng lên.

Biến động theo năm: Tuy nhiên, sự tăng trưởng này không đều đặn, có những năm

tăng trưởng mạnh và những năm tăng trưởng chậm hơn.

d)Vẽ đồ thị plotbox thể hiện số lượng hành khách theo các phân loại

Code R:

Sử dụng hàm plotbox để vẽ biểu đồ hộp biểu diễn số lượng hành khách theo mã IATA của các

chuyến bay.

Kết quả: