Tải bản đầy đủ
6 Quy trình trích lọc dữ liệu

6 Quy trình trích lọc dữ liệu

Tải bản đầy đủ

19

Bảng 1.3 Thông tin nguồn dữ liệu đƣợc trích lọc
Nguồn

Tên biến

Tên

Ýnghĩa

trƣờng
Muc1A.dta

m1ac5

age

Tuổi

Mục 2A.dta

m1ac6

married

Tình trạng hôn nhân

Mục 4A.dta

m ac2a

uppuni

Trình độ trên đại học

m2ac2a

coluni

Trình độ cao đẳng, đại học

m2ac2a

highsch

Trình độ dƣới THPT

m2ac2b

cer

Có bằng dạy nghề

Ttnt

e

Thành thị

m4ac1b

urban

Nông nghiệp

m4ac8a

agrieco

Khu vực kinh tế nhà nƣớc

m4ac8b

pubsec

Khu vực kinh tế có vốn ĐTNN

m2ac2b

forsec

Ld chuyên môn kỹ thuật bậc trung, cao

m2ac2b

highski

Lao động chuyên môn kỹ thuật thấp

m1ac2

lowskil

Giới tính

tinh

gender

Vùng địa lý

tinh

region

Thành phố lớn

m4atn/12/

bigcity

Thu nhập bq giờ

m4ac6/

hincome

ho11muc4a1

ficat

m4ac7
Nguồn: Bộ dữ liệu VHLSS2010

20

1.6.3.

Tinh lọc dữ liệu

1.6.3.1 Thiếu hoặc lỗi dữ liệu
Sai sót hoặc thiếu dữ liệu trong các quan sát hộ gia đình là vấn đề thƣờng gặp
trong các nghiên cứu thực nghiệm. Các vấn đề thƣờng gặp trong nghiên cứu này là
dữ liệu trống hoặc lỗi.Có nhiều phƣơng pháp để giải quyết vấn đề này nhƣ phƣơng
pháp thay thế giá trị trung bình, phƣơng pháp nội suy, và phƣơng pháp ngoại suy.
Để khắc phục các vấn đề trên, trong nghiên cứu này các quan sát bị thiếu hoặc lỗi
đƣợc bỏ qua.
1.6.3.2 Qui trình tích lọc số
Bƣớc 1: Mô tả biến. Từ các biến trong mô hình, đọc các bảng hỏi trong
VHLSS2010 từ đó mô tả các biến (tên tập dữ liệu (dataset) sử dụng, tên biến trong
bộ dữ liệu, xây dựng biến trong mô hình).
Bƣớc 2: Nối (merge) các dataset có chứa các biến trong bộ dữ liệu thành một
tập dữ liệuchung. Điều này đƣợc thực hiện bằng lệnh merge. Nguyên tắc merge là
tạo một biến chung đặc trƣng cho từng cá nhân (không có sự trùng lắp ở các giá trị
của biến) ở tất cả các dataset.
Bƣớc 3: Tính toán các giá trị biến nếu có, chẳng hạn số năm kinh nghiệm
(yearexp), số năm đi học (yearsch), số năm kinh nghiệm bình phƣơng (yearexp2),
lhincome...
Bƣớc 4: Giữ lại các biến trong mô hình bằng lệnh keep.
1.6.4.

Cách thức ước lượng

Hàm thu nhập Mincer đƣợc hồi quy bằng phƣơng pháp hồi quy bình phƣơng
tối thiểu thông thƣờng (OLS) với biến phụ thuộc là logarithmh tự nhiên của hàm thu
nhập bằng câu lệnh regress trong phần mềm Stata. Hiện tƣợng phƣơng sai thay đổi
đƣợc khắc phục bằng kỹ thuật Robust. Đồng thời, hiện tƣợng tự tƣơng quan giữa

21

các biến đƣợc kiểm định bằng ma trận hiệp phƣơng sai giữa các biến độc lập.(xem
chi tiết ở phụ lục1 ma trận hiệp phƣơng sai giữa các biến độc lập)
1.6.5.

Trình tự thực hiện

Quy trình phân tích của đề tài đƣợc thực hiện theo 3 bƣớc đƣợc thể hiện trong
hình 2.3 nhƣ sau:

Bƣớc 1
Trích và tích lọc số liệu
từ phần mềm thống kê
Stata
- Chọn nhóm biến phù
hợp mục tiêu nghiên
cứu của đề tài.
- Xử lý các biến bị lỗi
hoặc trống trong bộ dữ
liệu VHLSS 2010.
Hoàn thiện bộ số liệu
trích n = 10.070 sử dụng
trong nghiên cứu.

Bƣớc 2

Phân tích mô tả các yếu
tố ảnh hƣởng đến bất
bình đẳng giới trong thu
nhập
- Sử dụng phân tích
thống kê mô tả, bảng số
liệu chéo và kiểm định
sự khác biệt giữa các trị
số trung bình (t-test)
- Thiết lập các công
thức tính toán, các chỉ
số sử dụng trong đề tài.

Bƣớc 3
Phân tích kết quả mô hình.
- Hồi quy hàm thu nhập
Mincer cho cả nam và nữ,
của lao động nam, lao
động nữ.
- Phân tích các hệ số hồi
quy và kiểm định mức độ
phù hợp và ý nghĩa của
mô hình.
- Sử dụng kết quả hồi quy
hàm Mincer tiến hành
phân tích mức độ chênh
lệch trong thu nhập bằng
phƣơng pháp Oaxaca

Sơ đồ 1.2 Quy trình phân tích của đề tài
1.7 Một số kết quả chính của các nghiên cứu đã thực hiện
Các nghiên cứu gần đây cho thấy việc sử dụng các dữ liệu khảo sát mức sống
dân cƣ phù hợp với mô hình Mincer và phƣơng pháp phân tách tiền lƣơng đều cho
khả năng giải thích cao. Đồng thời sử dụng mô hình hàm hồi quy Mincer mở rộng
không có sự khác biệt lớn với mô hình Mincer ban đầu.

22

Bảng 1.4 Tổng hợp kết quả một số nghiên cứu chính
Tác giả

Phƣơng pháp nghiên

Kết quả

cứu
Amy Y.C.Liu, 2004

Trong

nghiên

cứu

về Nghiên cứu này phát hiện

khoảng cách thu nhập rằng, khoảng cách tiền
theo giới ở Việt Nam giai lƣơng mặc dù thu hẹp dần
đoạn 1993 -1998, Liu đã nhƣng phân biệt đối xử
sử dụng mô hình của Juhn vẫn là nguyên nhân chính
(1991) phát triển từ mô làm gia tăng khoảng cách
hình của Oaxaca và sử tiền lƣơng giữa nam và
dụng số liệu VLSS năm nữ.
1992 - 1993 và 1997 1998 để xem xét sự ảnh
hƣởng của các yếu tố nhƣ:
kinh nghiệm, nhóm ngành
nghề, di cƣ, tình trạng hôn
nhân, yếu tố khu vực...
đến biến độc lập là log
của t lệ thu nhập.
Yolanda Pena-Boquete và
cộng sự (2007)

Sử

dụng

phƣơng

pháp

Nghiên cứu cho thấy,thu

Oaxaca để tính toán và đƣa

nhập của lao động nữ ở Ý

ra kết quả về bất bình đẳng

bằng 93,9% thu nhập của

giới trong thu nhập của Ý và

nam, phần trăm khoảng

Tây Ban Nha năm 2007

cách lƣơng do khác biệt các
đặc tính năng suất của
ngƣời lao động là -57,90%
và do sự phân biệt đối xử
là 157,9%.