Chương 17. Các mô hình hồi quy dữ liệu bảng

Chương 17 Các mô hình hồi quy dữ liệu bảng Domadar N. Gujarati (Econometrics by example, 2011). Người dịch và diễn giải: Phùng Thanh Bình, O.Y.T (16/12/2017) Các mô hình hồi quy đã được thảo luận trong 16 chương trước chủ yếu sử dụng hoặc là dữ liệu chéo hoặc dữ liệu chuỗi thời gian. Mỗi loại dữ liệu này có các đặc điểm riêng của nó. Trong chương này, chúng ta thảo luận các mô hình hồi quy dữ liệu bảng (panel data regression models) nghĩa là, các mô hình nghiên cứu các nhóm thực thể giống nhau (như các cá nhân, các công ty, các bảng, các quốc gia, ) qua thời gian 1. Một vài ví dụ nổi tiếng về các tập dữ liệu bảng: 1. Nghiên cứu dữ liệu bảng về sự thay đổi qua thời gian của thu nhập (PSID): Tập dữ liệu này được thực hiện bởi Viện nghiên cứu xã hội của đại học Michigan. Bắt ñầu vào năm 1968, mỗi năm Viện này thu thập dữ liệu ñối với khoảng 5.000 gia đình về các biến nhân khẩu học và kinh tế xã hội khác nhau. 2. Điều tra thu nhập và sự tham gia chương trình (SIPP): Điều tra này được thực hiện bởi Cục điều tra dân số của Bộ thương mại Mỹ. Những người tham gia trả lời phỏng vấn được phỏng vấn mỗi năm bốn lần về các điều kiện kinh tế của họ. 1 Để biết thêm chi tiết và các ví dụ về các mô hình hồi quy dữ liệu bảng, xem Gujarati/Porter, op cit., Chapter 16. 1

3. Dữ liệu bảng về kinh tế - xã hội của Đức (GESOEP): Bộ dữ liệu này nghiên cứu 1.761 cá nhân mỗi năm giữa năm 1984 và 2002. Thông tin được thu thập bao gồm năm sinh, giới tính, sự thỏa mãn về cuộc sống, tình trạng hôn nhân, thu nhập từ lao động, và số giờ làm việc hàng năm. 4. Khảo sát thanh thiếu niên trên cả nước của Mỹ (NLSY): NLSY, được thực hiện bởi Bộ lao động Mỹ, là một tập hợp các cuộc điều tra được thiết kế nhằm thu thập thông tin tại nhiều thời điểm về các hoạt động của thị trường lao động và các sự kiện có ý nghĩa khác trong cuộc sống của nhiều nhóm nam và nữ. Có nhiều cuộc điều tra như thế được thực hiện bởi các chính phủ và các cơ quan tư nhân ở nhiều nước. 17.1 Tầm quan trọng của dữ liệu bảng Khi thảo luận các ưu điểm của dữ liệu bảng so với dữ liệu chéo thuần túy hoặc dữ liệu chuỗi thời gian thuần túy, Baltagi liệt kê các yếu tố sau đây 2 : 1. Vì dữ liệu bảng liên quan đến các cá nhân, các công ty, các quốc gia, qua thời gian, nên chắc chắn có tính không đồng nhất (heterogeneity) trong các đơn vị này, mà tính không đồng nhất này thường không thể quan sát được. Các kỹ thuật ước lượng dữ liệu bảng có thể tính đến tính không đồng nhất đó một cách rõ ràng bằng cách đưa vào các biến đặc thù theo chủ thể (subject-specific), như chúng ta sắp thấy. Chúng ta sử dụng thuật ngữ chủ thể ở đây có nghĩa chung nhất để bao gồm các đơn vị vi mô như các cá nhân, công ty, hoặc các tiểu bang. 2. Bằng cách kết hợp chuỗi thời gian của các quan sát chéo, dữ liệu bảng cho chúng ta dữ liệu chứa nhiều thông tin hơn, tính biến thiên cao hơn, 2 Badi H. Baltagi, Econometric Analysis of Panel Data, John Wiley & Sons, New York, 1995, pp. 3 6. 2

ít có hiện tượng cộng tuyến giữa các biến hơn, nhiều bậc tự do hơn và hiệu quả cao hơn. 3. Bằng cách nghiên cứu các quan sát lập đi lập lại của các đơn vị chéo, dữ liệu bảng phù hợp hơn cho việc nghiên cứu động thái thay đổi theo thời gian của các đơn vị chéo này. Những tác động của thất nghiệp, tốc độ thay thế việc làm, độ dài của sự thất nghiệp, và tính dịch chuyển của lao động được nghiên cứu tốt hơn với dữ liệu bảng. 4. Dữ liệu bảng có thể phát hiện và đo lường tốt hơn các ảnh hưởng không thể quan sát được trong dữ liệu chuỗi thời gian hay dữ liệu chéo thuần túy. Vì thế ảnh hưởng của các luật về mức lương tối thiểu đối với việc làm và thu nhập có thể được nghiên cứu tốt hơn nếu chúng ta theo dõi các đợt gia tăng liên tiếp trong trong các mức lương tối thiểu của liên bang và/hoặc tiểu bang. 5. Các hiện tượng như lợi thế kinh tế theo quy mô và thay đổi công nghệ có thể được nghiên cứu tốt hơn với dữ liệu bảng so với dữ liệu chéo hay dữ liệu chuỗi thời gian thuần túy. 17.2 Ví dụ minh họa: Đóng góp từ thiện Table 17.1 (có sẵn trên trang web đồng hành cùng cuốc sách) cho chúng ta dữ liệu về làm từ thiện của 47 cá nhân qua giai đoạn 1979 1988 3. Các biến được định nghĩa như sau: Charity: Tổng các đóng góp bằng tiền mặt hoặc các tài sản khác, loại trừ các khoản đóng góp chuyển sang từ các năm trước. Income: Tổng thu nhập đã được điều chỉnh. 3 Các dữ liệu này được thu thập từ Edward W. Frees, Longitudinal and Panel Data Analysis and Application in the Social Sciences, Cambridge University Press, New York, 2004. 3

Price: Một trừ thuế suất thu nhập biên; thuế suất biên được xác định trên thu nhập trước khi đóng góp. Age: Biến giả bằng 1 nếu người đóng thuế trên 64 tuổi, và bằng 0 nhỏ hơn hoặc bằng 64 tuổi. MS: Biến giả bằng 1 nếu người đóng thuế đã lập gia đình, bằng 0 nếu chưa. DEPS: Số người phụ thuộc được yêu cầu hoàn thuế. Dữ liệu này được thu thập từ Bảng hoàn thuế cá nhân của Thống kê Thu nhập năm (SOI) 1979 1988 (Statistics of Income Panel of Individual Tax Returns). Một trong những mục tiêu của nghiên cứu này là để tìm hiểu ảnh hưởng, nếu có, của thuế suất biên lên đóng góp từ thiện. Trước khi chúng ta tiến hành phân tích, có lẽ cần lưu ý rằng dữ liệu bảng trong ví dụ này được gọi là một dữ liệu bảng cân đối (balanced panel) bởi vì số quan sát về khía cạnh thời gian (10) là giống nhau cho mỗi cá nhân. Nếu điều này không đúng, thì đó sẽ là một dữ liệu bảng không cân đối (unbalanced panel). Dữ liệu ở đây cũng được gọi là một dữ liệu bảng ngắn (short panel). Trong một dữ liệu bảng ngắn, số đơn vị chéo N (ở đây là 47) lớn hơn số thời đoạn T (ở đây là 10). Trái lại, trong một dữ liệu bảng dài (long panel), T lớn hơn N. Giả sử chúng ta muốn ước lượng một mô hình về đóng góp từ thiện theo các biến được liệt kê ở trên. Gọi đó là hàm từ thiện (charity function). Chúng ta tiến hành như thế nào? Chúng ta có năm lựa chọn: 1. Chuỗi thời gian riêng lẻ của các hàm từ thiện (individual time series of charity functions): Chúng ta có thể ước lượng bằng OLS 47 hàm từ thiện theo chuỗi thời gian, mỗi hàm cho mỗi cá nhân sử dụng dữ liệu 10 năm. Mặc dù về nguyên tắc chúng ta có thể ước lượng các hàm này, nhưng chúng ta sẽ có rất ít bậc tự do để thực hiện việc phân tích thống kê có ý nghĩa. Điều này là bởi vì chúng ta phải ước lượng tất cả sáu hệ số, năm 4

cho năm biến giải thích và một cho hệ số cắt. Ngoài ra, các hàm từ thiện riêng lẻ này bỏ qua các thông tin về các đóng góp từ thiện riêng lẻ của những các nhân khác bởi vì tất cả họ đều hoạt động trong cùng môi trường pháp lý. 2. Các hàm từ thiện với dữ liệu chéo (cross-sectional charity function): Chúng ta có thể ước lượng bằng OLS 10 hàm từ thiện với dữ liệu chéo, mỗi hàm riêng cho một năm. Sẽ có 47 quan sát một năm để ước lượng các hàm như thế. Nhưng, chúng ta lại bỏ qua khía cạnh thay đổi qua thời gian của đóng góp từ thiện, vì các khoản đóng góp từ thiện của các các nhân qua nhiều năm sẽ phụ thuộc vào các yếu tố như thu nhập và tình trạng hôn nhân. 3. Hàm từ thiện dữ liệu gộp ước lượng bằng OLS (pooled OLS charity function): Chúng ta có thể gộp tất cả 470 quan sát (47 x 10) và ước lượng một hàm từ thiện chung (grand), bỏ qua bản chất kép (dual nature) của dữ liệu chéo và chuỗi thời gian. Nếu ước lượng một mô hình dữ liệu gộp, chúng ta không chỉ bỏ qua bản chất kép này, mà một mô hình dữ liệu gộp như thế giả định rằng các hệ số của hàm từ thiện giữ cố định qua thời gian và giữa các đơn vị chéo. Ước lượng mô hình dữ liệu gộp bằng OLS cũng được biết với tên gọi là mô hình có hệ số cố định (constant coefficient model), vì chúng ta giả định rằng các hệ số qua thời gian và giữa các đơn vị chéo là giống nhau. 4. Mô hình biến giả với các ảnh hưởng cố định theo OLS (fixed effects leastsquares dummy variable - LSDV): Như trong cách thứ 3, chúng ta gộp tất cả 470 quan sát, nhưng cho phép mỗi cá nhân có một biến giả chênh lệch hệ số cắt riêng lẻ (individual intercept dummy). Một biến thể của mô 5

hình này là ước lượng trong nhóm (within estimator), chúng ta sẽ giải thích biến thể này ở phần sau 4. 5. Mô hình các ảnh hưởng ngẫu nhiên (random effects model): Thay vì cho phép mỗi cá nhân có một giá trị hệ số cắt (cố định) riêng như trong LSDV, chúng ta giả định rằng các giá trị hệ số cắt của 47 cá nhân là ngẫu nhiên rút ra từ một tổng thể lớn hơn của nhiều cá nhân. Vì một vấn đề thực tế là, Bảng SOI là một tập con (subset) của tập dữ liệu về mô hình thuế cá nhân IRS (IRS Individual Tax Model File). Bây giờ chúng ta lần lượt thảo luận các cách 3, 4, và 5. 17.3 Hồi quy dữ liệu gộp theo OLS hàm từ thiện Xem xét hàm từ thiện sau đây: Trong đó, C là đóng góp từ thiện. Lưu ý rằng chúng ta để hai ký hiệu dưới ở các biến: i đại diện đơn vị chéo, và t, là thời gian. Chúng ta giả định rằng các biến giải thích là phi ngẫu nhiên (nonstochastic), hoặc nếu ngẫu nhiên, thì không có tương quan với hạng nhiễu. Chúng ta cũng giả định rằng hạng nhiễu thỏa các giả định cổ điển thông thường. Theo tiên nghiệm, chúng ta kỳ vọng các biến tuổi, thu nhập, giá và tình trạng hôn nhân có tác động dương lên đóng góp từ thiện, và số người phụ thuộc có tác động âm. Lý do mà biến giá, như được định nghĩa, được đưa vào mô hình 4 Một biến thể khác là chuyển hóa sai phân bậc một, chúng ta sẽ không thảo luận biến thể này ở đây bởi vì nó có một vài vấn đề về ước lượng nếu chúng ta có nhiều hơn hai giai đoạn. Một thảo luận ngắn gọn về biến thể này, bạn có thể xem Gujarati/Porter, op cit., pp. 601 2. 6

là vì nó đại diện cho chi phí cơ hội của các khoản đóng góp từ thiện suất thuế biên càng cao, thì chi phí cơ hội càng thấp. Sử dụng Eviews 6, chúng ta có được kết quả như trình bày trong Bảng 17.2. Giả định rằng việc gộp dữ liệu là hợp lý (valid) (đây là một giả định quan trọng), các kết quả cho thấy rằng Age, Income, và Price có tác động dương có ý nghĩa lên đóng góp từ thiện, và MS có ảnh hưởng âm nhưng không có ý nghĩa lên đóng góp từ thiện. Thật ngạc nhiên, DEPS có tác động dương và có ý nghĩa lên đóng góp từ thiện. Giá trị Durbin-Watson thấp trong ví dụ hiện tại có thể là một dấu hiệu của lỗi dạng mô hình hơn là do tương quan chuỗi 5. Bảng 17.2: Ước lượng OLS của hàm từ thiện. 5 Eviews tính thống kê Durbin-Watson bằng cách tính tương quan chuỗi bậc một trên tập hợp gộp của phần dư (stacked set of residuals). 7

Khả năng mô hình bị xác định sai xuất phát từ sự thật rằng bằng cách gộp các cá nhân khác nhau ở các thời gian khác nhau lại với nhau, chúng ta ngụy trang (camouflage) tính không đồng nhất (sự riêng lẻ hoặc tính duy nhất) có thể tồn tại giữa 47 cá nhân. Có lẽ tính duy nhất của mỗi cá nhân được xếp gộp trong hạng nhiễu gộp, uit. Vì thế, rất có thể rằng hạng nhiễu có tương quan với một số biến giải thích được đưa vào mô hình. Nếu đúng là như thế, thì các hệ số ước lượng trong Bảng 17.2 có thể bị chệch (biased) cũng như không nhất quán (inconsistent).. use "D:\My Blog\Econometrics by example\table17_1.dta". list in 1/20 8

17.4 Mô hình biến giả có các ảnh hưởng cố định theo OLS Một cách mà chúng ta có thể tính đến tính không đồng nhất có thể tồn tại giữa 47 cá nhân là cho phép mỗi cá nhân có một hệ số cắt riêng, nhưng trong phương trình sau đây: Lưu ý rằng chúng ta đã đưa ký hiệu dưới i vào hệ số cắt để chỉ rằng hệ số cắt của 47 cá nhân có thể khác nhau. Sự khác biệt này có thể do các tính chất đặc biệt của mỗi cá nhân, chẳng hạn như giáo dục hoặc tôn giáo. Phương trình (17.2) được gọi là mô hình hồi quy các ảnh hưởng cố định (FEM fixed effects regression model). Thuật ngữ các ảnh hưởng cố định là vì sự thật rằng mỗi hệ số cắt (của người nộp thuế), mặc dù khác nhau giữa các hệ 9

số cắt của những người nộp thuế khác nhau, nhưng không thay đổi qua thời gian, nghĩa là, không đổi qua thời gian (time - invariant). Nếu chúng ta viết hệ số cắt là B1it, thì hệ số cắt của mỗi người nộp thuế sẽ là thay đổi qua thời gian (time - variant). Nhưng lưu ý rằng trong phương trình (17.2), chúng ta giả định rằng các hệ số cắt là khôn đổi qua thời gian. Nhưng chúng ta triển khai phương trình (17.2) như thế nào? Điều này có thể được thực hiện một cách dễ dàng bằng cách sử dụng các biến giả chênh lệch hệ số cắt (differential intercept dummies), như đã được thảo luận ở chương 3 về các biến giả. Cụ thể, chúng ta điều chỉnh phương trình (17.1) như sau: Trong đó, D2i = 1 cho cá nhân thứ 2, bằng 0 cho những người khác; D3i = 1 cho cá nhân thứ 3, bằng 0 cho những người khác, và vân vân. Điều quan trọng cần lưu ý rằng chúng ta sử dụng 46 biến giả để đại diện cho 47 cá nhân để tránh bẩy biến giả (dummy variable trap) (tức cộng tuyến hoàn hảo). Trong trường hợp này, 46 biến giả sẽ đại diện cho các hệ số biến giả chênh lệch hệ số cắt (differential intercept dummy coefficients), nghĩa là, chúng sẽ cho biết hệ số cắt của cá nhân được gán một biến giả sẽ khác bao nhiêu so với phân loại chuẩn (benchmark category). Chúng ta xem cá nhân thứ nhất như phân loại chuẩn hoặc phân loại tham chiếu (reference category), mặc dù bất kỳ cá nhân nào cũng có thể được chọn để làm phân loại tham chiếu. 10

Bảng 17.3: Hồi quy hàm từ thiện bằng OLS với các hệ số biến giả riêng lẻ. Điều đầu tiên cần lưu ý về kết quả trong Bảng 17.3 là bảng này không đưa ra các giá trị của các hệ số chênh lệch hệ số cắt riêng lẻ, mặc dù chúng được đưa vào tính khi ước lượng mô hình. Tuy nhiên, các hệ số chênh lệch hệ số cắt có thể thu được một cách dễ dàng (xem Bài tập 17.1). Thứ hai, nếu bạn so sánh kết quả hồi quy dữ liệu gộp theo OLS với kết quả FEM, bạn sẽ thấy những khác biệt đáng kể giữa hai kết quả này, không chỉ ở các giá trị của các hệ số, mà còn ở dấu của chúng. Ví dụ, trong hồi quy dữ liệu gộp, hệ số của biến DEPS không chỉ mang dấu dương (trái với kỳ vọng theo tiên nghiệm), mà còn có ý nghĩa cao. Trái lại, hệ số của biến DEPS trong hồi quy FEM có dấu âm, mặc dù không có ý nghĩa thống kê. Tại sao biến về tình trạng hôn nhân có dấu âm? 11

Vì thế, các kết quả này khiến chúng ta hoài nghi về các giá trị ước lượng dữ liệu gộp theo OLS. Nếu bạn phân tích các biến giả chênh lệch hệ số cắt riêng lẻ, bạn sẽ thấy rằng nhiều giá trị trong các hệ số này có ý nghĩa thống kê cao (xem Bài tập 17.1), điều này cho thấy rằng các giá trị ước lượng dữ liệu gộp bằng OLS che đậy tính không đồng nhất giữa 47 người đóng góp từ thiện. Chúng ta có thể đưa ra một kiểm định để xem mô hình các ảnh hưởng cố định có tốt hơn mô hình dữ liệu gộp theo OLS được cho trong Bảng 17.2 hay không. Vì mô hình dữ liệu gộp bỏ qua các ảnh hưởng không đồng nhất mà chúng được đưa vào tính trong mô hình các ảnh hưởng cố định, nên mô hình dữ liệu gộp là một phiên bản bị ràng buộc (restricted version) của mô hình các ảnh hưởng cố định. Vì thế, chúng ta có thể sử dụng kiểm định F bị ràng buộc (restricted F test) mà chúng ta đã thảo luận ở chương 7, đó là: Trong đó, R 2 ur và R 2 r là các hệ số xác định không bị ràng buộc và bị ràng buộc, m là số tham số bị loại bỏ trong mô hình bị ràng buộc (ở đây là 46), n là số quan sát trong mẫu, và k là số tham số được ước lượng trong mô hình không bị ràng buộc (ở đây tổng số là 51). Các giá trị R 2 bị ràng buộc và không bị ràng buộc có được lần lượt từ các Bảng 17.2 và 17.3. Sử dụng các con số thích hợp từ Bảng 17.2 và 17.3, chúng ta thu được giá trị F sau đây: 12

Với 46 bậc tự do trên tử số và 418 bậc tự do ở mẫu số, giá trị F này có ý nghĩa cao, điều này khẳng định rằng mô hình các ảnh hưởng cố định tốt hơn so với mô hình hồi quy dữ liệu gộp. Trước khi đi tiếp, chúng ta cần lưu ý một số tính chất của mô hình các ảnh hưởng cố định như sau. Thứ nhất, mô hình (17.3) được biết với tên gọi là mô hình các ảnh hưởng cố định một chiều (one-way fixed effects model), vì chúng ta cho phép các hệ số cắt khác nhau giữa các đơn vị chéo (47 cá nhân), nhưng không khác nhau qua thời gian. Chúng ta có thể đưa 9 biến giả về thời gian để đại diện cho 10 năm (một lần nữa chỉ là 9 biến để tránh bẩy biến giả) cùng với 46 biến giả cho các đơn vị chéo. Trong trường hợp đó, mô hình được gọi là mô hình các ảnh hưởng cố định hai chiều (two-way fixed effects model). Dĩ nhiên, nếu chúng ta đưa các biến giả thời gian này vào mô hình, thì chúng ta phải ước lượng tất cả là 46 biến giả đơn vị chéo, 9 biến giả thời gian, một hệ số cắt chung (common intercept) và 5 hệ số độ dốc của 5 biến giải thích: tổng số là 61 hệ số. Mặc dù chúng ta có 470 quan sát, nhưng chúng ta sẽ mất đi 61 bậc tự do. Chúng ta đã giả định rằng các hệ số độ dốc của hàm từ thiện giữ nguyên không đổi. Nhưng rất có thể rằng các hệ số độ dốc này có thể khác nhau giữa 47 cá nhân. Để cho phép khả năng này, chúng ta có thể đưa thêm các hệ số chênh lệch hệ số độ dốc (differential slope coefficients), bằng cách nhân 5 hệ số dốc với 46 biến giả chênh lệch hệ số cắt, và như thế chúng ta sẽ mất thêm 230 bậc tự do nữa. Lưu ý rằng nếu chúng ta tương tác 10 biến giả thời gian [tôi nghĩ là 9] với 5 biến giải thích, thì chúng ta sẽ mất thêm 50 bậc tự do khác nữa [nếu 9 thì là 45]. Cuối cùng, chúng ta sẽ còn lại rất ít bậc tự do để thực hiện việc phân tích thống kê có ý nghĩa. 13

Hướng dẫn Stata: Dữ liệu gốc từ Excel có dạng như sau: Chuyển dữ liệu qua Stata: 14

Trước hết cần khai báo đây là dữ liệu bảng: xtset cross time [lưu ý: chéo trước và thời gian sau, đúng như ký hiệu Yit] Sử dụng lệnh xtreg., fe Đây là giá trị của kiểm định F như ở phương trình (17.4) Để biết các hệ số chênh lệch hệ số cắt, chúng ta sử dụng lệnh sau đây: xtreg charity age income price deps ms i.cross 15

17.5 Các hạn chế của mô hình LSDV các ảnh hưởng cố định Mặc dù dễ thực hiện, nhưng mô hình LSDV có các hạn chế sau đây: 1. Mỗi biến giả được đưa thêm vào sẽ tiêu tốn thêm một bậc tự do. Vì thế, nếu mẫu không phải là rất lớn, thì việc đưa quá nhiều biến giả vào mô hình sẽ còn rất ít quan sát để thực hiện phân tích thống kê có ý nghĩa. 2. Có quá nhiều biến giả cộng và nhân [tức biến giả chênh lệch hệ số cắt và chênh lệch hệ số độ dốc] có thể dẫn đến khả năng đa cộng tuyến, điều này làm cho việc ước lượng chính xác một hoặc nhiều hơn một tham số gặp khó khăn. 3. Để có được các giá trị ước lượng với các tính chất thống kê mong muốn, chúng ta cần phải lưu ý cẩn thận hạng nhiễu uit. Các kết quả thống kê được trình bày trong Bảng 17.2 và 17.3 dựa trên giả định rằng hạng nhiễu theo các giả định cổ điển, nghĩa là uit ~ N(0, 2 ). Vì chỉ số i hàm ý quan sát chéo và t quan sát chuỗi thời gian, nên giả định cổ điển về uit có thể phải được hiệu chỉnh. Có một số khả năng như sau: (a) Chúng ta có thể giả định rằng phương sai của hạng nhiễu là giống nhau cho tất cả các đơn vị chéo hoặc chúng ta có thể giả định rằng phương sai của hạng nhiễu là phương sai thay đổi 6. (b) Đối với mỗi chủ thể, chúng ta có thể giả định không có tự tương quan qua thời gian hoặc chúng ta có thể giả định tự tương quan theo cơ chế AR(1). (c) Tại mỗi thời điểm bất kỳ, chúng ta có thể cho phép hạng nhiễu của cá nhân # 1 không tương quan với hạng nhiễu, ví dụ, của cá nhân # 2, hoặc chúng ta có thể giả định có mối tương quan như thế 7. 6 Stata cung cấp các sai số chuẩn điều chỉnh phương sai thay đổi cho các mô hình hồi quy dữ liệu bảng. 7 Đây có thể được thực hiện bằng mô hình hồi quy có tên gọi là SURE dường như không tương quan (seemingly unrelated regression model). Mô hình này được phát triển bởi Arnold Zellner. Một phương pháp hiệu quả để ước lượng các hồi quy SURE và kiểm định về tính chệch do tổng gộp (aggregation bias), có thể tham khảo: Journal of the American Statistical Association, vol. 57, 1962, pp. 348 68. 16

[ Một số vấn đề liên quan đến mô hình LSDV có thể được loại bỏ nếu chúng ta xem xét phương pháp thay thế mà chúng ta thảo luận dưới đây. 17.6 Ước lượng ảnh hưởng cố định trong nhóm (WG) Vì mô hình LSDV có thể liên quan đến việc ước lượng nhiều hệ số, một cách để loại bỏ ảnh hưởng cố định trong B1i trong phương trình (17.2) là thể hiện trong cả biến phụ thuộc và các biến giải thích trong phương trình này dưới dạng các độ lệch so với các giá trị trung bình (nhóm) tương ứng của chúng và chạy hồi quy theo các biến điều chỉnh trung bình (mean-corrected variables). Để biết điều này được thực hiện thế nào, hãy bắt đầu với phương trình (17.2): Lấy tổng phương trình này cả hai vế và chia cho T (= 10), chúng ta có: Vì các tham số không thay đổi qua thời gian, nên phương trình này giảm xuống thành phương trình sau đây: Trong đó, dấu ngang trên đầu mỗi biến đại diện cho giá trị trung bình của nó qua 10 năm. Đối với ví dụ của chúng ta, chúng ta sẽ có 47 giá trị trung bình cho mỗi biến, mỗi giá trị trung bình được tính trong một giai đoạn 10 năm. Lấy (17.2) trừ (17.5), chúng ta có: 17

Xem hệ số cắt về ảnh hưởng cố định hoặc ảnh hưởng riêng lẻ B1i được loại bỏ như thế nào. Như bạn có thể thấy từ phương trình (17.6), về cơ bản chúng ta đang chạy hồi quy các biến phụ thuộc được điều chỉnh trung bình theo các biến giải thích được điều chỉnh trung bình. Vì giá trị trung bình của các biến được điều chỉnh trung bình bằng 0, nên không có hệ số cắt trong phương trình (17.6). Các ước lượng OLS thu được từ phương trình (17.6) được gọi là các ước lượng trong nhóm (within group estimators, WG), bởi vì chúng ta sử dụng biến thiên (theo thời gian) trong mỗi đơn vị chéo. So với các ước lượng với dữ liệu gộp được trình bày trong Bảng 17.2, thì các ước lượng WG cho chúng ta các ước lượng nhất quán (consistent estimators) của các hệ số dốc, mặc dù chúng không hiệu quả (tức là, chúng có các phương sai lớn hơn) 8. Một điều thú vị là các ước lượng thu được từ phương pháp LSDV và phương pháp trong nhóm là giống nhau, bởi vì về mặt toán học thì hai mô hình là giống nhau. Điều này có thể trong Bảng 17.4 sau đây (kết quả thu được từ Stata 10). Mặc dù kinh tế hơn (tức là tiết kiệm được số bậc tự do), nhưng một hạn chế của ước lượng trong nhóm là khi loại bỏ các ảnh hưởng cố định hoặc ảnh hưởng cá nhân riêng lẻ (tức là B1i), thì nó cũng loại bỏ ảnh hưởng của các biến giải thích không đổi theo thời gian (time-invariant regressors) có thể hiện diện trong mô hình. Ví dụ, trong một hồi quy dữ liệu bảng về tiền lương theo kinh nghiệm làm 8 Điều này là bởi vì khi chúng ta thể hiện các biến dưới dạng độ lệch so với các giá trị trung bình, thì biến thiên trong các giá trị được điều chỉnh trung bình sẽ nhỏ hơn nhiều so với biến thiên trong các giá trị gốc của các biến. Trong trường hợp đó, biến thiên của hạng nhiễu uit có thể lớn một cách tương đối, vì thế dẫn đến các sai số chuẩn lớn hơn của các hệ số ước lượng. 18

việc, tuổi, giới tính, giáo dục, chủng tộc, và vân vân, thì ảnh hưởng của giới tính và chủng tộc sẽ không thay đổi đối với một cá nhân qua thời gian. Vì thế, chúng ta sẽ không thể đánh giá tác động của các biến không thay đổi theo thời gian lên tiền lương. Bảng 17.4: Các ước lượng trong nhóm của hàm từ thiện 9. Trước khi đi tiếp, chúng ta trình bày các sai số chuẩn cải thiện (robust standard errors) của mô hình FEM (Bảng 17.5), sử dụng thủ tục của White, mà chúng ta đã thảo luận ở các chương trước. Nếu bạn so sánh các kết quả này với các kết quả được trình bày trong Bảng 17.3, thì bạn sẽ thấy rằng các sai số chuẩn trong Bảng 17.3 bị ước lượng thấp một cách đáng kể. 9 Lý do của điều này là rằng giá trị ước lượng của phương sai hạng nhiễu thông thường σ 2 = RSS/(NT 2) phải được điều chỉnh thành σ 2 = RSS/(NT N 2) bởi vì chúng ta phải ước lượng N giá trị trung bình khi tính các trung bình nhóm. Tuy nhiên, các phần mềm thống kê chuẩn đều có tính đến vấn đề này. 19

Bảng 17.5: Mô hình ảnh hưởng cố định với các sai số chuẩn cải thiện. 17.7 Mô hình các ảnh hưởng ngẫu nhiên (REM) hoặc mô hình các thành phần sai số (ECM) Trong mô hình các ảnh hưởng cố định, chúng ta giả định rằng hệ số đặc thù cá nhân B1i là cố định cho mỗi chủ thể, nghĩa là, nó không đổi qua thời gian. Trong mô hình các ảnh hưởng ngẫu nhiên (random effects model), chúng ta giả định rằng B1i là một biến ngẫu nhiên với trung bình là B1 (ở đây không có ký hiệu dưới i) và hệ số cắt của bất kỳ đơn vị chéo nào được thể hiện như sau: Trong đó, i là hạng nhiễu ngẫu nhiên với trung bình là 0 và phương sai là 2. Với ví dụ minh họa của chúng ta, điều này có nghĩa rằng 47 cá nhân trong mẫu được rút ngẫu nhiên từ một tổng thể lớn hơn nhiều về những cá nhân như thế 20

và rằng họ có một giá trị trung bình chung đối với hệ số cắt (= B1). Những khác biệt trong giá trị riêng lẻ của hệ số cắt của mỗi cá nhân đóng góp từ thiện được phản ánh trong hạng nhiễu i. Vì thế, chúng ta có thể viết hàm từ thiện (17.1) như sau: Trong đó, Hạng nhiễu gộp (composite error term) wit có hai thành phần: i là thành phần nhiễu đặc thù của cá nhân hoặc của đơn vị chéo, và uit là thành phần nhiễu kết hợp (combined) giữa đơn vị chéo và chuỗi thời gian 10. Bây giờ bạn có thể thấy tại sao mô hình REM cũng được gọi là mô hình thành phần sai số (error components model, ECM): hạng nhiễu gộp bao gồm hai (hoặc nhiều hơn) thành phần nhiễu 11. Các giả định của ECM như sau: 10 uit đôi khi gọi là hạng nhiễu đặc trưng (idiosyncratic term) bởi vì nó thay đổi qua đơn vị chéo (tức cá nhân) cũng như qua thời gian. 11 Nếu chúng ta đưa các biến giả thời gian vào mô hình, thì sẽ có các thành phần nhiễu đặc thù theo thời gian (time-specific error components) [xem Bài tập 17.2.] 21

Nghĩa là, các thành phần nhiễu cá nhân không tương quan với nhau và không tương quan với cả các đơn vị chéo và thời gian. Điều cũng rất quan trọng cần lưu ý rằng wit không tương quan với bất kỳ biến giải thích nào được đưa vào mô hình. Vì i là một phần của wit, nên có thể rằng wit có tương quan với một hoặc nhiều biến giải thích. Nếu điều này xảy ra, mô hình REM sẽ dẫn đến ước lượng không nhất quán về các hệ số hồi quy. Kiểm định Hausman, sẽ được giải thích sau đây, sẽ cho thấy trong một ứng dụng nhất định liệu wit có tương quan với các biến giải thích hay không nghĩa là, liệu REM có phải là mô hình phù hợp. Vì các giả định trong phương trình (17.10), dẫn đến: 2 Bây giờ, nếu σ ε = 0, thì không có khác biệt giữa phương trình (17.1) và (17.8), trong trường hợp đó, chúng ta đơn giản có thể gộp tất cả các quan sát lại và chạy hồi quy với dữ liệu gộp, như trong Bảng 17.2. Điều này là bởi vì trong trường hợp này, hoặc là không có các ảnh hưởng đặc thù của chủ thể (subjectspecific effects) hoặc chúng đã được bao hàm trong các biến giải thích. Mặc dù phương trình (17.12) cho thấy rằng hạng nhiễu gộp có phương sai không đổi, nhưng nó có thể được thấy rằng wit và wis (t s) tương quan với nhau nghĩa là, các hạng nhiễu của một đơn vị chéo nhất định tại hai thời điểm khác nhau có tương quan với nhau. Hệ số tương quan giữa hai hạng nhiễu này có thể được thể hiện như sau: 22

Hai điểm về hệ số tương quan này cần được lưu ý. Thứ nhất, đối với bất kỳ đơn vị chéo nào, là giống nhau cho dù hai thời điểm cách nhau bao xa; và thứ hai, là giống nhau cho tất cả các đơn vị chéo. Bảng 17.6: Mô hình các ảnh hưởng ngẫu nhiên của hàm từ thiện với sai số chuẩn nhiễu trắng. Nếu chúng ta không tính đến, thì các ước lượng OLS của mô hình các ảnh hưởng ngẫu nhiên là không hiệu quả. Vì thế, chúng ta sẽ phải sử dụng phương pháp bình phương bé nhất tổng quát (GLS) để có được các giá trị ước lượng 23

hiệu quả. Các phần mềm như Stata có thể tính các sai số chuẩn điều chỉnh dữ liệu bảng hoặc các sai số chuẩn cải thiện (robust or panel-corrected standard errors). Trước khi chúng ta trình bày các kết quả của mô hình REM cho ví dụ về từ thiện, có thể cần chỉ ra rằng trái với mô hình các ảnh hưởng cố định (biến giả, trong nhóm, hoặc phiên bản sai phân), trong mô hình REM chúng ta có thể đưa vào các biến không đổi qua thời gian như giới tính, vị trí địa lý hoặc tôn giáo. Chúng không bị loại bỏ (get washed out) trong mô hình REM. Trở lại với vì dụ minh họa của chúng ta, chúng ta thu được kết quả mô hình REM trong Bảng 17.6. Như trong mô hình FEM, các hệ số ước lượng có dấu đúng như kỳ vọng, mặc dù từng biến DEPS và MS không có ý nghĩa thống kê. Từ hộp xác định các ảnh 2 hưởng (effects specification box), chúng ta thấy rằng σ u = (0.9309) 2 = 0.8665 2 và σ = (0.6771) 2 = 0.4584. Từ phương trình (17.13), chúng ta có = 0.4584/1.3893 = 0.3299, đó là mức độ tương quan của đơn vị chéo tại hai thời điểm khác nhau, và hệ số tương quan này là giống nhau cho tất cả các đơn vị chéo. Giá trị hơi khác so so với bạn thấy trong Bảng 17.6 do làm tròn số. Hướng dẫn Stata: xtset cross time xtreg charity age income price deps ms, re robust Hausman test: xtreg charity age income price deps ms, fe estimates store fem xtreg charity age income price deps ms, re estimates store rem hausman fem rem, sigmamore 24

17.8 Mô hình ảnh hưởng cố định và mô hình ảnh hưởng ngẫu nhiên So sánh các ước lượng ảnh hưởng cố định được trình bày trong Bảng 17.3 và các ước lượng được trình bày trong Bảng 17.6, bạn sẽ thấy các khác biệt đáng kể giữa chúng. Vậy mô hình nào tốt hơn trong ví dụ hiện tại: các ảnh hưởng cố định hay các ảnh hưởng ngẫu nhiên? Trả lời câu hỏi này phụ thuộc vào giả định chúng ta đặt ra về tương quan có thể có giữa thành phần nhiễu đặc thù của đơn vị chéo i và các biến X. Nếu giả định rằng i và các biến giải thích không tương quan, thì mô hình REM có thể là mô hình phù hợp, nhưng nếu chúng tương quan, thì mô hình FEM có thể là mô hình phù hợp. Trong trường hợp trước, chúng ta cũng phải ước lượng ít tham số hơn. Vì thế chúng ta quyết định như thế nào trong một tình huống nhất định mô hình nào phù hợp? 25

Một kiểm định được đưa ra bởi Hausman, kiểm định này được tích hợp trong các phần mềm như Stata và Eviews, có thể được sử dụng để trả lời câu hỏi này. Giả thuyết H0 dưới kiểm định Hausman là mô hình FEM và mô hình REM không khác nhau đáng kể. Thống kê của kiểm định này có phân phối 2 tiệm cận (tức mẫu lớn) với số bậc tự do df bằng số biến giải thích trong mô hình. Như thường lệ, nếu giá trị Chi bình phương tính toán lớn hơn giá trị Chi bình phương phê phán ở bậc tự do df nhất định và một mức ý nghĩa cho trước, thì chúng ta kết luận rằng mô hình REM là không phù hợp bởi vì các hạng nhiễu ngẫu nhiên i có thể tương quan với một hoặc nhiều biến giải thích. Trong trường hợp này, mô hình FEM tốt hơn mô hình REM. Bảng 17.7: Kết quả kiểm định hausman. Đối với ví dụ của chúng ta, kết quả kiểm định hausman được trình bày trong Bảng 17.7. Kiểm định Hausman bác bỏ mạnh mô hình REM, vì giá trị xác suất p của thống kê Chi bình phương ước lượng rất thấp. Phần dưới của bảng này 26

so sánh hệ số của ảnh hưởng cố định và ảnh hưởng ngẫu nhiên của mỗi biến. Như cột cuối xác suất (cột cuối) của bảng này cho thấy, các khác biệt trong các hệ số của Age và DEPS là có ý nghĩa thống kê cao. Về cơ bản, kiểm định Hausman xem xét (bre bfe) 2, nghĩa là, chênh lệch bình phương giữa các hệ số hồi quy được ước lượng từ các mô hình REM và FEM. Vì mô hình REM dường như không phù hợp trong ví dụ hiện tại, nên chúng ta có thể quay trở lại mô hình FEM. Một cách khác để tiếp tục với mô hình REM nhưng sử dụng các biến công cụ (IV) cho ảnh hưởng riêng lẻ có thể tương quan với các biến giải thích khác trong mô hình. Nhưng sử dụng biến công cụ với dữ liệu bảng là một chủ đề phức tạp và chúng ta sẽ không theo đuổi nó trong cuốn sách này, mặc dù chúng ta sẽ thảo luận chi tiết về phương pháp IV ở chương 19. Tuy nhiên, cần lưu ý rằng ước lượng Hausman Taylor và ước lượng Arellano Bond sử dụng các biến công cụ để ước lượng các mô hình REM. Để tìm hiểu thảo luận tương đối dễ hiểu về các ước lượng này, bạn có thể xem các tài liệu tham khảo 12. Vài hướng dẫn về REM và FEM Đây là vài hướng dẫn chung về mô hình nào trong hai mô hình có thể phù hợp trong các ứng dụng thực tế 13 : 1. Nếu T (số quan sát theo thời gian) là lớn và N (số đơn vị chéo) là nhỏ, thì khả năng là không có sự khác biệt trong các giá trị của các tham số được ước lượng bởi FEM và REM. Như thế, sự lựa chọn phụ thuộc vào sự tiện lợi trong tính toán, có thể FEM được ưa thích hơn. 2. Trong dữ liệu bảng ngắn (N lớn và T nhỏ), thì các giá trị ước lượng thu được từ hai mô hình có thể khác nhau đáng kể. Nhớ rằng trong REM B1i 12 Xem Gary Koop, Introduction to Econometrics, John Wiley & Sons, Chichester, England, 2008, pp. 267-8. Về thảo luận nâng cao, xem Cameron/Trivedi op cit., pp. 765-6. 13 Xem G. G. Judge, R. C. Hill, W. E. Griffiths, H. Lukepohl and T. C. Lee, Introduction to the Theory and Practice of Econometrics, 2 nd edn, John Wiley & Sons, New York, 1985, pp. 489-91. 27

= B1 + i, trong đó i là thành phần ngẫu nhiên của đơn vị chéo, trong khi đó trong FEM thì B1i được xem như cố định. Trong trường hợp sau, suy diễn thống kê phụ thuộc vào các đơn vị chéo được quan sát trong mẫu. Điều nàu có hiệu lực (valid) nếu chúng ta hoàn toàn tin tưởng rằng các đơn vị chéo trong mẫu không được rút ngẫu nhiên từ một tổng thể lớn hơn. Trong trường hợp đó, FEM là mô hình thích hợp. Nếu điều này không xảy ra, thì REM là mô hình thích hợp bởi vì trong trường hợp đó suy diễn thống kê là không có điều kiện. 3. Nếu N lớn và T nhỏ, và nếu các giả định theo mô hình REM thỏa mãn, các ước lượng REM hiệu quả hơn so với FEM. 4. Không giống như FEM, REM có thể ước lượng các hệ số của các biến không đổi theo thời gian, chẳng hạn như giới tính và dân tộc. FEM kiểm soát được các biến không đổi theo thời gian như thế, nhưng nó không thể ước lượng chúng một cách trực tiếp, như bạn thấy rõ từ các mô hình ước lượng LSDV và WG. Trái lại, FEM kiểm soát được tất cả các biến không đổi theo thời gian, trong khi đó REM có thể chỉ ước lượng các biến không đổi theo thời gian đó được đưa vào trong mô hình. 17.9 Các tính chất của các ước lượng khác nhau 14 Trong chương này, chúng ta đã thảo luận một số phương pháp ước lượng các mô hình dữ liệu bảng (dạng tuyến tính), chẳng hạn như các ước lượng gộp, các ước lượng ảnh hưởng cố định (cả LSDV và ước lượng trong nhóm), và ảnh hưởng ngẫu nhiên. Các tính chất thống kê của chúng là gì? Chúng ta sẽ tập trung vào tính chất nhất quán (consistency property), vì dữ liệu bảng thường liên quan đến số lớn các quan sát. Các ước lượng gộp (pooled estimators): Nếu các hệ số dốc cố định qua các chủ thể, và nếu hạng nhiễu trong phương trình (17.1) không tương quan với các 14 Theo luận sau đây dựa trên Cameron/Trivedi, op cit., Chapter 21. 28

biến giải thích, thì các ước lượng gộp là nhất quán. Tuy nhiên, rất có thể rằng các hạng nhiễu có tương quan qua thời gian đối với một chủ thể nhất định. Vì thế, chúng ta phải sử dụng sai số chuẩn hiệu chỉnh của dữ liệu bảng (panelcorrected standard errors) để kiểm định giả thuyết. Nếu không, các sai số chuẩn tính toán theo cách thông thường có thể bị ước lượng thấp. Có thể nói thêm rằng nếu mô hình các ảnh hưởng cố định là phù hợp, nhưng chúng ta sử dụng mô hình dữ liệu gộp, thì các hệ số ước lượng sẽ không nhất quán, như chúng ta đã thấy trong ví dụ về hàm từ thiện. Các ướng lượng ảnh hưởng cố định (fixed effects estimators): Thậm chí nếu mô hình cơ bản là mô hình dữ liệu gộp hay ảnh hưởng ngẫu nhiên, thì các ước lượng ảnh hưởng cố định vẫn luôn nhất quán. Các ước lượng ảnh hưởng ngẫu nhiên (random effects estimators): Mô hình các ảnh hưởng ngẫu nhiên nhất quán thậm chí nếu mô hình đúng (true model) là mô hình dữ liệu gộp. Nhưng nếu mô hình đúng là mô hình ảnh hưởng cố định, thì các ước lượng ảnh hưởng ngẫu nhiên không nhất quán. 17.10 Các hồi quy dữ liệu bảng: Một số nhận xét sau cùng Như đã lưu ý ở lúc đầu, chủ đề mô hình dữ liệu bảng là khá rộng và phức tạp. Chúng ta chỉ mới thảo luận qua loa ở bề mặt của chủ đề này. Trong nhiều chủ đề mà chúng ta chưa thảo luận kỹ, có thể được đề cập sau đây: 1. Kiểm định giả thuyết với dữ liệu bảng. 2. Phương sai thay đổi và tự tương quan trong mô hình ECM. 3. Dữ liệu bảng không cân xứng. 4. Các mô hình dữ liệu bảng thay đổi theo thời gian (dynamic panel data models) trong đó các giá trị trễ của biến phụ thuộc xuất hiện như một biến giải thích. 5. Các phương trình đồng thời sử dụng dữ liệu bảng. 29

6. Các biến phụ thuộc định tính và dữ liệu bảng. 7. Nghiệm đơn vị trong dữ liệu bảng (về nghiệm đơn vị, xem chương 13). Một hoặc nhiều chủ đề này có thể được tìm thấy trong các tài liệu tham khảo đã được trích trong chương này, và bạn đọc nên tham khảo để học thêm về chủ đề này. Các tài liệu tham khảo cũng có rút trích nhiều nghiên cứu thực nghiệm trong nhiều lĩnh vực kinh doanh và kinh tế khác nhau có sử dụng các mô hình hồi quy dữ liệu bảng. Người bắt đầu cũng được khuyên đọc một số các ứng dụng này để có một cảm nhận về cách mà các người làm nghiên cứu thực sự thực hiện các mô hình này như thế nào 15. 17.11 Tóm tắt và kết luận Các mô hình hồi quy dữ liệu bảng được dựa trên dữ liệu bảng, đó là các quan sát cùng các đơn vị chéo hoặc cá nhân, qua nhiều giai đoạn thời gian. Dữ liệu bảng có nhiều ưu điểm hơn dữ liệu chéo hoặc dữ liệu chuỗi thời gian thuần túy. Các ưu điểm này bao gồm: (a) tăng cỡ mẫu, (b) nghiên cứu những thay đổi trạng thái động của các đơn vị chéo qua thời gian, và (c) nghiên cứu các mô hình hành vi phức tạp hơn, kể cả nghiên cứu các biến không đổi qua thời gian. Tuy nhiên, các mô hình dữ liệu bảng cũng có nhiều vấn đề về ước lượng và suy diễn, chẳng hạn như phương sai thay đổi, tự tương quan, và tương quan chéo (cross-correlation) trong các đơn vị chéo tại cùng thời điểm. Hai phương pháp được sử dụng nổi bậc nhất để giải quyết một hoặc nhiều vấn đề này là mô hình các ảnh hưởng cố định (FEM) và mô hình các ảnh hưởng ngẫu nhiên (REM), mô hình REM cũng được biết với tên gọi là mô hình các thành phần nhiễu (ECM). 15 Để biết thêm chi tiết và các áp dụng cụ thể, xem Paul D. Allison, Fixed Effects Regression Methods for Longitudinal Data, Using SAS. SAS Institute, Cary, North Carolina, 2005. 30

Trong FEM, hệ số cắt trong mô hình hồi quy được phép khác nhau giữa các cá nhân để phản ánh tính chất duy nhất của các đơn vị riêng lẻ. Điều này được thực hiện bằng cách sử dụng các biến giả, với điều kiện chúng ta phải lưu ý về bẩy biến giả. FEM sử dụng các biến giả được gọi là mô hình biến giả theo bình phương bé nhất (LSDV). FEM thích hợp trong nhiều trường hợp ở đó hệ số cắt đặc thù cá nhân có thể tương quan với một hoặc nhiều biến giải thích. Một nhược điểm của LSDV là nó tiêu tốn quá nhiều bậc tự do khi N (số đơn vị chéo) rất lớn. Một phương pháp khác với LSDV là sử dụng ước lượng trong nhóm (WG). Ở đây, chúng ta lấy các giá trị riêng lẻ của biến phụ thuộc và biến giải thích trừ cho các giá trị trung bình (của nhóm) và chạy hồi quy với các biến điều chỉnh trung bình. Mặc dù nó kinh tế hơn về mặt tiết kiệm được bậc tự do, nhưng các biến điều chỉnh trung bình loại bỏ các biến không đổi theo thời gian (chẳng hạn như giới tính và chủng tộc) ra khỏi mô hình. Một phương pháp khác với FEM là REM. Trong mô hình REM, chúng ta giả định rằng giá trị hệ số cắt của một đơn vị chéo là ngẫu nhiên được rút từ một tổng thể lớn hơn nhiều với một giá trị trung bình không đổi. Hệ số cắt riêng lẻ sau đó được thể hiện như một độ lệch so với giá trị trung bình không đổi. REM kinh tế hơn FEM về mặt số tham số ước lượng. REM thích hợp trong các trường hợp ở đó hệ số cắt (ngẫu nhiên) của mỗi đơn vị chéo không có tương quan với các biến giải thích. Một ưu điểm khác của REM là chúng ta có thể đưa các biến giải thích không đổi theo thời gian vào mô hình. Điều này không thể áp dụng trong FEM bởi vì tất cả các biến như thế có cộng tuyến với hệ số cắt đặc thù của chủ thể (subject-specific intercept). 31

Kiểm định Hausman có thể được sử dụng để quyết định chọn lựa giữa FEM và REM. Một số vấn đề cụ thể với mô hình dữ liệu bảng cần phải ghi nhớ. Vấn đề nghiêm trọng nhất là vấn đề hao mòn (attrition), cho dù lý do này hay lý do khác, các thành viên của bảng rơi rụng qua thời gian nên các cuộc điều tra tiếp theo (tức là các quan sát chéo) có ít dần các chủ thể ban đầu được giữ nguyên trong bảng. Cũng thế, các chủ thể qua thời gian có thể từ chối hoặc không sẵn sang trả lời một số câu hỏi./. 32