Làm thế nào để khai thác dữ liệu của Pew Research Center?

Tú Cầu- sinh viên ngành ngôn ngữ Anh- viện đại học Mở Hà Nội. Tác giả gửi bài đến chuyên mục Cải cách học thuật của Nghiệp đoàn sinh viên Việt Nam. 

Ảnh minh họa.png

Hiện nay, đã có nhiều tổ chức ở Việt Nam tiến hành khảo sát ý kiến của người dân, để phục vụ việc nghiên cứu khoa học xã hội. Số này bao gồm các viện nghiên cứu công, một số NGO có tư cách pháp nhân, và nhiều cơ sở nghiên cứu của các doanh nghiệp. Tuy nhiên, hầu hết các tổ chức này không công khai dữ liệu cho báo giới và người dân. Cùng lúc đó, hầu hết báo giới và người dân cũng không có kỹ năng sử dụng dữ liệu khi suy nghĩ và thảo luận về các vấn đề chính trị, xã hội. Do thiếu dữ liệu, các cuộc thảo luận ở Việt Nam dễ nghiêng về hướng cảm tính, thiên vị, khiến những người tham gia vừa khó đồng ý với nhau, vừa dễ dùng tiểu xảo để trục lợi từ tranh cãi.

Tuy nhiên, xây dựng các kho dữ liệu mở về xã hội là điều không đơn giản. Việc này đòi hỏi nguồn chuyên gia và nguồn tiền rất lớn, cùng các điều kiện thuận lợi trong chính sách, pháp luật và tâm lý xã hội – là những thứ mà Việt Nam không có hiện nay. Vì vậy, trong lúc chưa thể thỏa mãn với nguồn dữ liệu từ trong nước, chúng ta hãy thử tìm hiểu một số kho dữ liệu mở ở nước ngoài. Trong bài này, tôi xin giới thiệu cách lấy dữ liệu từ Pew Research Center (pewresearch.org), một kho dữ liệu mở của Mỹ.

1. Nguồn gốc của Pew Research Center

Theo thông tin mà Pew Research Center cung cấp [1], thì tổ chức này là một “fact-tank” phi đảng phái, phi lợi nhuận, “chuyên tiến hành khảo sát ý kiến dân chúng, nghiên cứu nhân khẩu học và phân tích dữ liệu”, để “thông báo cho công chúng về các vấn đề, thái độ và xu hướng hình thành thế giới”. Tổ chức này cũng tuyên bố rằng họ không nắm giữ các vị trí quyết định chính sách.

Hiện nay, Pew Research Center được cho là think-tank lớn thứ 3 ở Washington DC. Trên website của trung tâm này, bạn có thể tìm thấy khá nhiều dữ liệu về mối quan hệ Mỹ – Việt Nam, và về cộng đồng người Việt ở Mỹ.

Lịch sử của trung tâm bắt đầu từ năm 1990, khi công ty báo chí Times Mirror đã lập một dự án mang tên “Trung tâm Nhân dân & Báo chí Times Mirror”, để tiến hành các cuộc thăm dò dân ý về những vấn đề chính trị. Năm 1993, Andrew Kohut trở thành giám đốc của trung tâm này. Năm 1996, Quỹ Tín thác Thiện nguyện Pew trở thành nhà tài trợ chính của trung tâm, và đổi tên nó thành “Trung tâm Nghiên cứu Pew về Nhân dân & Báo chí”.

Kể từ thời điểm đó, Trung tâm Nghiên cứu Pew đã tiến hành một loạt các dự án khảo sát ý kiến trong các lĩnh vực chính trị, báo chí – truyền thông (1997), Internet & công nghệ (1999), tôn giáo (2001), và thái độ quốc tế (2001). Năm 2005, Trung tâm Nghiên cứu Pew khởi động dự án Pew về Xu hướng Xã hội & Nhân khẩu học, kết hợp các cuộc khảo sát của trung tâm với việc phân tích dữ liệu của Cục Điều tra Dân số Hoa Kỳ và các nguồn khác.

Từ năm 2014 đến nay, Chủ tịch của Trung tâm Nghiên cứu Pew là Micheal Dimock, một người được Andrew Kohut dẫn dắt từ năm 2000.

2. Bố cục trang Pewresearch.org

Nội dung trang web này được phân theo các mảng nghiên cứu lớn của họ – như “Chính trị Mỹ”, “Tin tức – Truyền thông”, “Xu hướng Xã hội”, “Tôn giáo”, “Internet & Công nghệ”, “Khoa học”, “Thái độ Quốc tế”. Trong mỗi mảng, thông tin lại được trình bày theo danh sách các ấn phẩm, danh sách các chủ đề con, danh sách các bộ dữ liệu, và danh sách các chuyên gia tham gia nghiên cứu… Trong mỗi ấn phẩm, dữ liệu của các nghiên cứu được trình bày thành các biểu đồ, kèm theo phần phân tích của tác giả. Ngoài ra, tác giả cũng nêu rõ phương pháp nghiên cứu mà mình đã sử dụng.

Pew Research Center đã công khai hóa dữ liệu gốc trong một số nghiên cứu của họ. Để truy cập kho dữ liệu này, độc giả cần đăng ký tài khoản trên trang web.

3. Làm thế nào để khai thác hiệu quả dữ liệu của Pew Research Center?

Dù Pew Research Center tự mãn tuyên bố rằng họ “chỉ cung cấp fact” cho người dân, những bài viết trên trang này vẫn có thể không phản ánh hiện thực, vì bốn lý do chính.

Thứ nhất, Pew Research Center không phải là một tổ chức độc lập. Dù họ tuyên bố rằng mình là một “fact-tank” phi đảng phái, phi lợi nhuận, họ lại lệ thuộc vào tài chính từ Quỹ Tín thác Thiện nguyện Pew. Trong khi đó, Quỹ Tín thác Thiện nguyện Pew được xem là có liên quan đến các nhóm lợi ích trong ngành dầu khí Hoa Kỳ. Chẳng hạn, từ năm 2011 đến 2015, quỹ này đã tặng 4,7 tỷ USD cho Quỹ Chính sách Công Texas (TPPF) – một nhóm thường viện lý do đạo đức để vận động chống năng lượng tái tạo, bảo vệ ngành khai thác nhiên liệu hóa thạch.

Thứ hai, mọi phương pháp nghiên cứu đều có những hạn chế, khiến chúng không phản ánh đúng hiện thực khi gặp một số điều kiện nhất định.

Thứ ba, đôi lúc các nhóm nghiên cứu của Pew sử dụng những nguồn dữ liệu bên ngoài, hoặc dùng các tổ chức khác để thu thập dữ liệu. Vì vậy, dữ liệu thu thập ở Việt Nam chưa chắc đáng tin.

Thứ tư, “fact” khác với “truth”. Nếu sử dụng các số liệu khi không có kinh nghiệm thực địa, không biết bối cảnh và tiến trình lịch sử của câu truyện, bạn sẽ không nhìn rõ toàn bộ bức tranh thực tế. Chẳng hạn, nếu chỉ nhìn vào việc đảng NSDAP của Hitler giành 43,9% tổng số phiếu trong cuộc bầu cử Quốc hội năm 1933, cao hơn tất cả các đảng còn lại, người ta có thể kết luận rằng đảng này xứng đáng lãnh đạo nước Đức. Nếu chỉ nhìn vào việc GDP đầu người của Hàn Quốc cao cấp 13 lần của Việt Nam, ta dễ tưởng rằng người Hàn Quốc hạnh phúc gấp 13 lần người Việt Nam, trong khi nhiều người nước này kêu khổ vì giá thực phẩm, nhà ở cao và căng thẳng nơi công sở.

Ngoài ra, cá nhân tôi cho rằng tông màu xỉn trên trang Pewresearch.org có thể tác động đáng kể lên tâm lý người đọc, theo hướng làm giảm khả năng tưởng tượng của họ.

Do đó, để khai thác hiệu quả dữ liệu của Pew Research Center, bạn nên dùng chúng một cách khoa học và thận trọng.

Trước khi bắt đầu tìm dữ liệu, bạn cần xác định rõ các mục tiêu nghiên cứu của mình. Với mỗi mục tiêu, xác định các thông tin cụ thể mà bạn cần tìm kiếm. Với mỗi thông tin, bạn cần tính xem nó nằm trong khoảng thời gian, khoảng địa lý nào, và có thể được tìm bằng những cụm từ khóa nào. Chỉ khi tiến hành xong các bước chuẩn bị trên, bạn mới tiến hành tìm dữ liệu.

Các số liệu trên Pewresearch.org chỉ là một phần nhỏ của lượng dữ liệu bạn cần thu thập. Bạn nên thu thập thêm các bài báo, ghi chép lịch sử, hoặc lời kể của nhân chứng xoay quanh sự kiện, và sắp xếp chúng theo thứ tự thời gian. Nếu có thể, nên đến thực địa, hoặc phỏng vấn một số nhân chứng mà bạn tiếp cận được.

Chỉ khi đã thu thập xong toàn bộ dữ liệu, và sắp xếp, lưu trữ chúng gọn gàng, bạn mới bắt tay vào xử lý chúng. Nếu xử lý dữ liệu trong quá trình tìm kiếm, bạn sẽ sa vào một định kiến hoặc nghi ngờ của mình, và không nhìn thấy toàn bộ bức tranh.

Trong quá trình xử lý dữ liệu, cần lưu ý rằng mọi thứ mà bạn rút ra chỉ là các “giả thuyết”, chứ không phải là hiện thực. Bạn cần tách rời từng giả thuyết nhỏ với nhau, rồi tiếp tục lên kế hoạch nghiên cứu để chứng minh hoặc bác bỏ chúng.

Trong quá trình sử dụng dữ liệu từ nghiên cứu của Pew Research Center, bạn nên đọc phương pháp nghiên cứu, để lường trước những điểm sơ hở của chúng, trước khi đọc kết quả nghiên cứu. Trong quá trình này, nên xác định mục đích nghiên cứu và động cơ tâm lý của tác giả, và xem chúng có ảnh hưởng đến kết quả mà bạn cần hay không. Nếu nảy sinh nghi ngờ, bạn nên tìm hiểu thêm về dự án nghiên cứu và tác giả trước khi quyết định dùng hay không dùng kết quả nghiên cứu.

Tú Cầu

Chú thích:

[1] “Our History”, Pewresearch.org

http://www.pewresearch.org/about/our-history/

[2] “Why Has One of the World’s Biggest Funders of Environmental Conservation Also Given $4 Million to a Climate Denial Group?”, Graham Readfearn

https://www.desmogblog.com/2017/12/14/pew-charitable-trusts-funding-climate-denial-texas-public-policy-foundation-hartnett-white

Advertisements

One comment

  1. Kính anh Tú Cầu:
    Bây giờ là quá nữa đêm ở Toronto. Tôi đang cùng với các bạn trong Nghiệp Đoàn trao đổi và viết về “tự do trong nghiên cứu và giảng dạy” thì được đọc bài của anh – rất thú vị.

    Tôi đồng ý với anh rằng trong tương lai, chúng ta cần dữ kiện để hỗ trợ cho các quyết định có tầm ảnh hưởng lớn trong các vấn đề xã hội và kinh tế. Tôi cũng đồng ý với anh là thu thập các dữ kiện nầy là rất gay go, nhất là khi mình không có giờ và không có tiền. Những thử thách nầy không có nghĩ là chúng ta có thể bỏ qua giá trị của dữ kiện trong quy luật quyết định dựa trên bằng chứng và dữ liệu.

    Tôi cũng đồng ý với anh là khi xữ dụng dữ kiện, chúng ta cần khoáng triệt về các mô thức và thiết kế mà người nghiên cứu dùng để thu thập dữ kiện ngay vào lúc khởi sự. Ví dụ như là những hình họa trong bài của anh là dữ kiện từ những dân số khảo sát từ người Việt gốc Mỹ. Theo tôi hiểu, trả lời của họ cần được giải thích trong bối cảnh người Mỹ gốc Việt sống ở Hoa Kỳ.

    Cám ơn anh đã nghĩ và đóng góp bài nẩy về chuyên mục Cải cách học thuật của Nghiệp đoàn sinh viên Việt Nam.

    Số lượt thích

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất /  Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất /  Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất /  Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất /  Thay đổi )

Connecting to %s