MPP2022-525

Khoa học dữ liệu trong Chính sách công (PA)

Vui lòng tham khảo trên Microsoft Teams

Giảng viên phụ trách: Lê Việt Phú & Huỳnh Nhật Nam

Ngôn ngữ giảng dạy: Tiếng Việt

Mục đích của môn học là giới thiệu một khía cạnh mới của đánh giá chính sách sử dụng các công cụ phân tích để tận dụng kho dữ liệu lớn và mức độ phức tạp dữ liệu ngày càng tăng. Học viên sẽ nhận ra các kiến thức kinh tế lượng truyền thống và công nghệ máy học có nhiều điểm chung và một số khác biệt.

Môn học sẽ giới thiệu các nguyên tắc và khái niệm cơ bản là nền tảng của một số thuật toán máy học phổ biến nhất và ứng dụng của những khái niệm này trong kinh doanh và phân tích chính sách. Các bài giảng được thiết kế để cung cấp cho người học cái nhìn khái quát về khoa học dữ liệu, những vấn đề và tiềm năng của phân tích dữ liệu nhằm tìm hiểu thế giới thực, với trọng tâm nhấn mạnh vào các vấn đề chính sách. Học viên sẽ được học các công cụ xử lý và thu thập dữ liệu, đảm bảo chất lượng dữ liệu, và các kiến thức cơ bản của phân tích dữ liệu. Khóa học không nặng về tính toán. Các chi tiết về toán học sẽ được cung cấp vừa đủ để học viên hiểu được khái niệm của khoa học dữ liệu và các kỹ thuật liên quan. Ngôn ngữ lập trinh R sẽ được sử dụng để minh họa những khái niệm và kỹ thuật này. Học viên phải làm bài tập và lập trình bằng ngôn ngữ R.

The goal of this course is to introduce a new aspect of policy evaluation with the help of analytical tools to take advantage of the massive growth in the available data and its complexity. Students will realize that traditional econometric training and machine learning inherit many similarities as well as recognized differences.

The course will introduce the fundamental principles and concepts underlying some of the most common algorithms in machine learning and its applications in business and policy analysis. The lectures will be designed to provide an overview of data science, the problems and potential of data analysis in exploring and understanding the real world, with a focus on identifying and solving a policy problem. Students will learn the most fundamental tools for handling data, collecting and assuring data integrity, the basics of data analysis. The course is not intended to be mathematical intensive. The level of mathematical details will be provided just enough to help the students understand the data science concepts and the associated techniques. Programming language R will be used to demonstrate these concepts and techniques. Students will also be required to do exercises and write codes in R.