Reinforcement learning : An introduction

Phiên bản mới được mở rộng và cập nhật đáng kể của một văn bản được sử dụng rộng rãi về học tăng cường, một trong những lĩnh vực nghiên cứu tích cực nhất về trí tuệ nhân tạo.

Học tăng cường, một trong những lĩnh vực nghiên cứu tích cực nhất về trí tuệ nhân tạo, là một phương pháp học tập tính toán trong đó tác nhân cố gắng tối đa hóa tổng số phần thưởng mà nó nhận được khi tương tác với một môi trường phức tạp, không chắc chắn. Trong Học tăng cường , Richard Sutton và Andrew Barto trình bày rõ ràng và đơn giản về các ý tưởng và thuật toán chính của lĩnh vực này. Phiên bản thứ hai này đã được mở rộng và cập nhật đáng kể, trình bày các chủ đề mới và cập nhật nội dung của các chủ đề khác.

Giống như ấn bản đầu tiên, ấn bản thứ hai này tập trung vào các thuật toán học tập trực tuyến cốt lõi, với nhiều tài liệu toán học hơn được trình bày trong các hộp bóng mờ. Phần I đề cập đến việc học tăng cường nhiều nhất có thể mà không vượt quá trường hợp dạng bảng để có thể tìm ra giải pháp chính xác. Nhiều thuật toán được trình bày trong phần này là mới đối với phiên bản thứ hai, bao gồm UCB, Expected Sarsa và Double Learning. Phần II mở rộng những ý tưởng này sang chức năng gần đúng, với các phần mới về các chủ đề như mạng lưới thần kinh nhân tạo và cơ sở Fourier, đồng thời đưa ra cách xử lý mở rộng về phương pháp học tập ngoài chính sách và phương pháp chuyển đổi chính sách. Phần III có các chương mới về mối quan hệ của học tập tăng cường với tâm lý học và khoa học thần kinh, cũng như chương nghiên cứu tình huống được cập nhật bao gồm AlphaGo và AlphaGo Zero, chơi trò chơi Atari và chiến lược đặt cược của IBM Watson. Chương cuối thảo luận về những tác động xã hội trong tương lai của việc học tăng cường.