Ngược lại, điều gì sẽ xảy ra khi bạn không có đủ dữ liệu về những gì bạn
đang cố gắng dự đoán, nhưng bạn có thể biết rằng, dựa trên thực tế, mình
đã đúng bao nhiêu phần không? Trong tình huống đó, như chúng tôi đã
thảo luận trong chương 2, những nhà khoa học máy tính đã khai thác các kỹ
thuật học tăng cường. Trong AI, nhiều tiến bộ trong việc học tăng cường đã
đến từ việc dạy máy chơi trò chơi. DeepMind đã cho AI của họ một bộ điều
khiển các trò chơi điện tử như Breakout và “tặng thưởng” AI nếu nó đạt
được điểm số cao hơn mà không có bất kỳ hướng dẫn nào khác. AI đã học
cách chơi hàng loạt các trò chơi Atari tốt hơn những người chơi giỏi nhất.
Đây là việc học thông qua sử dụng. AI đã chơi trò chơi hàng ngàn lần và
học cách để chơi tốt hơn, giống như con người, ngoại trừ AI có thể chơi
nhiều trò chơi hơn và nhanh hơn bất kỳ ai.
7
Việc học xảy ra khi máy có một số bước đi nhất định và sau đó sử dụng dữ
liệu cùng với trải nghiệm trong quá khứ (những nước đi và điểm số) để dự
đoán nước đi nào sẽ dẫn đến sự tăng điểm số lớn nhất. Cách duy nhất để
học là chơi. Không có con đường học tập, máy sẽ không thể chơi tốt hay
cải thiện theo thời gian. Con đường học tập như vậy quả thực rất tốn kém.
Khi nào cần triển khai
Những người đã quen với sự phát triển phần mềm biết rằng việc mã hóa
cần thử nghiệm bao quát để xác định lỗi. Trong một số trường hợp, các
công ty phát hành phần mềm cho người dùng để giúp tìm ra các lỗi có thể
xuất hiện khi sử dụng. Cho dù bằng cách “dùng thử” (sử dụng phiên bản
đầu tiên của phần mềm trong nội bộ) hay “thử nghiệm beta” (mời những
người thực hiện kiểm tra phần mềm), các hình thức học tập thông qua sử
dụng này liên quan đến sự đầu tư ngắn hạn vào việc học để giúp sản phẩm
cải thiện theo thời gian. Chi phí đào tạo ngắn hạn để thu được lợi ích dài
hạn này tương tự như cách con người học hỏi để thực hiện công việc của họ
tốt hơn.