지렁이 AI 학습 (Q-Learning)

목표: 먹이(빨강) 먹기. 충돌(벽/자기몸)하면 실패. 실시간으로 Q-table 학습.

키보드: Space 일시정지/재개, R 초기화

학습 속도 (한 프레임당 스텝 수): 30

탐험(ε, 랜덤 행동 비율): 0.30

ε는 학습이 진행되면 자동으로 천천히 감소시킴

학습률 α: 0.15

감가율 γ: 0.95

상태(state)는 “머리 주변 위험 + 먹이 방향”을 단순화해서 표현했어. 더 똑똑하게 하려면 상태를 확장(거리, 시야, 맵 인코딩 등)하면 돼.