Visual Storytelling

Image captioning에 비해 Visual Storytelling은 많은 연구가 이루어지지 않은 상태이다. caption과는 다르게 story는 image 내에 등장하지 않는 가상의 concept(감정, 상상, 주관성)들을 포함하기도 하며 더 많은 언어 스타일을 구사한다. 따라서 기존의 behavioral cloning algorithm을 적용하기에는 무리가 있다.

Reinforcement Learning for Sequence generation

최근 RL은 sequnece generation task(machine translation, visual captioning, summarization 등)에서 우수한 성능을 보여 많이 사용되었다. RL의 기본적인 아이디어는 word를 action으로 보고 policy를 최적화함으로써 기댓값을 최대화하는 방향으로 업데이트 되는것이다. 전통적인 MLE방식의 접근법들은 bias를 만들어내는데 반해 RL은 generative model이 target distribution과 유사하게끔 업데이트되게 함으로써 더 좋은 성능을 보인다. 그러나 문제는 업데이트 과정에서 hand-crated metric score을 사용한다는 점이다.

Rethinking of Metrics

sequence generation을 평가하기 위한 automatic metric들에는 BLEU, CIDEr, METEOR, ROUGE 등이 있다. automatic metric은 빠른 prototyping과 human evaluation에 비해 훨씬 간단한 방법으로 새로운 모델을 테스트할 수 있다는 이점이 있다. 하지만 generative task(response generation, dialogue system, machine translation)에 있어서 이 metric들은 human judgement와 아주 큰 간극을 보인다는 비판을 받아왔다. naive overlap-counting 방법으로는 자연어의 의미론적 속성들(통일성, 표현력)을 반영하기 적합하지 않다는 뜻이다.

아이디어

Adversarial REward Learning(AREL) = Adversarial Inverse Reinfocement Learning

또한 스토리의 퀄리티를 측정하는 지표인 autometic metric의 한계로 인해 string match 기반의 hand-crafted reward reinforcement learning은 적용하기에 어렵다. string match 기반의 hand-crafted reward로 policy search를 하기에는 너무 biased되어있거나 너무 sparse하기 때문이다. 이러한 문제를 해결하기 위해 human demonstration으로 부터 내재적인 reward function을 학습하는 Adversarial REward Learning(AREL) 프레임워크를 제안한다. 이렇게 학습한 reward function으로부터 policy search를 최적화한다. automatic evaluation은 SOTA에 비해 약간의 성능 향상만을 보였지만, human evaluation에서는 월등한 성능을 보였다.

최근 GAN은 discrete probelm을 다루는데 적용되고 있다. 기본적인 아이디어는 Monte Carlo policy gradient estimation을 사용하여 generator의 parameter을 업데이트하는 것이다.

Reinforcement learning을 적용하기 어려운 이유 중에 하나는 미지의 dynamics에서의 feature/reward engineering이 필요하다는 것일겁니다. 따라서 IRL(Inverse Reinforcemnet Learning)이 제안되었다. 이는 reward function을 추론하기 위함이다. 이전의 IRL 접근법은 maximum margin 또는 확률론적 접근이었다. 최근의 adversarial inverse reinforcement learning은 reward function을 자동으로 획득할 수 있는 효율적이고 확장가능한 방법을 제공한다. human demonstration으로부터 robust한 reward function을 학습하는 AREL을 제안한다.

정리