所有文章 > 正文

浅谈老虎机模型

作者: 漆毅

时间: 2019-05-30 10:30

老虎机实际上是个赌博机器。走进拉斯维加斯赌场,你就能看到一排排闪亮的机器。老虎机模型这个数学模型,现在基本溯源基本认为是一个病理学家Thompson在1933年提出的。

老虎机实际上是个赌博机器。走进拉斯维加斯赌场,你就能看到一排排闪亮的机器。老虎机模型这个数学模型,现在基本溯源基本认为是一个病理学家Thompson在1933年提出的。他当时觉得验证新药的医学的随机双盲实验有些残酷的地方,比如被分到不好的新药的那一组病人,就运气很背。那他就想,能不能不用等到双盲实验结束,在中途某个地方,就能确信某种药效果不好,那还没有进入实验的那些病人,就省掉了痛苦。所以他就提了这么一个序列决策模型。当然,实际使用还是有很多问题,比如中途效果不好评价。所以直到现在,美国FDA对在医学随机双盲实验中使用这种自适应调整的多臂老虎机方法,仍然只是建议使用。就现在而言,老虎机模型实际是在搜索和推荐方面的应用很多。

Epsilon-greedy 是种预留一点点机会去尝试的思想。这种想法很自然,学术界也不清楚最初的credit该给谁。现在就放在sutton名下。他是强化学习方面的大佬,写的那本教材Reinforcement Learning引用五位数,里边讲解了这个算法。

Peter Auer这个工作不仅分析了UCB算法的理论性质,还顺道分析了Epsilon-greedy的理论性质。这篇文章用到的技术,是此后很多更复杂技术的基础,很值得一看。这篇纯理论文章引用也达到了两千多。

Frederick Mosteller 是哈佛统计系奠基人,20世纪统计学界的超级牛人。他们当时做老虎机模型,主要是想给真实的动物或者人的序列决策建模,想抽象一个框架出来。所以他们作了一个老鼠找蛋糕的实验。当然,也做了关于人玩赌博用的老虎机的实验。

Li Lihong他是清华02级校友。他 在Yahoo! news 上的LinUCB的工作发表在WWW上,这篇应用文章获得了大量关注,引用上千。他后来又翻出来Thompson sampling这个很古旧的方法,作了一些系统性的实验,从实验结果的角度说明Thompson sampling效果很好。这篇文章发在NIPS2011上,也获得了大量关注。后来大批做理论的人就跟进,就把Thompson sampling在线性模型上的理论基础建立起来了。比如Russo这篇文章。那可以看到,从Thompson 1933年用Thompson sampling,到2010年后这个方法的理论基础才建立起来,这个时间跨度是很大的。当然,因为线性情况下都还比较简单,所以2011年后收到广泛关注没几年,理论就建立。这个现象和神经网络的理论建立基本是一个样子,都是线性的容易又基础,就先做着。

研究老虎机模型确实比较偏理论,但老虎机应用也很广。这图里边除了有做医学的、做统计的、做计算机科学的,还有在商学院任教的,就是这个Russo。

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

推荐阅读 更多