小道消息's notes

Record my study notes and essay feelings.

iOS 抖动动画

123456789101112131415161718192021222324252627282930313233343536373839/// 抖动方向枚举public enum ShakeDirection { /// 水平抖动 case horizontal /// 垂直抖动 case vertical}......

SpringBoot 之 JPA 详解

一、什么是JPA?什么是Mybatis? ORM 框架的本质是简化编程中操作数据库的编码,发展到现在基本上就剩两家了,一个是宣称可以不用写一句 SQL 的 Hibernate,一个是可以灵活调试动态 SQL 的 Mybatis,两者各有特点,在企业级系统开发中可以根据需求灵活使用。 Hibernate 特点就是所有的 SQL 都用 Java 代码来生成......

医院是检验人性最真实的地方

医院像一面镜子,照尽世间的人情冷暖,缩影着众生的疾苦,在距离死亡最近的地方,人间最极致的悲欢离合,最艰难的选择,随时都在上演。 ...

强化学习——Policy Gradients

一、与其他强化学习方法不同 强化学习是一个通过奖惩来学习正确行为的机制。 家族中有很多种不一样的成员,有学习奖惩值,根据自己认为的高价值选行为,比如 Q-learning,Deep-Q-Network,也有不通过分析奖励值,直接输出行为的方法,这就是 Policy Gradients 了。 甚至我们可以为 Policy Gradients 加上一个神经......

AlphaGo 的“前世今生”

浅谈AlphaGo

一、AlphaGo 的“前世”——深蓝——蛮算的“硬汉” 1996 年 2 月,在美国费城举行了一项别开生面的国际象棋比赛,报名参加比赛者包括了 “深蓝”计算机 和 当时世界棋王 卡斯帕罗夫。 比赛最后一天,世界棋王卡斯帕罗夫对垒“深蓝”计算机。在这场人机对弈的6局比赛中,棋王卡斯帕罗夫以 4:2 战胜计算机“深蓝”,获得 40 万美元高额奖金。人胜计......

强化学习——Deep Q Network

一、什么是Deep Q Network 这次我们来说说强化学习中的 Deep Q Network 简称为 DQN。Google Deep mind 团队就是靠着这 DQN 使计算机玩电动玩得比我们还厉害。 DQN 是一种融合了 神经网络 和 Q_learning 的方法,如果你还不了解 Q_learning,可以看看这篇文章。 传统的 Q 表格形式的强......

强化学习——Q-learning

一、什么是Q-learning Q_learning是强化学习中的一个决策算法,如果你还不知道什么是强化学习,可以参看强化学习这篇文章。 二、Q-Learning 决策 假设我们的行为准则已经学习好了,现在我们处于状态 s(tate) 1,有两个行为 a(ction) 1、a(ction) 2,在这种 s1 状态下,a2 带来的潜在奖励要比 a1 高(......

强化学习——Sarsa

一、什么是Sarsa 在强化学习中 Sarsa 和 Q learning及其类似,这节内容会基于之前所讲的 Q learning。如果还不熟悉 Q learning 可以去看看。我们会对比 Q learning,来看看 Sarsa 是特殊在哪些方面。 Sarsa 的决策部分和 Q learning 一模一样,因为我们使用的是 Q 表的形式决策,所以我们......

“循环神经网络RNN”与“LSTM”

一、为什么需要 RNN(Recurrent Neural Network)? 普通的神经网络,都只能单独的取处理一个个的输入,前一个输入和后一个输入是完全没有关系的。但是,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。 比如,当我们在理解一句话意思时,孤立的理解这句话的每个词是不够的,我们需要处理这些词连接起来的整个序列; ......

强化学习

一、什么是强化学习 强化学习是一类算法,是让计算机实现从一开始完全随机的进行操作,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法。这就是一个完整的强化学习过程。让计算机在不断的尝试中更新自己的行为,从而一步步学习如何操自己的行为得到高分。 它主要包含四个元素,Agent、环境状态、行动、奖励,强化学习的目标就是获得最多的累计奖励。 让......