第102章速成

接下来的两周，左城把自己关在办公室里，几乎没有出过门。

韩露来敲门问过两次，左城只说了一句“在忙，別打扰“。陈浩也来敲过一次，被左城以同样的话打发走了。整个公司都知道，左城在搞一个重要的东西，但没人知道是什么。

於颖推荐的学习资料他全部认真过了一遍。sutton的强化学习导论是理论基础，mnih的dqn论文是方法论，再加上几篇关於深度强化学习在资源调度领域的最新研究，他花了五天时间就建立了一个完整的知识框架。

这个速度放在学术界是不可想像的。一个没有任何ai背景的人，五天读完强化学习的核心论文？但左城有科技树。智能星网调度系统这枚融合叶片给了他直觉般的理解力，很多概念別人需要反覆推敲才能想通，他看一遍就能抓住本质。

技术增幅的效果也在持续发挥作用。所有和ai相关的学习效率提升百分之二十，这意味著他的学习速度比普通人快了不止一个量级。

第七天，左城开始在纸上设计算法框架。

深度强化学习的核心思路很简单：让一个智能体在环境中不断试错，通过奖惩机制学习最优策略。应用到星间链路调度上，就是让ai模型在仿真环境中不断尝试不同的频谱分配方案，找到频谱利用率最高的那一个。

但设计容易，实现难。状態空间怎么定义？动作空间怎么设计？奖励函数怎么构造？每一个选择都会影响最终的效果。

左城拿出智能星网调度系统的叶片描述，仔细研读。

叶片提供的关键参数帮了大忙。状態空间应该包含链路质量、卫星位置、频谱占用率三个维度；动作空间应该设计为连续型，而不是离散型，因为频谱分配的粒度越细，优化空间越大；奖励函数应该以频谱利用率为主，加上链路稳定性的惩罚项。

左城把这些参数整理成一份技术文档，交给了唐旭。

“按照这个框架搭仿真环境。“左城说，“状態空间三维，动作空间连续，奖励函数用这个公式。“

唐旭接过文档，看了一会儿，表情从困惑变成了震惊。

“左总，这个框架很专业。你在哪学的？“

“这几天自学的。“左城说，“別问怎么学的，按框架做就行。“

唐旭没有再追问。他知道左城的学习能力远超常人，从通信到物联网到现在的ai，每次都能在最短时间內掌握核心知识。这种能力他解释不了，只能归结为天赋。

三天后，仿真环境搭好了。唐旭报告说环境跑通了，状態空间和动作空间的定义完全按照左城的框架，奖励函数也实现了。

“好，下一步是训练模型。“左城说，“gpu伺服器到位了吗？“

“到了，韩露加急採购了四块rtx2080ti，昨天刚装好。“

“四块够用吗？“

“480颗卫星的仿真环境，四块gpu跑一个dqn模型大概需要三天。“唐旭说，“如果要跑多个模型对比，可能需要一周。“

第102章 速成