第102章 速成
接下来的两周,左城把自己关在办公室里,几乎没有出过门。
韩露来敲门问过两次,左城只说了一句“在忙,別打扰“。陈浩也来敲过一次,被左城以同样的话打发走了。整个公司都知道,左城在搞一个重要的东西,但没人知道是什么。
於颖推荐的学习资料他全部认真过了一遍。sutton的强化学习导论是理论基础,mnih的dqn论文是方法论,再加上几篇关於深度强化学习在资源调度领域的最新研究,他花了五天时间就建立了一个完整的知识框架。
这个速度放在学术界是不可想像的。一个没有任何ai背景的人,五天读完强化学习的核心论文?但左城有科技树。智能星网调度系统这枚融合叶片给了他直觉般的理解力,很多概念別人需要反覆推敲才能想通,他看一遍就能抓住本质。
技术增幅的效果也在持续发挥作用。所有和ai相关的学习效率提升百分之二十,这意味著他的学习速度比普通人快了不止一个量级。
第七天,左城开始在纸上设计算法框架。
深度强化学习的核心思路很简单:让一个智能体在环境中不断试错,通过奖惩机制学习最优策略。应用到星间链路调度上,就是让ai模型在仿真环境中不断尝试不同的频谱分配方案,找到频谱利用率最高的那一个。
但设计容易,实现难。状態空间怎么定义?动作空间怎么设计?奖励函数怎么构造?每一个选择都会影响最终的效果。
左城拿出智能星网调度系统的叶片描述,仔细研读。
叶片提供的关键参数帮了大忙。状態空间应该包含链路质量、卫星位置、频谱占用率三个维度;动作空间应该设计为连续型,而不是离散型,因为频谱分配的粒度越细,优化空间越大;奖励函数应该以频谱利用率为主,加上链路稳定性的惩罚项。
左城把这些参数整理成一份技术文档,交给了唐旭。
“按照这个框架搭仿真环境。“左城说,“状態空间三维,动作空间连续,奖励函数用这个公式。“
唐旭接过文档,看了一会儿,表情从困惑变成了震惊。
“左总,这个框架很专业。你在哪学的?“
“这几天自学的。“左城说,“別问怎么学的,按框架做就行。“
唐旭没有再追问。他知道左城的学习能力远超常人,从通信到物联网到现在的ai,每次都能在最短时间內掌握核心知识。这种能力他解释不了,只能归结为天赋。
三天后,仿真环境搭好了。唐旭报告说环境跑通了,状態空间和动作空间的定义完全按照左城的框架,奖励函数也实现了。
“好,下一步是训练模型。“左城说,“gpu伺服器到位了吗?“
“到了,韩露加急採购了四块rtx2080ti,昨天刚装好。“
“四块够用吗?“
“480颗卫星的仿真环境,四块gpu跑一个dqn模型大概需要三天。“唐旭说,“如果要跑多个模型对比,可能需要一周。“