科学空间|Scientific Spaces 今日热榜-jinrirebang.top



近期历史最近 100 条记录

2024-04-17	生成扩散模型漫谈（二十三）：信噪比与大图生成（下）	苏剑林	
2024-04-08	生成扩散模型漫谈（二十二）：信噪比与大图生成（上）	苏剑林	
2024-03-29	Transformer升级之路：17、多模态编码位置的简单思考	苏剑林	
2023-08-28	Lion/Tiger优化器训练下的Embedding异常和对策	苏剑林	
2023-08-24	Transformer升级之路：14、当HWFA遇见ReRoPE	苏剑林	
2023-08-14	Transformer升级之路：13、逆用Leaky ReRoPE	苏剑林	
2023-08-07	Transformer升级之路：12、无限外推的ReRoPE？	苏剑林	
2023-07-31	Transformer升级之路：11、将β进制位置进行到底	苏剑林	
2023-07-20	语言模型输出端共享Embedding的重新探索	苏剑林	
2023-07-14	当生成模型肆虐：互联网将有“疯牛病”之忧？	苏剑林	
2023-07-06	Transformer升级之路：10、RoPE是一种β进制编码	苏剑林	
2023-06-28	生成扩散模型漫谈（二十）：从ReFlow到WGAN-GP	苏剑林	
2023-06-24	生成扩散模型漫谈（十九）：作为扩散ODE的GAN	苏剑林	
2023-06-16	梯度流：探索通往最小值之路	苏剑林	
2023-06-08	Naive Bayes is all you need ?	苏剑林	
2023-05-31	关于NBCE方法的一些补充说明和分析	苏剑林	
2023-05-23	NBCE：使用朴素贝叶斯扩展LLM的Context处理长度	苏剑林	
2023-05-18	基于量子化假设推导模型的尺度定律（Scaling Law）	苏剑林	
2023-05-12	Transformer升级之路：9、一种全局长度外推的新思路	苏剑林	
2023-05-05	如何度量数据的稀疏程度？	苏剑林	
2023-04-25	注意力和Softmax的两点有趣发现：鲁棒性和信息量	苏剑林	
2023-04-17	梯度视角下的LoRA：简介、分析、猜测及推广	苏剑林	
2023-04-10	从JL引理看熵不变性Attention	苏剑林	
2023-04-03	Bias项的神奇作用：RoPE + Bias = 更好的长度外推性	苏剑林	
2023-03-28	Google新作试图“复活”RNN：RNN能否再次辉煌？	苏剑林	
2023-03-20	《为什么现在的LLM都是Decoder-only的架构？》FAQ	苏剑林	
2023-03-17	为什么现在的LLM都是Decoder-only的架构？	苏剑林	
2023-03-14	缓解交叉熵过度自信的一个简明方案	苏剑林	
2023-03-07	Tiger：一个“抠”到极致的优化器	苏剑林	
2023-02-28	生成扩散模型漫谈（十八）：得分匹配 = 条件得分匹配	苏剑林	
2023-02-23	生成扩散模型漫谈（十七）：构建ODE的一般步骤（下）	苏剑林	
2023-02-16	Google新搜出的优化器Lion：效率与效果兼得的“训练狮”	苏剑林	
2023-02-14	生成扩散模型漫谈（十六）：W距离 ≤ 得分匹配	苏剑林	
2023-02-11	测试函数法推导连续性方程和Fokker-Planck方程	苏剑林	
2023-01-31	Transformer升级之路：8、长度外推性与位置鲁棒性	苏剑林	
2023-01-12	Transformer升级之路：7、长度外推性与局部注意力	苏剑林	
2023-01-04	智能家居之热水器零冷水技术原理浅析	苏剑林	
2022-12-28	Transformer升级之路：6、旋转位置编码的完备性分析	苏剑林	
2022-12-22	生成扩散模型漫谈（十五）：构建ODE的一般步骤（中）	苏剑林	
2022-12-15	生成扩散模型漫谈（十四）：构建ODE的一般步骤（上）	苏剑林	
2022-12-07	从局部到全局：语义相似度的测地线距离	苏剑林	
2022-12-05	智能家居之小爱同学控制极米投影仪的简单方案	苏剑林	
2022-11-30	用热传导方程来指导自监督学习	苏剑林	
2022-11-22	基于Amos优化器思想推导出来的一些“炼丹策略”	苏剑林	
2022-11-09	CoSENT（三）：作为交互式相似度的损失函数	苏剑林	
2022-11-02	利用CUR分解加速交互式相似度模型的检索	苏剑林	
2022-10-25	圆内随机n点在同一个圆心角为θ的扇形的概率	苏剑林	
2022-10-18	生成扩散模型漫谈（十三）：从万有引力到扩散模型	苏剑林	
2022-10-09	“十字架”组合计数问题浅试	苏剑林	
2022-09-28	生成扩散模型漫谈（十二）：“硬刚”扩散ODE	苏剑林	
2022-09-21	生成扩散模型漫谈（十一）：统一扩散模型（应用篇）	苏剑林	
2022-09-14	生成扩散模型漫谈（十）：统一扩散模型（理论篇）	苏剑林	
2022-08-30	生成扩散模型漫谈（九）：条件控制生成结果	苏剑林	
2022-08-18	生成扩散模型漫谈（八）：最优扩散方差估计（下）	苏剑林	
2022-08-12	生成扩散模型漫谈（七）：最优扩散方差估计（上）	苏剑林	
2022-08-08	生成扩散模型漫谈（六）：一般框架之ODE篇	苏剑林	
2022-08-03	生成扩散模型漫谈（五）：一般框架之SDE篇	苏剑林	
2022-07-27	生成扩散模型漫谈（四）：DDIM = 高观点DDPM	苏剑林	
2022-07-19	生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪	苏剑林	
2022-07-15	不成功的尝试：将多标签交叉熵推广到“n个m分类”上去	苏剑林	
2022-07-06	生成扩散模型漫谈（二）：DDPM = 自回归式VAE	苏剑林	
2022-06-28	“维度灾难”之Hubness现象浅析	苏剑林	
2022-06-20	Ladder Side-Tuning：预训练模型的“过墙梯”	苏剑林	
2022-06-13	生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼	苏剑林	
2022-06-07	相对位置编码Transformer的一个理论缺陷与对策	苏剑林	
2022-06-01	如何训练你的准确率？	苏剑林	
2022-05-25	从重参数的角度看离散概率分布的构建	苏剑林	
2022-05-18	当BERT-whitening引入超参数：总有一款适合你	苏剑林	
2022-05-13	logsumexp运算的几个不等式	苏剑林	
2022-05-07	多标签“Softmax+交叉熵”的软标签版本	苏剑林	
2022-04-28	在bert4keras中使用混合精度和XLA加速训练	苏剑林	
2022-04-22	GAU-α：尝鲜体验快好省的下一代Attention	苏剑林	
2022-04-20	你的语言模型有没有“无法预测的词”？	苏剑林	
2022-04-15	GlobalPointer下的“KL散度”应该是怎样的？	苏剑林	
2022-04-11	熵不变性Softmax的一个快速推导	苏剑林	
2022-04-07	听说Attention与Softmax更配哦～	苏剑林	
2022-03-29	为什么Pre Norm的效果不如Post Norm？	苏剑林	
2022-03-21	RoFormerV2：自然语言理解的极限探索	苏剑林	
2022-03-19	为什么需要残差？一个来自DeepNet的视角	苏剑林	
2022-03-11	门控注意力单元（GAU）还需要Warmup吗？	苏剑林	
2022-03-09	训练1000层的Transformer究竟有什么困难？	苏剑林	
2022-03-03	指数梯度下降 + 元学习 = 自适应学习率	苏剑林	
2022-02-25	FLASH：可能是近来最有意思的高效Transformer设计	苏剑林	
2022-02-21	GPLinker：基于GlobalPointer的事件联合抽取	苏剑林	
2022-02-14	多任务学习漫谈（三）：分主次之序	苏剑林	
2022-02-08	多任务学习漫谈（二）：行梯度之事	苏剑林	
2022-01-30	GPLinker：基于GlobalPointer的实体关系联合抽取	苏剑林	
2022-01-25	Efficient GlobalPointer：少点参数，多点效果	苏剑林	
2022-01-18	多任务学习漫谈（一）：以损失之名	苏剑林	
2022-01-12	CoSENT（二）：特征式匹配与交互式匹配有多大差距？	苏剑林	
2022-01-06	CoSENT（一）：比Sentence-BERT更有效的句向量方案	苏剑林	
2021-12-29	SquarePlus：可能是运算最简单的ReLU光滑近似	苏剑林	
2021-12-24	概率分布的熵归一化（Entropy Normalization）	苏剑林	
2021-12-21	从熵不变性看Attention的Scale操作	苏剑林	
2021-12-17	Seq2Seq+前缀树：检索任务新范式（以KgCLUE为例）	苏剑林	
2021-12-11	输入梯度惩罚与参数梯度惩罚的一个不等式	苏剑林	
2021-12-09	变分自编码器（八）：估计样本概率密度	苏剑林	
2021-12-04	开局一段扯，数据全靠编？真被一篇“神论文”气到了	苏剑林	
2021-11-29	Dropout视角下的MLM和MAE：一些新的启发	苏剑林	
2021-11-22	ChildTuning：试试把Dropout加到梯度上去？	苏剑林	