科学空间|Scientific Spaces
订阅

近期历史最近 100 条记录

2024-04-17 生成扩散模型漫谈(二十三):信噪比与大图生成(下) 苏剑林
2024-04-08 生成扩散模型漫谈(二十二):信噪比与大图生成(上) 苏剑林
2024-03-29 Transformer升级之路:17、多模态编码位置的简单思考 苏剑林
2023-08-28 Lion/Tiger优化器训练下的Embedding异常和对策 苏剑林
2023-08-24 Transformer升级之路:14、当HWFA遇见ReRoPE 苏剑林
2023-08-14 Transformer升级之路:13、逆用Leaky ReRoPE 苏剑林
2023-08-07 Transformer升级之路:12、无限外推的ReRoPE? 苏剑林
2023-07-31 Transformer升级之路:11、将β进制位置进行到底 苏剑林
2023-07-20 语言模型输出端共享Embedding的重新探索 苏剑林
2023-07-14 当生成模型肆虐:互联网将有“疯牛病”之忧? 苏剑林
2023-07-06 Transformer升级之路:10、RoPE是一种β进制编码 苏剑林
2023-06-28 生成扩散模型漫谈(二十):从ReFlow到WGAN-GP 苏剑林
2023-06-24 生成扩散模型漫谈(十九):作为扩散ODE的GAN 苏剑林
2023-06-16 梯度流:探索通往最小值之路 苏剑林
2023-06-08 Naive Bayes is all you need ? 苏剑林
2023-05-31 关于NBCE方法的一些补充说明和分析 苏剑林
2023-05-23 NBCE:使用朴素贝叶斯扩展LLM的Context处理长度 苏剑林
2023-05-18 基于量子化假设推导模型的尺度定律(Scaling Law) 苏剑林
2023-05-12 Transformer升级之路:9、一种全局长度外推的新思路 苏剑林
2023-05-05 如何度量数据的稀疏程度? 苏剑林
2023-04-25 注意力和Softmax的两点有趣发现:鲁棒性和信息量 苏剑林
2023-04-17 梯度视角下的LoRA:简介、分析、猜测及推广 苏剑林
2023-04-10 从JL引理看熵不变性Attention 苏剑林
2023-04-03 Bias项的神奇作用:RoPE + Bias = 更好的长度外推性 苏剑林
2023-03-28 Google新作试图“复活”RNN:RNN能否再次辉煌? 苏剑林
2023-03-20 《为什么现在的LLM都是Decoder-only的架构?》FAQ 苏剑林
2023-03-17 为什么现在的LLM都是Decoder-only的架构? 苏剑林
2023-03-14 缓解交叉熵过度自信的一个简明方案 苏剑林
2023-03-07 Tiger:一个“抠”到极致的优化器 苏剑林
2023-02-28 生成扩散模型漫谈(十八):得分匹配 = 条件得分匹配 苏剑林
2023-02-23 生成扩散模型漫谈(十七):构建ODE的一般步骤(下) 苏剑林
2023-02-16 Google新搜出的优化器Lion:效率与效果兼得的“训练狮” 苏剑林
2023-02-14 生成扩散模型漫谈(十六):W距离 ≤ 得分匹配 苏剑林
2023-02-11 测试函数法推导连续性方程和Fokker-Planck方程 苏剑林
2023-01-31 Transformer升级之路:8、长度外推性与位置鲁棒性 苏剑林
2023-01-12 Transformer升级之路:7、长度外推性与局部注意力 苏剑林
2023-01-04 智能家居之热水器零冷水技术原理浅析 苏剑林
2022-12-28 Transformer升级之路:6、旋转位置编码的完备性分析 苏剑林
2022-12-22 生成扩散模型漫谈(十五):构建ODE的一般步骤(中) 苏剑林
2022-12-15 生成扩散模型漫谈(十四):构建ODE的一般步骤(上) 苏剑林
2022-12-07 从局部到全局:语义相似度的测地线距离 苏剑林
2022-12-05 智能家居之小爱同学控制极米投影仪的简单方案 苏剑林
2022-11-30 用热传导方程来指导自监督学习 苏剑林
2022-11-22 基于Amos优化器思想推导出来的一些“炼丹策略” 苏剑林
2022-11-09 CoSENT(三):作为交互式相似度的损失函数 苏剑林
2022-11-02 利用CUR分解加速交互式相似度模型的检索 苏剑林
2022-10-25 圆内随机n点在同一个圆心角为θ的扇形的概率 苏剑林
2022-10-18 生成扩散模型漫谈(十三):从万有引力到扩散模型 苏剑林
2022-10-09 “十字架”组合计数问题浅试 苏剑林
2022-09-28 生成扩散模型漫谈(十二):“硬刚”扩散ODE 苏剑林
2022-09-21 生成扩散模型漫谈(十一):统一扩散模型(应用篇) 苏剑林
2022-09-14 生成扩散模型漫谈(十):统一扩散模型(理论篇) 苏剑林
2022-08-30 生成扩散模型漫谈(九):条件控制生成结果 苏剑林
2022-08-18 生成扩散模型漫谈(八):最优扩散方差估计(下) 苏剑林
2022-08-12 生成扩散模型漫谈(七):最优扩散方差估计(上) 苏剑林
2022-08-08 生成扩散模型漫谈(六):一般框架之ODE篇 苏剑林
2022-08-03 生成扩散模型漫谈(五):一般框架之SDE篇 苏剑林
2022-07-27 生成扩散模型漫谈(四):DDIM = 高观点DDPM 苏剑林
2022-07-19 生成扩散模型漫谈(三):DDPM = 贝叶斯 + 去噪 苏剑林
2022-07-15 不成功的尝试:将多标签交叉熵推广到“n个m分类”上去 苏剑林
2022-07-06 生成扩散模型漫谈(二):DDPM = 自回归式VAE 苏剑林
2022-06-28 “维度灾难”之Hubness现象浅析 苏剑林
2022-06-20 Ladder Side-Tuning:预训练模型的“过墙梯” 苏剑林
2022-06-13 生成扩散模型漫谈(一):DDPM = 拆楼 + 建楼 苏剑林
2022-06-07 相对位置编码Transformer的一个理论缺陷与对策 苏剑林
2022-06-01 如何训练你的准确率? 苏剑林
2022-05-25 从重参数的角度看离散概率分布的构建 苏剑林
2022-05-18 当BERT-whitening引入超参数:总有一款适合你 苏剑林
2022-05-13 logsumexp运算的几个不等式 苏剑林
2022-05-07 多标签“Softmax+交叉熵”的软标签版本 苏剑林
2022-04-28 在bert4keras中使用混合精度和XLA加速训练 苏剑林
2022-04-22 GAU-α:尝鲜体验快好省的下一代Attention 苏剑林
2022-04-20 你的语言模型有没有“无法预测的词”? 苏剑林
2022-04-15 GlobalPointer下的“KL散度”应该是怎样的? 苏剑林
2022-04-11 熵不变性Softmax的一个快速推导 苏剑林
2022-04-07 听说Attention与Softmax更配哦~ 苏剑林
2022-03-29 为什么Pre Norm的效果不如Post Norm? 苏剑林
2022-03-21 RoFormerV2:自然语言理解的极限探索 苏剑林
2022-03-19 为什么需要残差?一个来自DeepNet的视角 苏剑林
2022-03-11 门控注意力单元(GAU)还需要Warmup吗? 苏剑林
2022-03-09 训练1000层的Transformer究竟有什么困难? 苏剑林
2022-03-03 指数梯度下降 + 元学习 = 自适应学习率 苏剑林
2022-02-25 FLASH:可能是近来最有意思的高效Transformer设计 苏剑林
2022-02-21 GPLinker:基于GlobalPointer的事件联合抽取 苏剑林
2022-02-14 多任务学习漫谈(三):分主次之序 苏剑林
2022-02-08 多任务学习漫谈(二):行梯度之事 苏剑林
2022-01-30 GPLinker:基于GlobalPointer的实体关系联合抽取 苏剑林
2022-01-25 Efficient GlobalPointer:少点参数,多点效果 苏剑林
2022-01-18 多任务学习漫谈(一):以损失之名 苏剑林
2022-01-12 CoSENT(二):特征式匹配与交互式匹配有多大差距? 苏剑林
2022-01-06 CoSENT(一):比Sentence-BERT更有效的句向量方案 苏剑林
2021-12-29 SquarePlus:可能是运算最简单的ReLU光滑近似 苏剑林
2021-12-24 概率分布的熵归一化(Entropy Normalization) 苏剑林
2021-12-21 从熵不变性看Attention的Scale操作 苏剑林
2021-12-17 Seq2Seq+前缀树:检索任务新范式(以KgCLUE为例) 苏剑林
2021-12-11 输入梯度惩罚与参数梯度惩罚的一个不等式 苏剑林
2021-12-09 变分自编码器(八):估计样本概率密度 苏剑林
2021-12-04 开局一段扯,数据全靠编?真被一篇“神论文”气到了 苏剑林
2021-11-29 Dropout视角下的MLM和MAE:一些新的启发 苏剑林
2021-11-22 ChildTuning:试试把Dropout加到梯度上去? 苏剑林

匿名用户只展示最新 100 条榜单历史,更多历史数据请登录后查看,支持时光机按天筛选

Sponsors

今日解忧 - 赛博修行,舒缓静心,21世纪解压神器!
今日历 - 全球最全的日历,日历届的航空母舰!
百晓生AI - 全能创作助手

猜你喜欢