2024-04-17 |
生成扩散模型漫谈(二十三):信噪比与大图生成(下) |
苏剑林 |
|
2024-04-08 |
生成扩散模型漫谈(二十二):信噪比与大图生成(上) |
苏剑林 |
|
2024-03-29 |
Transformer升级之路:17、多模态编码位置的简单思考 |
苏剑林 |
|
2023-08-28 |
Lion/Tiger优化器训练下的Embedding异常和对策 |
苏剑林 |
|
2023-08-24 |
Transformer升级之路:14、当HWFA遇见ReRoPE |
苏剑林 |
|
2023-08-14 |
Transformer升级之路:13、逆用Leaky ReRoPE |
苏剑林 |
|
2023-08-07 |
Transformer升级之路:12、无限外推的ReRoPE? |
苏剑林 |
|
2023-07-31 |
Transformer升级之路:11、将β进制位置进行到底 |
苏剑林 |
|
2023-07-20 |
语言模型输出端共享Embedding的重新探索 |
苏剑林 |
|
2023-07-14 |
当生成模型肆虐:互联网将有“疯牛病”之忧? |
苏剑林 |
|
2023-07-06 |
Transformer升级之路:10、RoPE是一种β进制编码 |
苏剑林 |
|
2023-06-28 |
生成扩散模型漫谈(二十):从ReFlow到WGAN-GP |
苏剑林 |
|
2023-06-24 |
生成扩散模型漫谈(十九):作为扩散ODE的GAN |
苏剑林 |
|
2023-06-16 |
梯度流:探索通往最小值之路 |
苏剑林 |
|
2023-06-08 |
Naive Bayes is all you need ? |
苏剑林 |
|
2023-05-31 |
关于NBCE方法的一些补充说明和分析 |
苏剑林 |
|
2023-05-23 |
NBCE:使用朴素贝叶斯扩展LLM的Context处理长度 |
苏剑林 |
|
2023-05-18 |
基于量子化假设推导模型的尺度定律(Scaling Law) |
苏剑林 |
|
2023-05-12 |
Transformer升级之路:9、一种全局长度外推的新思路 |
苏剑林 |
|
2023-05-05 |
如何度量数据的稀疏程度? |
苏剑林 |
|
2023-04-25 |
注意力和Softmax的两点有趣发现:鲁棒性和信息量 |
苏剑林 |
|
2023-04-17 |
梯度视角下的LoRA:简介、分析、猜测及推广 |
苏剑林 |
|
2023-04-10 |
从JL引理看熵不变性Attention |
苏剑林 |
|
2023-04-03 |
Bias项的神奇作用:RoPE + Bias = 更好的长度外推性 |
苏剑林 |
|
2023-03-28 |
Google新作试图“复活”RNN:RNN能否再次辉煌? |
苏剑林 |
|
2023-03-20 |
《为什么现在的LLM都是Decoder-only的架构?》FAQ |
苏剑林 |
|
2023-03-17 |
为什么现在的LLM都是Decoder-only的架构? |
苏剑林 |
|
2023-03-14 |
缓解交叉熵过度自信的一个简明方案 |
苏剑林 |
|
2023-03-07 |
Tiger:一个“抠”到极致的优化器 |
苏剑林 |
|
2023-02-28 |
生成扩散模型漫谈(十八):得分匹配 = 条件得分匹配 |
苏剑林 |
|
2023-02-23 |
生成扩散模型漫谈(十七):构建ODE的一般步骤(下) |
苏剑林 |
|
2023-02-16 |
Google新搜出的优化器Lion:效率与效果兼得的“训练狮” |
苏剑林 |
|
2023-02-14 |
生成扩散模型漫谈(十六):W距离 ≤ 得分匹配 |
苏剑林 |
|
2023-02-11 |
测试函数法推导连续性方程和Fokker-Planck方程 |
苏剑林 |
|
2023-01-31 |
Transformer升级之路:8、长度外推性与位置鲁棒性 |
苏剑林 |
|
2023-01-12 |
Transformer升级之路:7、长度外推性与局部注意力 |
苏剑林 |
|
2023-01-04 |
智能家居之热水器零冷水技术原理浅析 |
苏剑林 |
|
2022-12-28 |
Transformer升级之路:6、旋转位置编码的完备性分析 |
苏剑林 |
|
2022-12-22 |
生成扩散模型漫谈(十五):构建ODE的一般步骤(中) |
苏剑林 |
|
2022-12-15 |
生成扩散模型漫谈(十四):构建ODE的一般步骤(上) |
苏剑林 |
|
2022-12-07 |
从局部到全局:语义相似度的测地线距离 |
苏剑林 |
|
2022-12-05 |
智能家居之小爱同学控制极米投影仪的简单方案 |
苏剑林 |
|
2022-11-30 |
用热传导方程来指导自监督学习 |
苏剑林 |
|
2022-11-22 |
基于Amos优化器思想推导出来的一些“炼丹策略” |
苏剑林 |
|
2022-11-09 |
CoSENT(三):作为交互式相似度的损失函数 |
苏剑林 |
|
2022-11-02 |
利用CUR分解加速交互式相似度模型的检索 |
苏剑林 |
|
2022-10-25 |
圆内随机n点在同一个圆心角为θ的扇形的概率 |
苏剑林 |
|
2022-10-18 |
生成扩散模型漫谈(十三):从万有引力到扩散模型 |
苏剑林 |
|
2022-10-09 |
“十字架”组合计数问题浅试 |
苏剑林 |
|
2022-09-28 |
生成扩散模型漫谈(十二):“硬刚”扩散ODE |
苏剑林 |
|
2022-09-21 |
生成扩散模型漫谈(十一):统一扩散模型(应用篇) |
苏剑林 |
|
2022-09-14 |
生成扩散模型漫谈(十):统一扩散模型(理论篇) |
苏剑林 |
|
2022-08-30 |
生成扩散模型漫谈(九):条件控制生成结果 |
苏剑林 |
|
2022-08-18 |
生成扩散模型漫谈(八):最优扩散方差估计(下) |
苏剑林 |
|
2022-08-12 |
生成扩散模型漫谈(七):最优扩散方差估计(上) |
苏剑林 |
|
2022-08-08 |
生成扩散模型漫谈(六):一般框架之ODE篇 |
苏剑林 |
|
2022-08-03 |
生成扩散模型漫谈(五):一般框架之SDE篇 |
苏剑林 |
|
2022-07-27 |
生成扩散模型漫谈(四):DDIM = 高观点DDPM |
苏剑林 |
|
2022-07-19 |
生成扩散模型漫谈(三):DDPM = 贝叶斯 + 去噪 |
苏剑林 |
|
2022-07-15 |
不成功的尝试:将多标签交叉熵推广到“n个m分类”上去 |
苏剑林 |
|
2022-07-06 |
生成扩散模型漫谈(二):DDPM = 自回归式VAE |
苏剑林 |
|
2022-06-28 |
“维度灾难”之Hubness现象浅析 |
苏剑林 |
|
2022-06-20 |
Ladder Side-Tuning:预训练模型的“过墙梯” |
苏剑林 |
|
2022-06-13 |
生成扩散模型漫谈(一):DDPM = 拆楼 + 建楼 |
苏剑林 |
|
2022-06-07 |
相对位置编码Transformer的一个理论缺陷与对策 |
苏剑林 |
|
2022-06-01 |
如何训练你的准确率? |
苏剑林 |
|
2022-05-25 |
从重参数的角度看离散概率分布的构建 |
苏剑林 |
|
2022-05-18 |
当BERT-whitening引入超参数:总有一款适合你 |
苏剑林 |
|
2022-05-13 |
logsumexp运算的几个不等式 |
苏剑林 |
|
2022-05-07 |
多标签“Softmax+交叉熵”的软标签版本 |
苏剑林 |
|
2022-04-28 |
在bert4keras中使用混合精度和XLA加速训练 |
苏剑林 |
|
2022-04-22 |
GAU-α:尝鲜体验快好省的下一代Attention |
苏剑林 |
|
2022-04-20 |
你的语言模型有没有“无法预测的词”? |
苏剑林 |
|
2022-04-15 |
GlobalPointer下的“KL散度”应该是怎样的? |
苏剑林 |
|
2022-04-11 |
熵不变性Softmax的一个快速推导 |
苏剑林 |
|
2022-04-07 |
听说Attention与Softmax更配哦~ |
苏剑林 |
|
2022-03-29 |
为什么Pre Norm的效果不如Post Norm? |
苏剑林 |
|
2022-03-21 |
RoFormerV2:自然语言理解的极限探索 |
苏剑林 |
|
2022-03-19 |
为什么需要残差?一个来自DeepNet的视角 |
苏剑林 |
|
2022-03-11 |
门控注意力单元(GAU)还需要Warmup吗? |
苏剑林 |
|
2022-03-09 |
训练1000层的Transformer究竟有什么困难? |
苏剑林 |
|
2022-03-03 |
指数梯度下降 + 元学习 = 自适应学习率 |
苏剑林 |
|
2022-02-25 |
FLASH:可能是近来最有意思的高效Transformer设计 |
苏剑林 |
|
2022-02-21 |
GPLinker:基于GlobalPointer的事件联合抽取 |
苏剑林 |
|
2022-02-14 |
多任务学习漫谈(三):分主次之序 |
苏剑林 |
|
2022-02-08 |
多任务学习漫谈(二):行梯度之事 |
苏剑林 |
|
2022-01-30 |
GPLinker:基于GlobalPointer的实体关系联合抽取 |
苏剑林 |
|
2022-01-25 |
Efficient GlobalPointer:少点参数,多点效果 |
苏剑林 |
|
2022-01-18 |
多任务学习漫谈(一):以损失之名 |
苏剑林 |
|
2022-01-12 |
CoSENT(二):特征式匹配与交互式匹配有多大差距? |
苏剑林 |
|
2022-01-06 |
CoSENT(一):比Sentence-BERT更有效的句向量方案 |
苏剑林 |
|
2021-12-29 |
SquarePlus:可能是运算最简单的ReLU光滑近似 |
苏剑林 |
|
2021-12-24 |
概率分布的熵归一化(Entropy Normalization) |
苏剑林 |
|
2021-12-21 |
从熵不变性看Attention的Scale操作 |
苏剑林 |
|
2021-12-17 |
Seq2Seq+前缀树:检索任务新范式(以KgCLUE为例) |
苏剑林 |
|
2021-12-11 |
输入梯度惩罚与参数梯度惩罚的一个不等式 |
苏剑林 |
|
2021-12-09 |
变分自编码器(八):估计样本概率密度 |
苏剑林 |
|
2021-12-04 |
开局一段扯,数据全靠编?真被一篇“神论文”气到了 |
苏剑林 |
|
2021-11-29 |
Dropout视角下的MLM和MAE:一些新的启发 |
苏剑林 |
|
2021-11-22 |
ChildTuning:试试把Dropout加到梯度上去? |
苏剑林 |
|