相关文章
完善版top p t 解码策略
代码 def sample_logits(out: paddle.Tensor, temperature: float 1.0, top_p: float 0.8):"""对模型输出的logits进行采样。Args:out (paddle.Tensor): 模型输出的logits张量,形状为[Batch, vocab_size]。temperature (float): 温度参数,用于调节采样的多样性…
建站知识
2024/11/14 1:18:39
使用拼音代替中文做nlp之拼音文本互转
好处
使用拼音代替中文进行NLP(自然语言处理)任务的拼音文本互转有以下好处: 减小词汇空间:中文词汇庞大,使用拼音代替可以将词汇空间减小到拼音字符的数量级,简化了问题规模。 简化算法:使用…
建站知识
2024/11/13 23:08:08
给sample_gpt 增加 lisa 微调
论文
地址
概述
该论文提出了一种名为LISA的层重要性采样优化算法,旨在解决大规模语言模型训练中的内存瓶颈问题。其主要内容和贡献包括:
通过分析LoRA训练中各层权重范数的分布,发现了权重更新在底层和顶层更为集中的现象,揭…
建站知识
2024/11/14 0:28:03
将睡眠曲线应用到神经网络训练中作为学习率的变化规律
代码
def set_sleep_lr(lr_max0.0005, steps1000):lr_dict {"1": lr_max, "2": (lr_max / 5) * 4, "3": (lr_max / 5) * 3, "4": (lr_max / 5) * 2, "5": (lr_max / 5) * 1}sleep_lr_1 [["1", 8], ["3&qu…
建站知识
2024/11/22 14:20:49
河南工程学院计算机网络试卷,河南工程学院计算机网络课程设计讲述.doc
河 南 工 程 学 院 《计算机网络技术》课程设计 成果报告 姓 名 学 号 学 院 计算机学院 专业班级 计算机科学与技术 专业课程 计算机网络技术 指导老师 张天伍 2014年 6 月27日 河南工程学院计算机学院 课程设计报告书 课程设计题目: 局域网方案设计与实现 课程设计…
建站知识
2024/11/14 1:19:19
sam9和sam10 对比曲线
可以看到sam10 轻松的以3分之一的参数量完胜sam9
sam10 import mathimport numpy as np
import paddle
import paddle.nn as nn
import paddle.nn.functional as Fdef squash(interest_capsule):cap_norm paddle.sum(paddle.square(interest_capsule), -1, keepdimTrue) # s…
建站知识
2024/11/14 1:19:19