SHA256哈希对象能保证多长的字符串后才重复（即使全球数据量也安全？）

本文分类：news
发布日期：2025/1/19 8:18:40
本文链接：http://www.lmnt.cn/news/199417.html

给sample，gpt 加上rope和特殊的ffn

应用到每一层 import mathimport numpy as np import paddle import paddle.nn as nn import paddle.nn.functional as Fclass MaskMultiHeadAttention(nn.Layer):def __init__(self, hidden_size, num_heads):super(MaskMultiHeadAttention, self).__init__()assert hidden_s…

建站知识 2025/1/3 5:16:40

精确分析sample_gpt

当层数相同，同时头数和层数相乘小于隐藏维度的时候头数越大越好。及层数越少越好。从这个图上可以继续得知层数最小为8 而上面得到的结论，是层数和头数要小于隐藏维度，且能整除2 那么得到 sqrt(hidden_dim)//8heads layer_num8 如图可以…

建站知识 2025/1/14 16:09:27

完善版top p t 解码策略

代码 def sample_logits(out: paddle.Tensor, temperature: float 1.0, top_p: float 0.8):"""对模型输出的logits进行采样。Args:out (paddle.Tensor): 模型输出的logits张量,形状为[Batch, vocab_size]。temperature (float): 温度参数,用于调节采样的多样性…

建站知识 2025/1/11 11:43:46

使用拼音代替中文做nlp之拼音文本互转

好处使用拼音代替中文进行NLP（自然语言处理）任务的拼音文本互转有以下好处： 减小词汇空间：中文词汇庞大，使用拼音代替可以将词汇空间减小到拼音字符的数量级，简化了问题规模。简化算法：使用…

建站知识 2025/1/19 5:56:22

给sample_gpt 增加 lisa 微调

论文地址概述该论文提出了一种名为LISA的层重要性采样优化算法，旨在解决大规模语言模型训练中的内存瓶颈问题。其主要内容和贡献包括： 通过分析LoRA训练中各层权重范数的分布，发现了权重更新在底层和顶层更为集中的现象，揭…

建站知识 2024/12/27 14:08:33

字节树RAG吗

字符树具有超级长的依赖能力，而没有创新性，而ai没有超级长的依赖但是有创新性，故而使用且ai能够把控剧情走向，所以使用字符树进行依赖辅助，ai负责创新和美化，并把控走向没错。字符树就像大纲一样控制生成超…

建站知识 2025/1/7 10:10:38

将睡眠曲线应用到神经网络训练中作为学习率的变化规律

代码 def set_sleep_lr(lr_max0.0005, steps1000):lr_dict {"1": lr_max, "2": (lr_max / 5) * 4, "3": (lr_max / 5) * 3, "4": (lr_max / 5) * 2, "5": (lr_max / 5) * 1}sleep_lr_1 [["1", 8], ["3&qu…

建站知识 2025/1/7 10:10:35

大模型最新消息

最新消息如下： 大语言模型服务的多样化：互联网上出现了许多免费的大语言模型服务，如OpenAI的ChatGPT、Google的Gemini、Anthropic的Claude、Meta的Llama等。这些服务的推出使得大语言模型的应用更加广泛和便捷。软银和苹果的AI新动向&#x…

建站知识 2024/12/27 14:15:18

相关文章