文章列表-AI魔法学院

文章列表

四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法

这可能包括以下操作： · 同义词替换：将文本中的一些词汇替换为它们的同义词，以生成变种数据。

大模型

腾讯悄悄开源混元版「Sora」，这就是开源领域的No.1。

这些个关键词，其实都不好理解，更别提跑着跑着跳到小女孩怀里这种操作了。

sora 视频生成

TrOCR——基于transformer模型的OCR手写文字识别

Brown commented icily. " Let us have a 这里我们可以看一下TrOCR的主要配置，可以看到整个数据库有50265个词表，且embedding维度为1024，每个encoder

OCR 手写文字识别

拒绝996，想出海赚美元？这7个GPT方案绝对靠谱！

在Upwork等国际自由职业平台提供文案服务，为海外企事业单位撰写广告词、产品详情、软文等。

ChatGPT 写作

开源大模型部署及推理所需显卡成本必读：也看大模型参数与显卡大小的大致映射策略

注意：上述是加载模型到显存所需大小，在模型的推理过程中，可能会产生一些中间计算结果，这些中间结果也会占用一定的显存，所以显存大小不能刚好是参数量的大小，不然就会OOM。

开源模型

Mixtral 7B 官宣免费，一大波 AI 模型也免费了，有网就能用！

MythoMist 的诞生是为了减少“预期”、“服务”及其衍生词等术语的出现频率，这些术语在 ChatGPT 角色扮演数据集的背景下获得了负面含义。

开源大模型

Llama 3突然来袭！开源社区再次沸腾：GPT-4级别模型可以自由访问的时代到来

架构层面，Llama 3选择了经典的仅解码（decoder-only）式Transformer架构，采用包含128K token词汇表的分词器。

meta llama3

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

没错，Qwen2.5系列新成员Qwen2.5-Turbo，这回主打的就是支持超长上下文，并且把性价比卷出了花儿： § 上下文长度从128k扩展到1M，相当于100万个英文单词或150万个汉字，也就是

Qwen2.5 开源模型

Stable Diffusion

Stable Diffusion XL 1.0 出图风格鉴赏

的表现效果参数介绍模型： SDXL base（没有使用 refiner 优化）采样方法： Euler a 步数：30 提示词：

文生图

ComfyUI安装教程

（原理解释：下一步这一页应该给您提供了一个关于如何开始使用Comfy的良好初步概述。

ComfyUI安装

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

输入上一步切割的语音，直接点击启动，然后静待一会作者还给了语音文本校对标注工具如果转换的不对，可以人工校对选择打开后自动弹出界面，很简单这里步赘述了

数字人声音克隆 GPT-SoVITS

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

.01 概述在日常生活和工作中，你是否常因嘈杂的环境、重叠的对话或音视频信号的混杂而感到沟通困难？

ClearerVoice-Studio 语音

腾讯最新的人像写真工作PhotoMaker

在文本输入上做文章，把man和woman这种单词与文本embedding结合，得到一个融合后的向量，这个向量会与图像embedding做融合。

PhotoMaker 文生图

Deepseek-V2技术报告解读！全网最细！

out_features=102400, bias=False) ) 我们从上往下，从embedding层的维度来看，与Gemma, LLaMA和Qwen的经验一致，Deepseek也选取了较大的输入词表作为模型的输入

Deepseek-V2 大模型

LLM微调经验&认知

模型一但学会中文后，一些指令微调数据集里没见过的中文词汇它竟然也可以理解和输出，这里有些惊奇。

LLM 大模型

<...62 63 64 656667 68 69 70 71 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1