文章列表-AI魔法学院

文章列表

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

在这个过程中，模型通过大量的音频样本数据学习如何从文本生成对应的Mel-spectrogram，逐渐掌握声音的韵律、语调、发音方式等各种细节特征，从而能够根据输入的文本生成相应的语音特征表示。

clone-voice 声音克隆

Agent具体实现

1 适用场景 · 需要多步组合、选择路径的复杂问题。

Agent 大模型

ChatGLM3-6B：新一代开源双语对话语言模型，流畅对话与低部署门槛再升级

在语义、数学、推理、代码、知识等不同角度的数据集上测评显示，ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。

ChatGLM3 语音模型开源模型

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

CTC 强制对齐（CTC forced alignment）通过 CTC 强制对齐技术，创建精确的单词到音频标记的映射。

OuteTTS-0.1-350M 音频

大模型微调方法总结

但是随着预训练语言模型越来越大，这个范式存在以下问题： ● 当我们 finetune 大模型时，由于训练成本太高，不太可能重新训练所有模型参数 ● 以前的方法（论文发表于 2021 年）都或多或少有其它性能问题

开源模型

10秒换脸，一张图片够了！SD Roop插件教程

本文旨在帮助用户完成诸如自定义角色、电商模特形象调整等任务。

AI换脸

胎教级SO-VITS-SVC使用教程：人工智能生成歌曲

A卡应该是跑不了，只能通过CPU去跑了（AMD,no!）

音乐

比 Roop 和 Reactor 更像！IP Adapter 新模型为任何人做写真

ensp; 2️⃣输入提示词 · 提示词定义：

IP-Adapter 文生图

吴恩达老师建议大家关注 AI 智能体工作流

目前，我们通常在零样本 (Zero-shot) 模式下使用大语言模型 (LLM)，即让模型一步步地生成输出，而不进行任何修改。

智能体大语言模型

Stable Diffusion

Stable Diffusion教程：采样器

后向扩散时，Stable Diffusion 先会生成一张完全的噪音图，然后根据提示词的语义，通过不断的采样来去除噪音图中不符合语义的噪音，而采样器就是去除噪音用的算法程序。

画图 SD 采样器

Yi技术报告细节分享

o 聚类过滤：采用无监督语义聚类对文本进行分组，然后对聚类数据标注质量标签，为后续数据混合策略提供参考。

Yi模型大模型

强！推荐一款自动化神器Autolt：不再重复工作！

由于其灵活性和可扩展性，AutoIt也被许多人用于编写各种自定义的Windows脚本和小工具。

Autolt 自动化

让你起飞的五个Prompt框架模型

例如，面对两个截然不同的工作机会，用户可以通过考虑薪水、工作与生活的平衡、长期职业成长、公司文化和地点等因素来评估。

prompt 大模型

我为什么不看好大模型行业

赢家通吃对于通用大模型有可能是成立的。

大模型

Embedding开源模型重磅玩家：北京智源人工智能研究院最新Embedding模型发布！登顶MTEB，免费商用授权！

这些向量能够捕捉到语义的丰富含义，使计算机可以像处理数字一样来处理文本。

开源模型

<...51 52 53 545556 57 58 59 60 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1