文章列表-AI魔法学院

文章列表

被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

在 MiniCPM 2B 基础上，2024 年 4 月 11 日，面壁又推出了新一代端侧旗舰大模型系列：显著增强OCR能力、甚至部分能力比肩Gemini-Pro的2.8B多模态模型MiniCPM-V

Grok-1 开源模型

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

7个有用的Prompt参数

在使用生成式AI模型时，提供一个清晰、具体的prompt非常重要，因为它会直接影响到模型生成的内容和质量。

prompt

一文汇总市面上所有prompts提示词框架

Prompts，作为大语言模型交流与理解的桥梁，扮演着无比重要的角色，指引着模型准确解读输入信息，从而生成我们所需的特定输出。

提示词框架 prompt

Stable Diffusion

超详细的 Stable Diffusion ComfyUI 基础教程（一）：安装与常用插件

生态没有 webui 多（常用的都有），也有一些针对 Comfyui 开发的有趣插件。

文生图 comfyui

24年首篇离奇论文：加点噪声，RAG效果翻倍？

与传统的大型语言模型相比，RAG系统通过引入外部数据提高了其生成能力。

RAG 检索增强

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

而 OuteTTS-0.1-350M 作为一款新兴的 TTS 模型，正以其独特的技术和功能特点吸引着众多关注。

OuteTTS-0.1-350M 音频

AI 产品榜 · 国内 100 强和出海 20 强

如果您是AI公司创始人 | 高管 | 产品经理 | 开发者：从这里，您可以了解到竞争对手的动态和当前市场的趋势，从而更好地制定自家产品的战略和发展方向。

大模型大模型应用行业分析

语音识别的未来已来：深入了解faster-whisper的突破性进展

faster-whisper简介 faster-whisper是基于OpenAI的Whisper模型的高效实现，它利用CTranslate2，一个专为Transformer模型设计的快速推理引擎。

语音识别 Faster-Whisper

必看！阿里通义千问完整技术报告

例如，LLMs可以理解多模态指令（OpenAI，2023年；Bai等，2023年；Liu等，2023年a；Ye等，2023年；Dai等，2023年；Peng等，2023年b），执行代码（Chen等，2021

大型语言模型报告

京东开源普通话数字人JoyHallo，一口流利标准普通话还会讲英语

在音频驱动的视频生成领域，制作普通话视频面临着许多挑战。

JoyHallo 数字人开源模型

prompt提示工程最佳实践课程笔记分享

，此后添加了许多丰富的内容和示例，分享给大家，希望对大家有所帮助。

prompt 提示词

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk是由腾讯团队开发的先进技术，它是一个实时高质量的音频驱动唇部同步模型。

MuseTalk 数字人音频

Sora懂不懂物理世界？

一方面因为临界态样本的稀缺，另一方面因为扩散模型将稳恒态数据流形的边界模糊化，消弭了临界态的存在，生成的视频出现了不同稳恒态之间的跳跃。

文生视频视频生成 sora

<...40 41 42 434445 46 47 48 49 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1