文章列表-AI魔法学院

文章列表

ChatGPT丨一次性修改全文的提示语！

当需要一次性修改全文的格式时，可以使用提示词来改进文章的结构、语言和流畅性： 1.

写文章

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

只需提供一张人物的静态照片和一段语音录音，VividTalk即可制作出一个看起来像是实际说话的人物的视频。

VividTalk 视频

硬核Prompt赏析：HuggingGPT告诉你Prompt可以有多“工程”

，它让ChatGPT这样的LLM能够使用HuggingFace社区的各种模型（包括但不仅限于文生图、图生文、语音转文字、文字合成语音等），从而让LLM能驱动其他智能Agent，实现多模态能力。

提示词 prompt

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

大语言模型应用中的文本分块策略

分块的主要原因是确保我们向量化的内容的噪音尽可能少，并且具有语义相关性。

开源模型

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件库

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

AI声音克隆 | 最全最简教程（权威版）

TTS 的英文全名是 Text To Speech,中文译名是“文本转语音”。

声音克隆教程

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

CosyVoice-instruct-300M：能够生成富有情感表现力的语音，允许通过指令文本进行精细调整。

asr tts 声音

书生·万卷：难得的中文开源数据集

中国的AI产业要迎头赶上，中文的数据集是最大的短板之一。

大模型

AI制作艺术二维码 - 文生图

前几天看到几个逼格比较高的二维码，然后自己动手做了一下，给大家看看效果： 1、文生图（狮子）： 2、文生图（城市）：下边将开始介绍怎么做的，有兴趣的可以继续读一读

文生图

RAG——使用检索增强生成构建特定行业的大型语言模型

下面是检索增强技术论文的摘要部分，从中我们可以看到，检索增强技术是用于知识密集型nlp任务处理文本生成时，先通过信息检索技术来增强信息输入来使生成的内容更具体、更多样化和更真实的技术。

大模型

ComfyUI 基础教程（二）：文生图基础流程

一、文生图（text2img）使用步骤 .

comfyui 文生图

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

一文带你看懂OpenAI-Sora生成视频的原理

Sora，在粤语中有点像“傻啦”，可以创建长达 60 秒的视频，其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。

视频生成 sora

变天了，AI可以一键生成中文海报了......

就在昨晚，即梦AI悄悄上线了2.1图像模型，这个模型能够通过提示词一键生成中英文海报，离了大谱。

2.1图像模型文生图

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1