文章列表-AI魔法学院

文章列表

手把手教你认识学会LangChain

数据增强的生成，数据增强生成涉及特定类型的链，它首先与外部数据源交互以获取数据用于生成步骤。

langchain

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

该框架包括用于常见工作流程的插件，例如语音活动检测和语音转文本。

voice agent 开源音视频

探索Sora的魔法世界：功能展示、原理解析、未来市场影响大猜想！

下图是Sora跟其他模型在生成视频能力上的一些对比：在OpenAI发布Sora之前，业界基于大模型生成视频的主要平台有Pika、Runway、Moonvalley等，但是这些平台视频生成默认都是几秒中

视频生成 sora

九个让你成为GPT提示高手的提示词框架

• 目的：讨论意图或目标。

GPT

只需四步就能构建自己的Agent！达摩院新开源框架小白也能用

写一篇关于Vision Pro VR眼镜的20字宣传文案，并用女声读出来，同时生成个视频看看。

大模型

3.5k star！一款万能的 SQL 分析工具，厉害了！

而现实生活中，我们经常会遇到各种各样的本地文件，比如Excel、JSON、CSV等。

dsq 开源项目 SQL

Rerank——RAG中百尺竿头更进一步的神器，从原理到解决方案

检索增强生成（RAG）是解决大语言模型（LLM）实际使用中的一套完整的技术，它可以有效解决LLM的三个主要问题：数据时效性、幻觉和数据安全问题（在我之前的文章《大模型主流应用RAG的介绍

RAG 检索增强

【上篇】深度解析AI大语言模型（LLM）在企业应用的关键技术与典型架构

随着大模型的不断迭代与升级，周边生态的培育与成熟，其在B端企业级场景的落地应用也逐渐拉开序幕。

大语言模型

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

在推理过程中，模型以并行方式生成指定长度的标记。

MaskGCT 声音克隆

如何快速构建GPTs个人知识库应用？

GPTs 是一个创新方式，允许任何人根据自己的日常需求、特定任务、工作或家庭生活，定制个性化的 ChatGPT，并且可以将这些定制版本分享给他人。

GPTs 知识库

全量免费的EMO模型上架通义APP，外媒称之为Sora之后最受期待的大模型之一

两个月前，阿里巴巴通义实验室公开了一篇能够让照片唱歌说话的生成式AI模型论文，EMO（Emote Portrait Alive），在海外媒体和社交平台引起热烈反响，被一批科技圈大V轮番转发。

EMO 阿里全民演唱

腾讯悄悄开源混元版「Sora」，这就是开源领域的No.1。

像拍的，不像生成的，实话。

sora 视频生成

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

facebookresearch/audiocraft[1] Stars: 16.6k License: MIT AudioCraft 是一个用于音频生成的

AudioCraft 音频

阿里出品自动化视频剪辑工具FunClip！

FunClip让用户能够根据识别结果，轻松选择文本片段或特定说话人，从而快速裁剪出所需视频片段。

FunClip 视频阿里

<...44 45 46 474849 50 51 52 53 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1