文章列表-AI魔法学院

文章列表

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

在AI技术的浪潮中，一款新型的语音识别模型Distil-Whisper以其独特的魅力和强大的性能脱颖而出。

Distil-Whisper 语音识别

开源大模型部署及推理所需显卡成本必读：也看大模型参数与显卡大小的大致映射策略

在前面的文章中，我们介绍了大模型占用显卡空间的一些分析情况，这次我们继续来看看具体量化角度上的结论。

开源模型

爆肝两天！ChatGPT+提示词解决知识库目录混乱

对于职场新手可能缺乏有效的知识管理和分类技巧，导致知识库变得错综复杂。

智能分类大模型知识库

开源即巅峰！微软VibeVoice 7B模型：跨语言、多说话人、长文本一次到位

微软最近开源的VibeVoice模型，以其创新的技术和卓越的性能，为这一领域带来了重大突破。

VibeVoice 7B 语音

通往AGI之路：思维链提示过程

今天分享提示词的进阶学习内容，思维链提示。

思维链提示词

一文看懂RAG：大语言模型落地应用的未来

RAG技术为何如此重要？

rag 检索增强

如何用人工智能协助我提高写代码的效率

如何利用人工智能技术提高编程效率？您可以将代码发送给AI,让其为您解释、注释、优化和重构代码。

人工智能编程

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

它通过先进的音频到3D网格映射技术和网格到视频的转换技术，实现了高质量、逼真的音频驱动的说话头像视频生成。

VividTalk 视频

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

虽然音频技术日新月异，但许多现有方案在复杂场景中仍难以提供稳定且高质量的音频体验。

ClearerVoice-Studio 语音

20个常见AI绘画工具大汇总（含免费版哦~）

AI绘画是指使用人工智能（Artificial Intelligence，AI）技术生成或辅助创作绘画作品的过程。

文生图

让AI帮你读财报：Reportify让你看得清、聊得深

Reportify是一款帮助人们解读公司财报的AI分析工具。

Reportify 读财报

主流向量数据库一览

推荐的计算两个向量之间距离推荐的算法为：余弦相似度函数，其表达式如下: 常见的向量数据库向量检索是一个革命性的技术，使得开发者和工程师可以将知识或数据向量化之后实现更有效的存储

向量数据库

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

它采用了Sora相似的技术路线，结合多项自研技术创新，生成的视频不仅运动幅度大且合理，还能模拟物理世界特性，具备强大的概念组合能力和想象力。

可灵快手文生视频

语音识别的新拐点：OLMoASR 带来的机会

当我们说话时，机器能立即理解并执行——这不仅是技术的突破，更是人机沟通方式的重塑。

OLMoASR 语音识别

视频大模型训练相关词条解释

它不仅能够根据文字指令创造出既逼真又充满想象力的场景，而且能生成长达1分钟的超长视频，不管是一镜到底还是分镜头切换模式，都能够保持角色及背景神一般的一致性和稳定性。

视频生成 sora 词条

<...15 16 17 181920 21 22 23 24 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1