文章列表-AI魔法学院

文章列表

希音面试：SSE 底层原理是什么？快20年了，为何突然爆火？

最近有小伙伴在面试希音、滴滴、阿里等，都到了这个的面试题。

SSE 大模型

DeepMusic发布“和弦派”2.0：重塑AI音乐创作范式，赋予创作者全方位掌控

4月29日，国内领先的人工智能音乐服务商DeepMusic，发布了自主研发的AI音乐工作站——“和弦派”2.0正式版。

和弦派 DeepMusic 音乐创作

除了深度换脸、模拟配音，还能口型匹配的AI软件出现了

Captions：利用 AI 轻松实现视频翻译本地化 Captions以制作AI生成的字幕、语音纠正以及在后期制作中纠正视频创作者眼球位置的技术而闻名。

AI

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

呵呵，不是不支持就是发音像老外学中文多语言切换？

MeloTTS 语音工具

从零开始学习大模型-第二章-大模型学习路线

随着技术的进步，大模型如OpenAI的GPT-4和Sora、Google的BERT和Gemini等已经展现出了惊人的能力-从理解和生成自然语言到创造逼真的图像及视频。

大模型学习

阿里Outfit Anyone实现真人百变换装

之前我分享了阿里通义千问APP推出的 "全民舞王" ，只要一张照片就能生成一段舞蹈视频这几天相信有很多小伙伴都有在社交媒体和朋友圈刷到过这种其背后就是用的 Animate Anyone 算法

Outfit Anyone 阿里

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

以前，智能玩具里只能播放预设的程序和声音，顶多就是进行一两轮简单提问，你可以理解成是“单向输出”，现在有了这个 openAI 的实时语音软件开发包，就变成了“双向交互”，能和你进行实时的语音对话。

OpenAI 嵌入式实时语音 SDK

阿里最近推出AI项目的动作太过频繁，脑子跟不上了，事出反常必有妖，盘点一下

上传一段视频，AI 自动识别视频中的运动主体人物，并一键替换成有趣的 3D 角色模型，生成与众不同的 AI 视频。

阿里大模型

AI资讯速递 - 快人一步！为你填平AI领域信息差及时揭示AI领域的最新动态

AI能够制作视频吗？

AI资讯 AI新闻

LangChain - RAG：线上系统多文档要频繁更新，每次都要重新花钱做一次 embedding，老板不批预算，批我...

做为大模型落地的两大方向之一，RAG 有个很大的坑等着我们，设想一下，需要定时更新一匹 PDF 文件到 RAG chatbot 里面去，总量不算多也不算少大约 15,000～的样子，开发环境里面根本没考虑过重新 re-index、re-embedding 的事，事到临头要更新了才想起来要重新做 embedding 不仅耗时更要耗钱，结果老板不出所料的不批预算，批我解气... 怎么破？

大模型

全量免费的EMO模型上架通义APP，外媒称之为Sora之后最受期待的大模型之一

只需要一张人物肖像照片和一段任意时长的音频，EMO就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本保持一致，实现自然的面部表情和头部姿态。

EMO 阿里全民演唱

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

边缘设备，如智能手机、物联网设备等，对智能处理视觉和文本信息的需求也在急剧增长。

OmniVision -968M 多模态模型

字节开源项目MimicTalk：快速打造逼真3D Talking Face的利器

「高质量视频生成」视觉质量：MimicTalk生成的3D头像在视觉质量上超越了以往的技术，能够生成「高度逼真的面部细节和表情」。

MimicTalk 开源模型

数字人直播哪家强？百度、硅基、风平与闪剪四大AI数字人横向评测！

整体体验与易用性百度曦灵数字人直播平台 Lite 首先是百度曦灵数字人直播平台 Lite，虽然兼具数字人短视频与直播两大功能，但总体来看可用简陋两个字来形容，特别是短视频生成功能，只能用声音文件驱动数字人

数字人数字分身

「长文」可能是目前最全的LangChain AI资源库之一

前言本文主要内容是一个LangChain资源库，里面罗列了大大小小很多个基于LangChain框架的优秀项目，包括低代码、服务、代理、模板等工具类，还有像知识管理、聊天机器人等开源项目，还包括像视频

工作

<...7 8 9 101112 13 14 15 16 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1