文章列表-AI魔法学院

文章列表

美的数字化转型10年，方洪波的反思。作为领导者的高瞻远瞩与宽广胸襟！

那么ToC和ToB这四个板块的业务，在过去十年，都是我们同步数字化转型的。

工作

腾讯开源的数字人MuseTalk到底行不行？

该模型能够根据输入的音频信号，自动调整数字人物的面部图像，使其唇形与音频内容高度同步。

MuseTalk 数字人音频

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。

语音 HeyGen

用AI轻松玩转年度总结PPT

这篇文章就是为你准备的我会教你如何利用完全免费的国产 AI 工具，快速的制作 PPT 如果你有很多复杂的文字需要整理，没问题，让 A 已帮你整理如果你平时不喜欢总结工作内容，做了很多事，写总结不知如何下笔

PPT 年终总结

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

Buzz 语音转文字工具的特点高度精确：基于 OpenAI 提供的 Whisper 自动语音识别技术，这是一款功能强大的机器学习模型。

生成式AI

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

如何设置 GLM-4-Voice 9B 以实现无缝的实时语音交互，支持英语和中文，并探索其独特的架构、低延迟响应和可定制的声音属性。

GLM-4-Voice 9B 语音安装

TrOCR——基于transformer模型的OCR手写文字识别

前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

OCR 手写文字识别

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

只需提供一张人物的静态照片和一段语音录音，VividTalk即可制作出一个看起来像是实际说话的人物的视频。

VividTalk 视频

语言大模型100K上下文窗口的秘诀

在语言模型中，上下文窗口对于理解和生成与特定上下文相关的文本至关重要。

大模型

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

导语：在当今数字化时代，人工智能技术已经渗透到各个领域。

PaddleOCR 文字识别

请以“亮相”为题目写一篇记叙文，要求不少于700字。

文心一言： “亮相”是一个瞬间，一个舞台上的演员在掌声雷动中，优雅地走到台前，向观众鞠躬致意，展示自己的风采。

中文大模型训练

Chinese-LLM开源中文大语言模型合集

-6B 简介：一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁

大模型中文

18种 DALL-E 3 炫酷的文字效果和提示词

DALL-E 3 不仅可以在图片上生成文字，还可以把文字巧妙地融合到图像中。

DALL-E 3 提示词文生图

图解检索增强式生成（RAG）技术 | 万字长文

3、假设性问题和 HyDE 另一种方法是让 LLM 为每个文本块生成一个问题，并将这些问题转化为向量。

检索增强式生成 RAG

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1