文章列表-AI魔法学院

文章列表

【全文翻译】微软166页论文解读 GPT-4V：多模态大模型的黎明

在本节的接下来的实验中，我们将使用多个选定的视频帧作为输入，以测试模型在理解时间序列和视频内容方面的能力。

多模态大模型 GPT-4V 文生图

对于AI，我们现阶段可以有的态度

Diffusion，但依然还有搭档配合，让我们能在其他模态和领域得以探索和交流，除了AI绘画之外，我们在大语言模型和本地化部署ChatGLM，声音克隆、虚拟数字人直播间以及效果不输于D-ID的口播式视频

文生图

解放AI生产力——为什么要使用ComfyUI

可能有一些知道AI绘画的人会说利用图生图降低噪声强度，减少修改的范围，只修改你要修改的部分就行了，（或者使用蒙版，意思是一样的）在这里我可以和你说，在关于这个方法的视频发出来的几个月前我就试出来了这种方法

文生图

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

这一步就像是为后续的分析和处理搭建好了基础框架，确保音频数据能够以合适的形式被模型所接受，为特征提取做好充分准备。

clone-voice 声音克隆

20个常见AI绘画工具大汇总（含免费版哦~）

NUWA NUWA(Neural visUal World reAtion)是微软亚洲研究院开发的多模态模型，通过自然语言指令，NUWA可以实现文本、图像、视频之间的生成、转换和编辑。

文生图

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

LinkSoul.AI 团队接下来的工作会把语音 - 视觉 - 文本进一步融合，让大语言模型同时支持语音和视觉模态。

开源模型

提高写作能力的90个prompt大全

轻松的语气：“为介绍[您的产品]的短视频制作一个有趣的脚本。”

prompt 写作

深入浅出：大语言模型中必不可少的技术——Embedding简介

如何生成和存储Embedding 总结 Embeddings技术简介及其历史概要在机器学习和自然语言处理中，embedding是指将高维度的数据（例如文字、图片、音频）

embedding

生成式AI与大语言模型的区别

例如，一个图像生成模型可能会在数百万张照片和绘画的数据集上进行训练，以学习构成各种视觉内容的模式和特征。

生成式AI 大语言模型区别

Stable Diffusion

张嘴就能生图？这已经不是科技，这是魔法！（Stable Diffusion进阶篇：SDXL-Turbo）

真的是一秒生成（这比我登录英雄联盟还快）：当然也可能是因为我的显卡比较好（没钱冲阿里云会员了不然我可以试试其他的显卡），但是我看了大多数的视频基本上比较普遍的显卡都是在4-5秒左右就能生成。

SDXL-Turbo 文生图

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

这意味着它能够同时处理多个音频片段，大幅缩短了从语音到文本的转换时间。

Whisper 语音识别

Mixtral 7B 官宣免费，一大波 AI 模型也免费了，有网就能用！

没有精心编辑过的 Demo 视频，也没有长长的介绍博客，只有简单直接的磁力下载链接，背后是高达 87G 完整的模型文件。

开源大模型

ChatGLM3在线搜索功能升级

pip install -U duckduckgo_search 然后修改原来的注册脚本其他的内容和原来的一样，下面让我们来详细体验下：当然DuckDuckGo还支持视频

ChatGLM3 搜索

开源！数字人资源大集合！

· 慕尼黑工业大学 (TUM)视觉计算机实验室，由Matthias Nießner 教授及其团队设计。

数字人开源

GitHub狂飙3万star的LLM公开资料 - 大模型入门教程

资源： 3Blue1Brown - 线性代数的本质：一系列视频，为这些概念提供了几何直觉。

LLM 大模型 GitHub

<...14 15 16 171819 20 21 22 23 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1