首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· AI创作 |如何通过GPT进行漫画视频的故事改写
· 如何最简单、通俗地理解Transformer?
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· PPT又又有新突破了!智谱AI代码流造PPT
· 深入探讨:Agent全自动写作长篇小说技术原理解析
· ComfyUI进阶前必备插件们续
· 收藏!万字长文聊聊LLM Agents的现状,问题与未来
· 为什么国产大模型都说超越ChatGPT而体验却很拉?警惕 Goodhart law 陷阱
· OCR的终极解法——传统算法VS多模态大模型
· Gpt写小说,常用的中文指令集「实操篇」
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
神奇的 OuteTTS - 0.1 - 350M:用几秒钟音频克隆声音的黑科技!
它采用纯
语
言
建
模
方式,打破了传统 TTS
模
型
依赖复杂架构和外部适配器的
模
式,为
语
音合成领域带来了新的思路。
OuteTTS-0.1-350M
音频
TypeChat 入门指南
传统
模
式下,创建自然
语
言
模
型
界面是一项复杂的任务,通常依赖复杂的决策树来确定意图并收集行动所需的输入。
TypeChat
一文带你认识ELMo
训练了从左到右或从右到左的
语
言
模
型
。
embedding
一旦参透「第一性原理」,便洞悉所有事的本质
建议您先
大
致浏览一遍并将其收藏,以便将来实际操作时能够参照查看,一旦学会,终身受用!
第一性原理
大模型
Stable Diffusion
Stable Diffusion WebUI v1.9.0重
大
更新!
根据
模
型
时间步长(Model timesteps)而不是采样步骤(Sampling steps)进行精炼器(Refiner)切换 从原理上来讲精炼器(Refiner)会根据采样器和
模
型
的训练方式
Stable
Diffusion
文生图
大模型
AIGC
聊聊 AIGC 一些拧巴的现状
今天,整理一下我得到的一些碎片化信息和观点分享给
大
家,希望有用。
开源模型
开源
开源打败闭源?Meta即将推出开源代码生成平台Code Llama,剑指OpenAI Codex
这套新的编码
模
型
将与 OpenAI 打造的 Codex 正面抗衡,并基于 Meta 的 Llma 2 软件——这是一种能够理解并生成会话文本的
大
语
言
模
型
。
开源模型
视频
栩栩如生,音色克隆,Bert-vits2文字转
语
音打造鬼畜视频实践
它是在本来已经极其强
大
的Vits项目中融入了Bert
大
模
型
,基本上解决了VITS的
语
气韵律问题,在效果非常出色的情况下训练的成本开销普通人也完全可以接受。
Bert-vits
语音
开发
语
音产品时设计唤醒词和命令词的技巧
韵母选择
大
口
型
,开口音的韵母,比如 a、ai、an、ian、ao,避免 e、i、en、in 等; 9.
语音产品
唤醒词
命令词
数字人
京东开源普通话数字人JoyHallo,一口流利标准普通话还会讲英
语
首先,收集全面的普通话数据集非常困难;其次,普通话的复杂口
型
动作使得
模
型
训练比英
语
更具挑战性。
JoyHallo
数字人
开源模型
人工智能
深度洞察:人工智能体(AI Agent)2024年重要发展趋势指南
随着
大
语
言
模
型
(LLM)驱动的人工智能体(AI Agent)的兴起,我们正处于一个新时代的边缘:人工智能体可能会形成自己的社会,与人类和谐共存。
AI
Agent
人工智能
国内厂商
语
音识别与Whisper评测:现状与概况对比
一、
语
音识别现状 二、评测意义与预期成果 三、评测方案 四、评测结果 一、
语
音识别现状 得益于近年来深度学习技术的快速发展,人工智能的主要分支(图像、
语
音、自然
语
言
处理等)都相继进入了
大
规
模
落地应用阶段
语音识别
Faster-Whisper
AI能赚到钱了么?
最近各种
大
模
型
密集发布,“赶上GPT4”“成为中国的OpenAI”等观点散见于各种文章。
大模型
商业模式
开源
OpenAI 开源
语
音识别 Whisper 的使用体验怎么样?
关于Buzz Buzz 是一款基于 OpenAI 开源 Whisper 自动
语
音识别
模
型
的软件工具,能够将音频或视频中的
语
音自动识别为带有时间戳的文本字幕。
生成式AI
开源
从 GPT-4o 到 LiveKit:实时
语
音交互的开源实现
LiveKit 不仅有一个开源的 voice agent 方案[1],还能为你提供一个成熟且强
大
的实时多
模
态 AI 解决方案。
GPT-4o
语音交互
<
...
42
43
44
45
46
47
48
49
50
51
...
>
1
2
4
5
6
7
8
9
100