首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 全新换脸工具ReActor,比roop更强!
· 最新最强开源模型Qwen3本地运行指南!Windows+ollama+chatwise轻松搞定
· 为你推荐开源项目:Meridian——专属个人情报站!
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· 数字人起飞!字节Loopy对口型功能在即梦上线 可根据语境匹配表情和情绪
· ChatGLM智谱清言
· 了解Kimi必看的26个问题 | Kimi系列文(二)
· 阿里Qwen3系列模型惊艳亮相
· 你的下一个浏览器,可以是豆包电脑版!
· ComfyUI安装及生成第一张图
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
OpenAI
两天star量破千:OpenAI的Whisper被蒸馏后,
语
音
识别数倍加速
前段时间,「霉霉大秀
中
文
」的视频在各个社交媒体走红,随后又出现了「郭德纲大秀英
语
」等类似视频。
语音
HeyGen
大模型
和大模型相关的一些术
语
(持续更新
中
)
1.什么是AI AI,人工智能(Artificial Intelligence)的英
文
缩写。
大模型
人工智能
开源
GPT-4o实时
语
音
方案提供商Livekit开源voice agent:轻松处理
音
视频流
该框架包括用于常见工作流程的插件,例如
语
音
活动检测和
语
音
转
文
本。
voice
agent
开源
音视频
深入浅出:大
语
言模型
中
必不可少的技术——Embedding简介
、图片、
音
频)映射到低维度空间的过程。
embedding
教程
AI声
音
克隆 | 最全最简教程(权威版)
TTS 的英
文
全名是 Text To Speech,
中
文
译名是“
文
本转
语
音
”。
声音克隆
教程
开源
中
文
开源OCR框架对比及介绍
亦即将图像
中
的
文
字进行识别,并以
文
本的形式返回。
OCR
大模型
大规模
中
文
开源数据集发布!2TB、几十亿条可商用的
中
文
数据集书生·万卷 1.0开源~
中
文
大模型能力可能要更上一层楼了!
特别是大规模
中
文
数据集十分缺乏,对
中
文
大模型以及业界模型的
中
文
支持都有很大的影响。
大模型
开源
OpenAI 开源
语
音
识别 Whisper 的使用体验怎么样?
关于Buzz Buzz 是一款基于 OpenAI 开源 Whisper 自动
语
音
识别模型的软件工具,能够将
音
频或视频
中
的
语
音
自动识别为带有时间戳的
文
本字幕。
生成式AI
开源
从 GPT-4o 到 LiveKit:实时
语
音
交互的开源实现
今天我们来聊聊OpenAI 发布会提到的实时对话
语
音
技术。
GPT-4o
语音交互
GLM-4-Voice 9B——实时多
语
言
语
音
对话 AI——几分钟内即可在本地安装
如何设置 GLM-4-Voice 9B 以实现无缝的实时
语
音
交互,支持英
语
和
中
文
,并探索其独特的架构、低延迟响应和可定制的声
音
属性。
GLM-4-Voice
9B
语音
安装
大模型
语
言大模型100K上下
文
窗口的秘诀
在
语
言模型
中
,上下
文
窗口对于理解和生成与特定上下
文
相关的
文
本至关重要。
大模型
Prompt
Claude 官方提示词,
中
文
版(含API Prompt)
这里有一份
文
件,你将回答有关的问题:[Matterport SEC 备案10-K 2023的全
文
,为简洁起见未粘贴]首先,找出
文
件
中
与回答问题最相关的引
语
,并按编号顺序打印出来。
prompt
写作
工具
TTS,一个奇妙的AI工具
简介 TTS是一个将
文
本变换成
语
音
的AI工具。
TTS
文本转语音
大模型
中
文
原生
文
生图大模型来了!腾讯混元推出,Sora 同架构
开源地址:https://github.com/Tencent/HunyuanDiT 这是业内首个
中
文
原生的DiT架构
文
生图开源模型,支持
中
英
文
双
语
输入及理解,
文生图
混元
腾讯
下载
8个常用
中
文
OCR数据集,附下载链接
2012 年在 CVPR 发布,是一个用于测试和评估多方向、多
语
言
文
字检测算法的自然图像数据集,包含500幅拍摄于室内(办公室和商场)和室外(街道)场景的自然图像。
OCR
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100