首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· OCR的终极解法——传统算法VS多模态大模型
· cursor+coze智能体,一行代码没写,我撸了个小程序
· 腾讯 IMA: AI 智能教学新助手
· AI换脸工具:facefusion使用心得
· ComfyUI 图片以及工作流管理神器
· 用so-vits-svc-4.1进行音色转换的极简教程!
· 6个最佳开源TTS引擎
· 我尝试了 100 个免费 AI 工具,这些是最好的
· AI产生意识,对人类意味着什么
· 最强开源数字人对口型系统介绍
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
OpenAI 开源
语
音
识别 Whisper 的使用体验怎么样?
Buzz
语
音
转
文
字
工具的特点 高度精确:基于 OpenAI 提供的 Whisper 自动
语
音
识别技术,这是一款功能强大的机器学习模型。
生成式AI
开源
从 GPT-4o 到 LiveKit:实时
语
音
交互的开源实现
今天我们来聊聊OpenAI 发布会提到的实时对话
语
音
技术。
GPT-4o
语音交互
GLM-4-Voice 9B——实时多
语
言
语
音
对话 AI——几分钟内即可在本地安装
如何设置 GLM-4-Voice 9B 以实现无缝的实时
语
音
交互,支持英
语
和中
文
,并探索其独特的架构、低延迟响应和可定制的声
音
属性。
GLM-4-Voice
9B
语音
安装
阿里
阿里&
字
节发表VividTalk,只需单张照片即可根据
音
频生成栩栩如生的人物说话头像视频
只需提供一张人物的静态照片和一段
语
音
录
音
,VividTalk即可制作出一个看起来像是实际说话的人物的视频。
VividTalk
视频
Transformer
TrOCR——基于transformer模型的OCR手写
文
字
识别
前期我们使用大量的篇幅介绍了手写数
字
识别与手写
文
字
识别,当然那里主要使用的是CNN卷积神经网络,利用CNN卷积神经网络来训练
文
字
识别的模型。
OCR
手写
文字识别
大模型
语
言大模型100K上下
文
窗口的秘诀
在
语
言模型中,上下
文
窗口对于理解和生成与特定上下
文
相关的
文
本至关重要。
大模型
开源
Chinese-LLM开源中
文
大
语
言模型合集
-6B 简介:一个开源的,支持图像、中
文
和英
文
的多模态对话
语
言模型,
语
言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与
语
言模型的桥梁
大模型
中文
提示词
18种 DALL-E 3 炫酷的
文
字
效果和提示词
DALL-E 3 不仅可以在图片上生成
文
字
,还可以把
文
字
巧妙地融合到图像中。
DALL-E
3
提示词
文生图
RAG
图解检索增强式生成(RAG)技术 | 万
字
长
文
3、假设性问题和 HyDE 另一种方法是让 LLM 为每个
文
本块生成一个问题,并将这些问题
转
化为向量。
检索增强式生成
RAG
OCR
【重磅推荐】PaddleOCR:超越人眼识别率的AI
文
字
识别神器!
导
语
:在当今数
字
化时代,人工智能技术已经渗透到各个领域。
PaddleOCR
文字识别
请以“亮相”为题目写一篇记叙
文
,要求不少于700
字
。
文
心一言: “亮相”是一个瞬间,一个舞台上的演员在掌声雷动中,优雅地走到台前,向观众鞠躬致意,展示自己的风采。
中文
大模型
训练
LLM
一
文
汇总大
语
言模型LLM所有prompt提示词框架的论
文
出处
能够让大模型推理结果变得更好的基础优化手段已经非常多了,这里梳理了常见的提示技术手段和对应的论
文
: - Zero-shot(零样本提示):https://arxiv.org/abs/2109.01652
prompt
提示词
开源
OpenAI真的开源了!这波「实时
语
音
」操作,让万物开口说话,我爱了
以前,智能玩具里只能播放预设的程序和声
音
,顶多就是进行一两轮简单提问,你可以理解成是“单向输出”,现在有了这个 openAI 的实时
语
音
软件开发包,就变成了“双向交互”,能和你进行实时的
语
音
对话。
OpenAI
嵌入式实时语音
SDK
大模型
万
字
长
文
,AI大模型的应用实践总结
但是进行模型训练之前需要先进行模型格式
转
换,将HF格式
转
换为Alpa格式的模型
文
件,具体请参考官方代码。
大模型
ChatGLM
【万
字
长
文
】LLaMA, ChatGLM, BLOOM的参数高效微调实践
LLaMA在中
文
上效果差,一方面是由于LLaMA模型是在以英
文
为主的拉丁
语
系
语
料上进行训练的,训练
语
料不包含中
文
;另一方面,与tokenizer有关,词表规模小,可能将一个汉
字
切分为多个token,编码效率低
大模型
微调
训练
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100