首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 多智能体开发框架怎么选型?京东 JoyAgent vs langchain LangGraph,两种Agent开发哲学的碰撞!
· 3.5k star!一款万能的 SQL 分析工具,厉害了!
· PPT又又有新突破了!智谱AI代码流造PPT
· Deepseek-V2技术报告解读!全网最细!
· 数字人之声音克隆:无样本,1分钟样本完美克隆声音,开源
· SD入门教程四:图生图基础用法
· StableDiffusion模型推荐系列(功能型)
· 了解Kimi必看的26个问题 | Kimi系列文(二)
· 【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比,等你来评!
· 盘点字节跳动最新的AI应用
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
ai出
图
软件Fooocus
今天跟大家介绍下ai出
图
软件Fooocus 在我们c站插件站可以下载 Fooocus出来有段时间了,作者就是cn作者还是个国人。
Fooocus
文生图
开源
开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
https://arxiv.org/pdf/2311.07919.pdf 开源代码:https://github.com/QwenLM/Qwen-Audio 引言 大型语言模型(LLMs)由于其良好的
知
识
保留能力
大模型
语音
全球学术界
知
名学者教授信息大盘点(全)
如果你还在迷茫找不到方向,又或者要留学不
知
道找哪个导师,那么你可以看一下这些大佬们的研究方向和主页,希望对你能有所帮助。
AI大佬
知名学者
Transformer
图
解 Transformer——功能概览
作者在系列文章中,介绍了 Transformer 的基本
知
识
,架构,及其内部工作方式,并深入剖析了 Transformer 内部的细节。
Transformer
大模型
图解
开源
几款开源的OCR
识
别项目,收藏备用
github.com/PaddlePaddle/PaddleOCR.git EasyOCR EasyOCR是用Python编写基于Tesseract的OCR
识
别库
OCR
开源
OCR是什么以及推荐几款开源中文OCR
识
别软件
光学字符
识
别(Optical Character Recognition, OCR)是指对文本资料的
图
像文件进行分析
识
别处理,获取文字及版面信息的过程。
OCR
语音
Insanely Fast Whisper:超快的Whisper语音
识
别脚本
这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。通过使用Transformers和Optimum技术,可以在不到10分钟内转录300分钟(5小时)的音频。作者提供了几种优化方式,包括批处理、半精度处理以及BetterTransformer,以提高转录速度。最终,作者以实际测试数据展示了不同优化方式的速度对比。同时,还提到了Whisper.cpp的性能测试、4位推断性能测试、以及一个CLI工具的社区展示。这篇文章旨在展示如何使Whisper模型在转录2-3小时的音频时更加高效。
音频
Whisper
开源
来个优秀的开源人脸
识
别项目!
虹膜
识
别技术通过全自动照相机寻找并聚焦虹膜,实现高精度
识
别。
人脸识别
开源项目
Agent
谈Agent构建平台的设计
平台是否会对他们提出过分的技能/
知
识
要求?
Agent
构建
ComfyUI
ComfyUI 基础教程(二):文生
图
基础流程
节点搜索窗口方式:双击鼠标呼出节点搜索窗口,如果你
知
道节点的名称,可以直接搜索,节省时间。
comfyui
文生图
开源
中文开源OCR框架对比及介绍
从严格定义来看,学字符
识
别(Optical Character Recognition, OCR)是指对文本资料的
图
像文件进行分析
识
别处理,获取文字及版面信息的过程。
OCR
Transformer
图
解 transformer——逐层介绍
位置编码(Position Encoding) RNN 在循环过程中,每个词按顺序输入,因此隐含地
知
道每个词的位置。
Transformer
大模型
图解
RAG
你真的会写 Prompt ? 剖析 RAG 应用中的指代消解
其中,检索增强生成(Retrieval-augmented generation,RAG)是一种针对
知
识
密集型 NLP 任务的生成方法,它通过在生成过程中引入检索组件,从已
知
的
知
识
库中检索相关信息
Prompt
大语言模型
RAG
Stable Diffusion
Stable Diffusion基础:ControlNet之
图
片高仿
今天继续给大家分享AI绘画中 ControlNet 的强大功能,本次的主角是 Reference,它可以参考一张
图
片生成另一张看起来差不多的
图
片,这句话说起来有点绕,如果换成高仿,大家应该就明白了吧。
文生图
视频
图
文生成短视频的方法
我完全不
知
道自己能讲什么,每次尝试,都很痛苦,痛苦的原因在于:我不能像自己看过视频里的人一样——口若悬河,张口就来。
视频
ChatGPT
<
...
4
5
6
7
8
9
10
11
12
13
...
>
1
2
4
5
6
7
8
9
100