文章列表-AI魔法学院

文章列表

【工具书】文生图常用的正向反向提示词以及常用词中英文对照表

yukkuri_shiteitte_ne, yuri, 自考虑：easynegative,toony,dated,line art,flat colors 最重要的反向词：NSFW 中英文对照

文生图 prompt 提示词

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一，远超知乎豆瓣小红书

离大谱了，弱智吧登上正经AI论文，还成了最好的中文训练数据？？

弱智吧训练数据集

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

各种AI工具也层出不穷，其中语音克隆技术也是尤为引人瞩目的产品之一。

tts 文本转语音

万字长文，大语言模型如何宣告心理学的死亡？

他设想了一个不懂中文的英语母语者被关在一个装满中文符号和指令书的房间里。

大语音模型

Stable Diffusion

【ComfyUI】Blender+Stable Diffusion！少年啊，这盛世如你所愿！（附中文汉化插件）

我们就先随便选择一个“文生图”中的“基础+自定VAE”吧。

开源模型

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

Fish Speech是一款由Fish Audio开发的开源的文本到语音（TTS）工具，支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。

Fish Speech 本地搭建

腾讯开源的数字人MuseTalk到底行不行？

该模型能够根据输入的音频信号，自动调整数字人物的面部图像，使其唇形与音频内容高度同步。

MuseTalk 数字人音频

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

就像一条简洁的高速公路，直接将文本输入转化为语音输出，避免了繁琐的中间转换环节，提高了语音合成的效率和速度。

OuteTTS-0.1-350M 音频

数字人：从科幻走向现实的技术革命

创建数字人需要多方面的技术支持，包括计算机图形学、动作捕捉、语音合成以及人工智能算法等。

数字人语音

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

SenseVoice模型具有的功能特点：多语言语音识别：SenseVoice 支持包括中文、英文、粤语、日语和韩语在内的多语言识别。

asr tts 声音

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

此外，MiniCPM-V 2.0 还具备了独家的跨语言多模态泛化技术，让大模型可以用中文解读英文菜单并给出推荐。

MiniCPM 大模型

15个中文AI写作提示词帮你覆盖所有主流写作场景！！！

请确保推文内容中不包含任何有争议或不适当的信息，并尽可能使用流畅、自然的语言。

写作 prompt 提示词

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

、音效、视频AI生成的可用工具都已齐备，一个人可以无痛carry一个短片，好故事将价值千金，有才华的人更难被埋没。

sora openai 视频生成

姜子牙大模型系列 | 为知识检索而生，Ziya-Reader开源，多个长文本中文任务第一

因此，关于检索增强的大模型的研究如火如荼，为了能从多个文档或超长文档中找到答案，各种超长上下文窗口的模型已经陆续发布。

大模型 Ziya

<...3 4 5 678 9 10 11 12 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1