文章列表-AI魔法学院

文章列表

OCR的终极解法——传统算法VS多模态大模型

多模态大模型是一类采用深度学习技术构建的人工智能模型，它能够处理和理解多种类型的数据模态，如文本、图像、声音等。

OCR 大模型文字识别

Stable Diffusion

Stable Diffusion｜儿童绘本全流程制作分享

接着，选择语言以及音色。

StableDiffusion 绘本

如何用ChatGPT创建阅读10W+爆款文章标题

在各大社交媒体平台，如B站、头条、抖音和公众号上，一篇没有吸引力标题的文章是很难获得流量的。

GPT-4

Stablediffusion3论文下载-确定了Stablediffusion3与Sora的架构是一致的

2月16日伴随着OpenAI世界大模型Sora的发布，stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向

SD 论文

你是否发现ChatGPT甚至不能按字数要求回复问题？有人做了评测并讨论了可能的原因

作者进一步设计了一个新的简单但具有挑战性的基准，名为数值规划基准(NPB)，其任务是让生成内容满足四个粒度（词级、音节级、句子级和段落级）的数学约束且满足不同的内容约束（例如前缀和结尾）。

大模型控制

测评了8个国产AI大模型，差点崩溃……

从自然语言处理到语音识别，从情感分析到知识问答，大模型的应用已经渗透到我们生活的方方面面。

大模型测评

这个方法可以让AI写出的文章完全去掉GPT味儿！

捕捉灵感：当灵感来袭时，立即用手机文字或者语音输入功能记录下来，不受限制地自由发挥。

ChatGPT 写作

解放AI生产力——为什么要使用ComfyUI

可能有一些知道AI绘画的人会说利用图生图降低噪声强度，减少修改的范围，只修改你要修改的部分就行了，（或者使用蒙版，意思是一样的）在这里我可以和你说，在关于这个方法的视频发出来的几个月前我就试出来了这种方法

文生图

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

语音到文本多模态开源对话模型 (LLaSM) LinkSoul.AI 开源了可商用的中英文双语语音 - 语言助手 LLaSM 以及中英文语音 SFT 数据集 LLaSM-Audio-Instructions

开源模型

最详细的文本分块(Chunking)方法——可以直接影响基于LLM应用效果

这个真正难题我在前面的文章中《一些LLM的声音总结》中提到过，基于大模型的企业应用中很大一部分需求就是RAG——检索增强生成。

RAG 大模型

GPT让你拥有超强的写作能力！

密切注意保持作者原始的声音和意图，同时进行必要的调整以增强清晰度和流畅性 4、为特定受众定制语言 prompt：作为一名校对专家，你的任务是调整给定的[文本]，使之与特定的[目标受众]产生共鸣。

GPT 写作

我去华强北走了一圈，发现这里正被另一种 AI 包围

这款产品和传统形态的翻译机不同，是一个磁吸金属小圆片，贴在手机后做声音录入，颇有科技感，连接手机蓝牙后，能够翻译手机内的一切文字和语音，包括微信实时对话。

华强北 AI

向量数据库失宠了？OpenAI 力捧检索增强生成（RAG）技术，对行业来说意味着什么？

对于这些唱衰的声音，一位 IDswyx 的用户为在 X 上发表言论称：“对于今年向向量数据库投资 2.35 亿美元的公司来说，他们要的不是基础模型实验室 Sherlocking 和增加上下文长度这些基础功能

检索增强生成大语音模型

颠覆数据存储方式：向量数据库的威力

向量数据库通过计算向量之间的相似度来搜索数据，因此它特别适用于人脸识别、语音识别、推荐系统等需要高维度数据处理的领域。

编程数据库

鹅厂版AI笔记悄悄上线，微信公众号优质内容秒变专属知识库，实测在此

基于Gemini 1.5，其最新音频摘要功能，可以让用户根据特定主题生成类似播客的音频对话。

ima copilot 搜索

<...8 9 10 111213 14 15 16 17 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1