2023年8月

目前的ai模型大致可以分为文字生成、图片生成、视频生成、音频生成几种。
闭源ai有很多，大都需要收费或者翻出去才能用，国内很少真正能用的。
开源的更多，但大都对用户有一定的技术要求。
下面就简单说一下刚刚接触到ai工具的小指南：
一、文字生成
闭源比较好用的主要是chatgpt，但不对国内开放。
第三方平台非常多，做的最好的是poe.com，但是需要翻出去。建议有能力的可以直接翻出去用poe.com。
如果不想翻，就只好本地部署。
本地部署的模型可以用显卡GPU运行，也可以跑在CPU上；但是CPU的算力很低，除非是显卡真的不支持或者太low，否则最好别用cpu。
cpu的方式部署倒是很简单，直接使用gpt4all这个软件就可以。在github上能找得到。安装后，可以在它的软件里下载很多主流开源的大语言模型，很简单。
gpu部署，对显卡是有一定要求的，首先看看自己是不是nvdia的显卡，如果不是就不用考虑了；再看看显存有没有6G或更高，要是低于6G也不用考虑了。最后再看一下自己显卡型号有没有在cuda支持的显卡清单里。
如果支持，建议最开始使用清大开源的chatGLM-6B这个模型，可以在github上找到下载，里面有很完整的部署教程。
二、图片生成
闭源比较好用的，也是所有开源闭源里面最好的，就是midjourney，好像是需要翻出去。有能力的直接用这个就行了。要收费。
开源的那当然就是sd。建议使用秋叶sd启动器进行安装，可以在B站上搜“秋叶SD启动器”，应该就能找到。加入他们的QQ频道就可以得到这个软件了。淘宝上也有很多卖这个启动器的，注意：凡是花钱买的都被坑了，人家作者是免费开放的。
这个东西在本地部署必须要好点的显卡，也就是最低6G显存的nvdia卡，支持cuda的。这个部署起来相对比较简单，因为复杂的工作，秋叶启动器都已经做了。
这个启动器安装好之后就直接可以用，很简单。要注意，安装的时候一定要关掉所有杀毒软件，包括windows系统自带的。
三、音频生成类
音频生成有很多类型，比如文字转语音、语音转文字、音色模仿、音乐生成等等。我自己常用的是文字转语音功能。
文字转语音，闭源的最好用的是微软免费提供的：https://clipchamp.com/
打开注册一个账号就可以使用，很简单。中文有好多种方言，也有普通话；每种方言和普通话又都有很多个不同风格的朗诵者，还可以调语速等等，相当好用。建议直接用这个就行了，也不用翻出去。
开源的还有语音转文字、音色模仿的软件，由于有一定的其他方面的风险，没有十分必要的话建议就别碰了。
音乐生成类的我也没用过，而且目前好象没有开源的能生成音乐的模型。
四、视频生成类
闭源的我没用过，据说有免费平台可以生成几秒的，可以搜索找一下。
用的比较多的是换脸类的模型，有好多，比如deepfacelab，可以自己体验一下。大都需要一定的python语言调试基础。

AI工具入门省事指南

最新文章

最近回复

分类

归档

其它