2023年8月

目前的ai模型大致可以分为文字生成、图片生成、视频生成、音频生成几种。
闭源ai有很多,大都需要收费或者翻出去才能用,国内很少真正能用的。
开源的更多,但大都对用户有一定的技术要求。
下面就简单说一下刚刚接触到ai工具的小指南:
一、文字生成
闭源比较好用的主要是chatgpt,但不对国内开放。
第三方平台非常多,做的最好的是poe.com,但是需要翻出去。建议有能力的可以直接翻出去用poe.com。
如果不想翻,就只好本地部署。
本地部署的模型可以用显卡GPU运行,也可以跑在CPU上;但是CPU的算力很低,除非是显卡真的不支持或者太low,否则最好别用cpu。
cpu的方式部署倒是很简单,直接使用gpt4all这个软件就可以。在github上能找得到。安装后,可以在它的软件里下载很多主流开源的大语言模型,很简单。
gpu部署,对显卡是有一定要求的,首先看看自己是不是nvdia的显卡,如果不是就不用考虑了;再看看显存有没有6G或更高,要是低于6G也不用考虑了。最后再看一下自己显卡型号有没有在cuda支持的显卡清单里。
如果支持,建议最开始使用清大开源的chatGLM-6B这个模型,可以在github上找到下载,里面有很完整的部署教程。
二、图片生成
闭源比较好用的,也是所有开源闭源里面最好的,就是midjourney,好像是需要翻出去。有能力的直接用这个就行了。要收费。
开源的那当然就是sd。建议使用秋叶sd启动器进行安装,可以在B站上搜“秋叶SD启动器”,应该就能找到。加入他们的QQ频道就可以得到这个软件了。淘宝上也有很多卖这个启动器的,注意:凡是花钱买的都被坑了,人家作者是免费开放的。
这个东西在本地部署必须要好点的显卡,也就是最低6G显存的nvdia卡,支持cuda的。这个部署起来相对比较简单,因为复杂的工作,秋叶启动器都已经做了。
这个启动器安装好之后就直接可以用,很简单。要注意,安装的时候一定要关掉所有杀毒软件,包括windows系统自带的。
三、音频生成类
音频生成有很多类型,比如文字转语音、语音转文字、音色模仿、音乐生成等等。我自己常用的是文字转语音功能。
文字转语音,闭源的最好用的是微软免费提供的:https://clipchamp.com/
打开注册一个账号就可以使用,很简单。中文有好多种方言,也有普通话;每种方言和普通话又都有很多个不同风格的朗诵者,还可以调语速等等,相当好用。建议直接用这个就行了,也不用翻出去。
开源的还有语音转文字、音色模仿的软件,由于有一定的其他方面的风险,没有十分必要的话建议就别碰了。
音乐生成类的我也没用过,而且目前好象没有开源的能生成音乐的模型。
四、视频生成类
闭源的我没用过,据说有免费平台可以生成几秒的,可以搜索找一下。
用的比较多的是换脸类的模型,有好多,比如deepfacelab,可以自己体验一下。大都需要一定的python语言调试基础。