图片与文本的关系思考以及AIGC作品汇总
文本是一种符号系统,图像是另一种符号系统,不同的符号系统之间不可能完全一一映射,因而影像也不会被文本完全破解。 ——秉蕳.2023
图像与文本
威廉·弗鲁塞尔在《摄影哲学的思考》一书中深入探讨了文本与影像的关系。他指出:“影像是世界(客观)与人类(主观)之间的中介,因为人类无法直接理解世界,是影像让世界变得可以想象,影像的存在是为了让人类在世界上辨明方向。”而书写的发展却与之背道而驰,人们借由“概念思维”从现象中抽离出文本,从而来解读现象,把四维时空抽象成简单的线条,把影像撕成了一个个碎片。反过来讲,对一段文本的解读的过程就是对影像的重建,比如读到朱自清的散文《春》,脑袋里就自然浮现出那一派春意盎然的画面。文本是影像的元代码(Metacode),它最原始的意图就是解释影像,把表象转化成概念,这也可以从象形文字的起源并逐渐抽象化的过程得到印证。
桃树、杏树、梨树,你不让我,我不让你,都开满了花赶趟儿。红的像火,粉的像霞,白的像雪。花里带着甜味;闭了眼,树上仿佛已经满是桃儿、杏儿、梨儿。花下成千成百的蜜蜂嗡嗡地闹着,大小的蝴蝶飞来飞去。野花遍地是:杂样儿,有名字的,没名字的,散在草丛里,像眼睛,像星星,还眨呀眨的。
——朱自清《春》
文本与影像的斗争贯穿了整个历史,是历史的一个核心问题。中世纪发生过一场忠实于文本的基督徒与膜拜偶像的异教徒之间的斗争,到了现代,则是文本化的科学和影像结合在一起的意识形态之间的斗争。斗争是辩证的。某种程度上讲,基督教与异教斗争,它汲取了影像,于是它本身变得异教化。而科学意识形态的对抗却汲取了表像,它本身变得意识形态化。由此,威廉提出了一个恰当的解释:“文本解释了影像,为的是把影像解释清楚。但是影像也图解了文本,为的是让人可以想象文本的意义。”影像代表了由影像元素、观者意图、时代背景等复杂因素相互交错而成的“魔法”思维,而文本代表了准确、抽象的概念思维,这两种思维发展过程中互相渗透,互为补充。这就是为什么图文并茂、数形结合、加文字的小表情包、小说作品影视化等很受大众欢迎的原因。另一个典型的例子就是建模与游戏行业:3d建模软件做出来的模型是由高度格式化的代码组成,可以很完美地绘制一个场景,但少了以高分辨率的贴图,就丑的离谱。(详见扎克伯格放出的元宇宙自拍),当两者恰当的结合就可以创造出来媲美真实的场景虚幻引擎5 (Unreal Engine - 5)就是一个鲜明的例子。
在时代发展中,影像变得越来越概念化,文本变得越来越富有想象。最抽象的概念可以从影像中找到,比如电子化的位图以复杂的无法解读的代码在计算机中储存。最大的想象,可以从科学文本中看到。这样一来,文本与影像的原始层级关系就被彻底推翻了,文本是影像的元代码,它本身也能够把影像作为元代码!
【文本不可想象性的深刻例证】:下式正确地推测了宏观物体具有波动性(德布罗意波),你能想象出来吗?
作者最后提到:“按照‘历史’一词的准确意义,历史就是逐渐把影像编码为概念,逐渐解释影像,逐渐给影像去魔法化,逐渐理解影像。然而如果文本变得难以想象,就没有更多可解释的了,历史也就走到了尽头。在文本的危机中,技术性的影像被发明出来:为了再一次让文本能够为人所理解,就得再度让它充满魔法,才能克服历史的危机。”
到了今天,技术性的影像在解释世界上有了很大的进步,比如准确的高清卫星图片,探索宇宙的詹姆斯韦伯望远镜拍摄的天体图像、联合望远镜组拍摄的事件视界黑洞照片,当然还有数不清的社交平台上大大小小的照片作品等,这些普遍存在的技术性影像极大的拓展了我们的视野,丰富了认知。但由于信息社会爆炸的信息,孤岛化的平台,严格化的审查,不同意识形态的对立,它们也并没能让人类更好地理解世界。就目前而言,影像也受到了不少威胁。比如源自极端化“概念思维”的绘画流派——超写实主义的威胁,以及下文中将要重点说明的基于AI的文字生产图像技术的威胁。至于它未来会怎样发展,咱们拭目以待。
Ai绘图指导(笔记)
注:下文所有图像都来生成于美梦工作室(暂译),部分翻译、修改自DreamStudio- Prompt Guide以及 提示工程 - AiDraw (dianas.cyou)
就使用者而言,ai绘图其实非常简单——给出一堆“提示词(Prompt)”,调整几个参数,得到图像。至于深层的原理,是基于神经网络的各种神奇魔法,具体实现的细节请自行搜索,在此不做详谈。
Prompt指导
“Prompt” 可以译作“提示、指示”,黑话叫做“咒语”,是生成图片的最关键元素。Prompt 也可以直接使用自然语言,语种可以是英文,日文,特殊符号或一些中文,这由数据集决定。自然语言的准确度取决于 Clip 的分词情况,如果你追求精确的结果,请勿使用。使用自然语言的时候要避免 with
之类的连接词或复杂的语法,它们很多余[^1]。逗号前后的少量空格并不影响实际效果。
如何写?
先想一下你要画什么,例如 主题,外表,情绪,衣服,姿势,背景 一类,然后参考数据集标签表(如果有的话,比如 Danbooru, Pixiv 等)。
然后将你想要的相似的提示词组合在一起,请使用英文半角 ,
做分隔符,并将这些按从最重要到最不重要的顺序排列。
(quality), (subject)(style), (action/scene), (artist), (filters)
(quality)
代表画面的品质,比如 low res
结合 sticker
使用来 “利用” 更多数据集, 1girl
结合 high quality
使用来获得高质量图像。
(subject)
代表画面的主题,锚定画面内容,这是任何提示的基本组成部分。(style)
是画面风格,可选。
(action/scene)
代表动作/场景,描述了主体在哪里做了什么。
(artist)
代表艺术家名字或者出品公司名字。
(filters)
代表一些细节,补充。可以使用 艺术家,工作室,摄影术语,角色名字,风格,特效等等。
你可以通过指定风格关键词来创作带有特效或指定画风的图片。
Dreamstudio高级语法
在Dreamstudio中提示的权重被定义为一个从-1
到1
之间的值,1
是完全的权重,-1
是最负面的否定性质的权重。否定提示与提示相反,允许用户告诉模型不生成什么。负面提示通常会消除不需要的细节,例如手部损坏或手指过多或失焦和图像模糊。使用方法是附加“|<否定提示>:-1.0“
到提示符。例如,附加“| disfigured, ugly:-1.0, too many fingers:-1.0”
可能有助于解决生成太多手指的问题。
t2i示例
《矢量老鹰》
来自社区的示例Stable Diffusion - Prompts examples
- Steps: 20, Sampler: Euler a, CFG scale: 7.0, Seed: 916350308, Size: 512x512, Model hash: 82aac931
overwhelmingly beautiful eagle framed with vector flowers,
主题:被矢量风格花朵包围的极其漂亮的老鹰long shiny wavy flowing hair, ultra detailed vector floral illustration mixed with hyper realism
细节:长而闪亮的波浪形飘逸头发,超详细的矢量花卉插图与超现实主义风格混合polished,muted pastel colors, vector floral details in background, muted colors, hyper detailed ultra intricate overwhelming realism in detailed complex scene with magical fantasy atmosphere, no signature, no watermark
风格:抛光,柔和色彩,背景中的矢量花卉细节,柔和的颜色(重复),超详细的、超复杂的、压倒性现实主义,具有幻想氛围的复杂场景中,没有签名,没有水印。
1 | beautiful eagle framed with vector flowers, polished, ultra detailed vector floral illustration mixed with hyper realism, muted pastel colors, vector floral details in background, muted colors, hyper detailed ultra intricate overwhelming realism in detailed complex scene with magical fantasy atmosphere, | vibrant background,4k detailed post processing,:1,|ugly, ugly arms, ugly hands, ugly teeth, ugly head, ugly mouth, ugly eyes, ugly ears:-1 |
《兔子》
1 | rabbit, by Roy Liechtestein, Calligraphy, Warm Color Palette, 2D, 4k, Soft Lighting |
1 | A hyperrealistic drawing of a cute white rabbit |
《中世纪贵族女子》
a girl,Western aristocracy, emphatic exclamation, beauty,trimming a hat ,in dinner, pride and prejudice,diffuse lighting, fantasy, intricate elegant highly detailed, 4 k resolution, trending on artstation, masterpiece | hyperrealism| highly detailed
img2img
图像生成图像也好玩,
Interactive Photoguard
This is an unofficial demo for Photoguard, which is an approach to safeguarding images against manipulation by ML-powered photo-editing models such as stable diffusion through immunization of images. The demo is based on the Github implementation provided by the authors.
《土地庙》
控制网络生成
ControlNet - a Hugging Face Space by RamAnanth1
This is an unofficial demo for ControlNet, which is a neural network structure to control diffusion models by adding extra conditions such as canny edge detection. The demo is based on the Github implementation.
《老人在厨房》
《庙门前的金属雕像》
《阳台上的盆栽》
《雪人》
《黑洞》
####《二龙戏珠》
《草地上的外星人》
《玉石蜗牛》
其他
各种有趣的ai实例:Spaces - Hugging Face
免费体验的生成器:stablediffusion.fr
Prompt生成器:DreamStudio prompt generator - promptoMANIA