编码图像tokenizer-从VQGAN到MAGVIT 来源Agent的潜意识我们在探讨patches的方方面面。不过patches有一个核心bug就是他的分片是简单切割的,比如一张图片切成9份,那么有可能,一个具象的语义信息,例如一个人脸,可能被切割在了 蓝海情报网 2024-04-28 537 # 图像# 离散# 分词# 随笔#