Salesforce¿ªÔ´Í³Ò»¶àģ̬ģÐÍBLIP3-o£¬Í¼ÏñÀí½âÓëÉúÓñ³ÉÄÃÏÂ
OpenAI µÄ GPT-4o ÔÚͼÏñÀí½â¡¢Éú³ÉºÍ±à¼ÈÎÎñÉÏÕ¹ÏÖÁ˶¥¼¶ÐÔÄÜ¡£Á÷Ðеļܹ¹ÁÏÏëÊÇ£º
Tokens ¡ú [Autoregressive Ä£ÐÍ] ¡ú [Diffusion Ä£ÐÍ] ¡ú ͼÏñÏñËØ
¸Ã»ìÏý¼Ü¹¹½«×ԻعéÓëÀ©É¢Ä£Ð͵ÄÓÅÊÆ½áºÏ¡£Salesforce Research¡¢ÂíÀïÀ¼´óѧ¡¢¸¥¼ªÄáÑÇÀí¹¤¡¢Å¦Ô¼´óѧ¡¢»ªÊ¢¶Ù´óѧµÄÑо¿ÕßÔÚ×îеÄÑо¿£¨Í³Ò»¶àģ̬ģÐÍ BLIP3-o£©ÖÐÒ²½ÓÄÉÁË×Իعé + À©É¢¿ò¼Ü¡£
ÂÛÎÄÌâÄ¿£ºBLIP3-o: A Family of Fully Open Unified Multimodal Models¡ªArchitecture, Training and DataseÂÛÎĵص㣺https://arxiv.org/pdf/2505.09568v1GitHub ´úÂ룺https://github.com/JiuhaiChen/BLIP3oÄ£ÐÍÈ¨ÖØ£ºhttps://huggingface.co/BLIP3o/BLIP3o-ModelÔÚÏßÑÝʾ£ºhttps://huggingface.co/spaces/BLIP3o/blip-3oԤѵÁ·£ºhttps://huggingface.co/datasets/BLIP3o/BLIP3o-Pretrain-Long-CaptionÖ¸Áî΢µ÷£ºhttps://huggingface.co/datasets/BLIP3o/BLIP3o-60k
ÔÚÕâ¸ö¿ò¼ÜÀ×ԻعéÄ£ÐÍÏÈÉú³ÉÁ¬ÐøµÄÖмäÊÓ¾õÌØÕ÷£¬ÓÃÒÔÆÈ½üÕæÊµÍ¼ÏñÌåÏÖ£¬½ø¶øÒý³öÁ½¸öÒªº¦ÎÊÌ⣺
ÕæÊµÌØÕ÷À´Ô´ (Ground-truth features)£ºÓà VAE ÕÕ¾É CLIP ½«Í¼Ïñ±àÂëΪÁ¬ÐøÌØÕ÷£¿ÌØÕ÷¶ÔÆë·½·¨£ºÊ¹Óà MSE Ëðʧ£¬ÕվɽèÖúÀ©É¢Ä£ÐÍ£¨Flow Matching£©À´¶ÔÆëÔ¤²âÓëÕæÊµÌØÕ÷£¿
ͳһ¶àģ̬ϵÄͼÏñÉú³É
Ñо¿Õß¿¼²ìÁ½ÖÖͼÏñ±àÂë¨C½âÂ뷶ʽ£º
VAE£º½«Í¼Ïñ±àÂëΪ low level ÏñËØÌØÕ÷£¬ÒÔ»ñµÃ¸üºÃµÄÖØ½¨ÖÊÁ¿¡£µ« VAE ±àÂëÆ÷ÔÚ´¦Àí¸ü¸ßÇø·ÖÂÊÊäÈëʱ£¬»áÉú³É¸ü³¤µÄÏòÁ¿ÐòÁУ¬´Ó¶øÔö¼ÓѵÁ·Àú³ÌÖеÄÅÌËãµ£¸º¡£CLIP + Diffusion£ºÏȽ«Í¼ÏñÓ³Éäµ½ high level ÓïÒåÌØÕ÷£¬ÔÙͨ¹ýÀ©É¢Ä£ÐÍÖØ½¨ÕæÊµÍ¼Ïñ¡£ÔÚʵ¼Ê²Ù×÷Àú³ÌÖУ¬»áÏÈÓà CLIP »ñµÃͼÏñÌØÕ÷£¬È»ºó»ùÓÚ CLIP feature ѵÁ·Ò»¸öÀ©É¢Ä£ÐÍÀ´Öؽ¨Í¼Ïñ¡£¸ÃÒªÁìÀûÒæÊÇÎÞÂÛÊäÈëͼÏñÇø·ÖÂÊÈçºÎ£¬Ã¿ÕÅͼÏñ¶¼¿É±àÂëΪÀι̳¤¶ÈµÄÁ¬ÐøÏòÁ¿ £¨ºÃ±È³¤¶ÈΪ 64 µÄÏòÁ¿£©£¬ÕâÖÖ±àÂë·½·¨ÄÜÓнϺõÄͼÏñѹËõÂÊ£»µ«ÐèÒªÌØ±ðѵÁ·À´Ê¹À©É¢Ä£ÐÍÊÊÅä²î±ðµÄ CLIP ±àÂëÆ÷¡£
Õë¶Ô×ԻعéÄ£ÐÍÔ¤²âµÄÊÓ¾õÌØÕ÷Óë VAE/CLIP ÌṩµÄÕæÊµÌØÕ÷£¬ÓÐÁ½ÀàѵÁ·Ä¿±ê£º
MSE£º¶ÔÔ¤²âÌØÕ÷ÓëÕæÊµÌØÕ÷ÅÌËã¾ù·½Îó²îFlow Matching£º»ùÓÚ×ԻعéÄ£ÐÍÉú³ÉµÄÔ¤²âÌØÕ÷£¬Í¨¹ýÁ÷Æ¥ÅäËðʧѵÁ·Ò»¸ö Diffusion Transformer£¬Óà Diffusion Transformer µÄÊä³öÖµÀ´ÆÈ½ü CLIP »ò VAE ÌØÕ÷
½áºÏ²î±ðµÄ±àÂë¨C½âÂë¼Ü¹¹ÓëѵÁ·Ä¿±ê£¬¹²ÓÐÈýÖÖÉè¼ÆÑ¡Ôñ£º
CLIP + MSE£º×îС»¯Ô¤²â±íÕ÷Óë CLIP ÕæÊµ±íÕ÷Ö®¼äµÄ MSE£¬ ºÃ±È Emu2¡¢SeedX¡£ÔÚÉú³ÉͼƬµÄʱºò£¬×ԻعéÄ£ÐÍÉú³ÉÊÓ¾õÌØÕ÷£¬»ùÓÚÕâ¸öÊÓ¾õÌØÕ÷£¬Ê¹ÓÃÒ»¸öÀ©É¢Ä£ÐÍÀ´½âÂëͼƬ¡£CLIP + Flow Matching£ºÒÔ×ԻعéÄ£ÐÍÔ¤²âµÄÊÓ¾õÌØÕ÷ΪÌõ¼þ£¬Ê¹ÓÃÁ÷Æ¥ÅäËðʧÀ´ÑµÁ· Diffusion Transformer£¬ÒÔÔ¤²âÕæÊµµÄ CLIP ±íÕ÷¡£ÔÚÉú³ÉͼƬµÄʱºò£¬×ԻعéÄ£ÐÍÉú³ÉÊÓ¾õÌØÕ÷£¬»ùÓÚÕâ¸öÊÓ¾õÌØÕ÷£¬Diffusion Transformer Éú³ÉÒ»¸ö CLIP feature£¬È»ºóÔÙ»ùÓÚÕâ¸ö CLIP feature£¬Ê¹ÓÃÒ»¸öÇáÁ¿µÄÀ©É¢Ä£ÐÍÀ´½âÂëͼƬ¡£Õû¸öÀú³ÌÉæ¼°Á½´ÎÀ©É¢Àú³Ì£¬µÚÒ»´ÎÉú³É CLIP feature£¬µÚ¶þ´ÎÉú³ÉÕæÊµÍ¼Æ¬¡£VAE + Flow Matching£ºÒÔ×ԻعéÄ£ÐÍÔ¤²âµÄÊÓ¾õÌØÕ÷ΪÌõ¼þ£¬Ê¹ÓÃÁ÷Æ¥ÅäËðʧÀ´ÑµÁ· Diffusion Transformer£¬ÒÔÔ¤²âÕæÊµµÄ VAE ±íÕ÷¡£ÔÚÉú³ÉͼƬµÄʱºò£¬×ԻعéÄ£ÐÍÉú³ÉÊÓ¾õÌØÕ÷£¬»ùÓÚÕâ¸öÊÓ¾õÌØÕ÷£¬Diffusion Transformer Éú³ÉÒ»¸ö VAE feature£¬ ÓÉ VAE ½âÂëÆ÷À´Éú³ÉÕæÊµÍ¼Æ¬¡£
Caption: ÔÚͳһ¶àģ̬ģÐÍÖУ¬Í¼ÏñÉú³ÉÓÐÈýÖÖÉè¼Æ¼Æ»®¡£ËùÓмƻ®¾ù½ÓÄÉ×Իعé + À©É¢¿ò¼Ü£¬µ«ÔÚͼÏñÉú³É×é¼þÉϸ÷Óвî±ð¡£¹ØÓÚÁ÷Æ¥ÅäËðʧ£¬¼á³Ö×ԻعéÄ£ÐͶ³½á£¬½ö΢µ÷ͼÏñÉú³ÉÄ£¿é (Diffusion Transformer)£¬ÒÔ±£´æÄ£Ð͵ÄÓïÑÔÄÜÁ¦¡£
ÏÂͼ±ÈÕÕÁËÕâÈýÖּƻ®ÔÚÏàͬÉèÖÃϵÄÌåÏÖ£¬Ö¤Ã÷CLIP + Flow MatchingÄÜÔÚÌáʾ¶ÔÆë¡¢Í¼Ïñ¶àÑùÐÔÓëÊÓ¾õÖÊÁ¿Ö®¼äÈ¡µÃ×î¼Ñƽºâ¡£
Caption: ²î±ð¼Æ»®µÄ±ÈÕÕ
Ñо¿Õß·¢Ã÷½«Í¼ÏñÉú³É¼¯³Éµ½Í³Ò»Ä£ÐÍʱ£¬×ԻعéÄ£ÐͶÔÓïÒå¼¶ÌØÕ÷£¨CLIP£©µÄѧϰ±È¶ÔÏñËØ¼¶ÌØÕ÷£¨VAE£©µÄѧϰ¸üΪ¸ßЧ¡£Í¬Ê±£¬½«Á÷Æ¥Åä (Flow Matching)×÷ΪѵÁ·Ä¿±êÄܹ»¸üºÃµØ²¶»ñͼÏñÂþÑÜ£¬´Ó¶ø´øÀ´¸ü¸»ºñµÄÑù±¾¶àÑùÐԺ͸ü¾«²ÊµÄÊÓ¾õÖÊÁ¿¡£Í¬Ê±ÓÐÁ½¸ö½×¶ÎµÄÀ©É¢Àú³Ì£¬Ïà¹ØÓڹŰåµÄÒ»¸ö½×¶ÎµÄÀ©É¢Ä£ÐÍ£¬½«Í¼ÏñÉúÉíÆÊÎö³ÉÁËÁ½¸ö½×¶Î£¬µÚÒ»½×¶Î×ԻعéÄ£ÐÍºÍ diffusion transformer Ö»ÂôÁ¦ÉúÕëÑÔÒåÌØÕ÷£¬µÚ¶þ½×¶ÎÔÙÓÉÒ»¸öÇáÁ¿µÄÀ©É¢Ä£ÐÍÀ´²¹È« low-level ÌØÕ÷£¬´Ó¶ø´ó·ù¼õÇáѵÁ·Ñ¹Á¦¡£
ͳһͼÏñÀí½âÓëÉú³É
ͨ¹ý CLIP ±àÂëÆ÷£¬Í¼ÏñÀí½âÓëͼÏñÉú³É¹²ÓÃͬһÓïÒå¿Õ¼ä£¬ÊµÏÖÁËÁ½ÕßµÄͳһ¡£
Ñо¿Õß½ÓÄÉ˳ÐòѵÁ·£¨late fusion£©¶ø·ÇÁªºÏѵÁ·£¨early fusion£©£¬ÔÒòÔÚÓÚ£º
¿ÉÒÔ¶³½á×ԻعéÄ£ÐÍ£¬±£´æÆäͼÏñÀí½âÄÜÁ¦£»°ÑÈ«²¿ÑµÁ·×ÊÔ´¼¯ÖÐÔÚͼÏñÉú³ÉÄ£¿é£¬ÖÆÖ¹¶àÈÎÎñ¼äµÄÏ໥×ÌÈÅ¡£
caption£ºÁªºÏѵÁ·£¨early fusion£©Í¬Ê±¸üÐÂÀí½âºÍÉú³ÉÄ£¿é£¬Ë³ÐòѵÁ· £¨late fusion£©ÏȶÀÁ¢µ÷ÓÅ¡¸Àí½â¡¹£¬ÔÙ¶³½áÖ÷¸ÉֻѵÁ·¡¸Éú³É¡¹¡£
BLIP3-o£ºÍ³Ò»¶àģ̬ģÐÍ
»ùÓÚÉÏÊö±ÈÕÕ£¬Ñо¿ÕßÑ¡¶¨CLIP + Flow MatchingÓë˳ÐòѵÁ· (late fusion)£¬¹¹½¨ÁË 4B ºÍ 8B ²ÎÊýµÄ BLIP3-o£º
ԤѵÁ·Êý¾Ý£º25M ¿ªÔ´Í¼ÎÄ + 30M רÓÐͼÏñͼÏñ×ÖÄ» (caption)£º¾ùÓÉ Qwen-2.5-VL-7B-Instruct Éú³É£¬Æ½¾ù 120 token£»ÎªÔöÇ¿¶Ô¶ÌÌáʾµÄÊÊÓ¦£¬»¹Ìرð»ìÈë¡«10%£¨6M£©µÄ¶Ì×ÖÄ»£¨20 token£©4B ²ÎÊý¿ªÔ´Ä£ÐÍ£º´¿ 25M ¿ªÔ´Í¼ÎĶԣ¬¼°¡«10%£¨3M£©¶Ì×ÖĻָÁî΢µ÷£ºGPT-4o Éú³É 60K Ìõ¸ßÖÊÁ¿Ê¾Àý£¬ÏÔÖøÌáÉýÌáʾ¶ÔÆëºÍÊÓ¾õÃÀ¸Ð
ËùÓдúÂ롢ģÐÍ¡¢Êý¾Ý¾ùÂ½Ðø¿ªÔ´ÖУ¬½Ó´ýÊÔÓã¡
Caption: BLIP3-o ¿ÉÊÓ»¯Ê¾Àý
Ñо¿Õß·¢Ã÷£º
Ä£ÐÍÄÜѸËÙµ÷½âÖÁ GPT-4o ×÷·ç£¬Ìáʾ¶ÔÆë (instruction following) ºÍÊÓ¾õÖÊÁ¿¾ù´ó·ùÌáÉý¡£
caption£ºÍ¼ÏñÀí½âÌåÏÖ
Caption: ͼÏñÉú³ÉµÄ»ù×¼ÐÔÄÜÓëÈ˹¤ÆÀ¹À
½áÂÛ
±¾ÎÄÊ×´ÎϵͳµØÌ½Ë÷Á˽áºÏ×ԻعéÓëÀ©É¢¼Ü¹¹µÄͳһ¶àģ̬½¨Ä££¬ÆÀ¹ÀÁËÈý¸öÒªº¦Î¬¶È£ºÍ¼ÏñÌåÏÖ£¨CLIP ÌØÕ÷ vs. VAE ÌØÕ÷£©¡¢ÑµÁ·Ä¿±ê£¨Á÷Æ¥Åä vs. MSE£©ºÍѵÁ·Õ½ÂÔ£¨early fusion vs. ˳ late fusion£©¡£ÊµÑé½á¹û±êÃ÷£¬½« CLIP ǶÈëÓëÁ÷Æ¥ÅäËðʧÏà½áºÏ£¬²»µ«¼ÓËÙÁËÑ·üçٶȣ¬Ò²ÌáÉýÁËÉú³ÉÖÊÁ¿¡£
»ùÓÚÕâЩ·¢Ã÷£¬±¾ÎÄÍÆ³öÁË BLIP3-o, һϵÁÐÏȽøµÄͳһ¶àģ̬ģÐÍ£¬²¢Í¨¹ý BLIP3o-60k 6 ÍòÌõÖ¸Áî΢µ÷Êý¾Ý¼¯£¬´ó·ù¸ÄÉÆÁËÌáʾ¶ÔÆëЧ¹ûºÍÊÓ¾õÃÀ¸Ð¡£Ñо¿Õß»¹ÕýÔÚ»ý¼«¿ªÕ¹¸ÃÄ£Ð͵ÄÓ¦ÓÃÑо¿£¬°üÀ¨µü´úͼÏñ±à¼¡¢ÊÓ¾õ¶Ô»°ºÍÖð²½ÊÓ¾õÍÆÀí¡£
Ïà¹ØÍÆ¼ö£º美女露出🐻让味人真揉 打美女屁股调教㊙️网站 JoeJonas穿内裤上街
美女胸罩秘露出奶头被变态捏
俄罗斯美女做爰XXXⅩ视频
埃及猫在线动画免费观看
AV➕无码➕白浆➕cos
永久免费🔞🔞🔞未满观看
美女隐私㊙️屁屁网免费
动漫18涩涩动漫人物下载
又添又吸的蒂免费观看
揉我奶⋯啊⋯嗯高潮孕妇电影
农村老肥熟BBwBBwBBw
一大早王乙就起来等汽车
美女被做出白浆
羞羞漫画免费看❤️入口
裸体小青被❌吸乳羞羞小说
张符雨人艺术
班长没带罩子让捏了一节课的视频
91九色丨PORNY丨极品女神
㊙️羞羞漫画破解版
美女被c❌到爽的游戏
胖老头XXXX老爷同志
大胸美女❌🐻黄漫扒衣服
XNXXX👙👙日本69
白丝班长扒开腿让我c事件后续
国产高潮❌❌❌❌大下载
女男❌羞羞视频网站免费
国产婬妇❌❌❌......
纲手办公室被❌无删减动漫
男c女🔞黄㊙️❌蓝莓视频
XNXXحيوانات日本
giantess外网动画
成人游戏❌❌❌网站
91在线精品无码㊙️入口APP
免费➕无码➕黄漫
91嫩草国产丨精品入口
虐妻刑房调教刑奴h
3D被挤奶❌吸乳羞羞网站
纲手被❌🔞歪歪漫画
乖我就摸摸小奶头不进去在线
MM131杨晨晨❌视频
英雄联盟阿狸被❌出白色液体
被变态用棉签玩弄她尿孔
健壮军警雄精浓喷帅Gay
免费无码国产白嫩精品纯欲
!脱👙让学生🐻免费
老头与性动交AAABBB
邻居的阿䧅丝袜让我好爽
裸露调教羞耻裸体
雷神将军被❌吸乳羞羞图片
宁荣荣被❌到爽被爆
美女无内裤给男人疯狂揉下部㊙️
老熟妇xXxXⅩHD老熟女
他扒开我内裤强吻尿口吃乳液作文
3D动漫同人18❌动漫观看
AI 一键扒衣色情免费
国产男女无套✅免费网站
男GaYGAYS免费自慰软件
日本少妇自慰XXXXⅩ18p
学生裸体看个够
再深点灬舒服灬太大了添A片小说
俩男裸交❌❌❌❌❌漫画
裸体裸乳🍑日本视频
猛男GayGay✅打光屁股网站
黃色A片三級三級三級鸭王
中国少妇精品❌❌❌OOO
小樱大乳揉捏被❌漫画
偷窥大众女洗澡79酮体
PORONO中国❌❌❌
催眠性指导1~6无删减
岳啊灬啊别停灬啊灬快点胡秀英
啊~cao死你个小sao货
猛男白袜打✈️网站
阿离被爆❌羞羞漫画在线看
女同学被❌到爽自慰网站
裸体裸乳被扒蜜桃小说
无码国产色欲XXXXX视频男男
12孩岁男同Gay互相洗澡小说
小医仙调教喷水沦为肉奴视频
迪丽热巴被❌到喷水
女人为啥进去就舒服了
斗罗美女被❌超污游戏
调教+玩具+折磨+捆绑
ÍøÓÑÆÀÂÛ ¼ì²ìËùÓÐÆÀÂÛ>>