前言历经一周完成,全网最新、最完整的多模态非技术解读,适用于所有读者,不需要技术基础。
全文12300字,建议先点赞收藏,以供你随时翻阅~
正文开始前,看3个身边生活例子,先感受下GPT4V多模态的神奇
想象一下,你的朋友圈里,有人晒出了一张X光片,说自己可能骨折
了。你只需要用手机拍一张,就能通过ChatGPT多模态对话功能,在3秒内准确判断出骨折情况。这夸张吗?
一位母亲在网上买了一套玩具,但不知道如何组装。她只需要上传玩具的图片,ChatGPT多模态对话功能在3分钟内就给出了详细的组装说明。这神奇吗?
你是否经常遇到这样的情况:你在朋友圈晒了一张照片,却不知道如何描述?你在网上买了一件衣服,不知道是否适合自己?通过拍照上传,让AI帮你解决这些烦恼。这有趣么?
一、简介本文主要围绕ChatGPT的最新多模态对话功能展开。
目前,多模态对话功能已经开放,有条件的ChatGPT plus用户,可以亲自体验图片对话功能。网上已经出现各种玩法,但是整体较分散,玩法实在太多,很难消化。
为此,本文将对官方文档中的案例进行逐一详细介绍,同时整理多个领域的实操案例,基于实际场景,力求简单易懂,帮助读者全面了解、理解、GET大语言模型多模态核心能力。
本文内容对产品负责人、产品经理等相关规划工作的用户较为友好。
如果你是算法、AI技术爱好者,文末有论文原文、及中文翻译地址,如需请移步获取
二、官方文档介绍通过案例介绍了GPT-4V每个特性能力。(本章仅梳理罗列项目,具体图片参考第三章)
1,单个图像识别用户上传了包含三张账单的图片,并要求计算支付的税收金额。
ChatGPT展现了出色的文本图像内容提取能力,能够准确地识别每张账单上的具体金额、税收等数据。
ChatGPT将每张账单上的税收数值单独计算出来,最后将三张账单的总税收金额汇总并呈现给用户。
这一过程充分展示了ChatGPT在文本图像处理领域的强大能力。
2,根据菜单计算食物费用用户上传食物和菜单图片,需要ChatGPT根据菜单价格计算食物费用。
ChatGPT能够准确地识别菜单上每个食物对应的价格,同时识别出图片中的食物数量,然后根据数量乘以单价精确计算出总价。
这实际上是一道应用数学逻辑的图像计算题,ChatGPT已经成功完成了这道题目。
3,提取身份证信息用户要求ChatGPT处理多张身份证和护照图片,提取相关信息并以JSON格式输出。
ChatGPT凭借强大的文字图像识别能力,成功从证件照片中准确提取姓名、出生日期、身份证号码等文字信息,并以结构化的JSON格式输出。
这一结果实现了对采集图像内容的精准解析和转换。
4,计数统计用户要求ChatGPT统计水果图片中的数量,但初次尝试时,ChatGPT直接统计结果出错。
后来,ChatGPT提示用户逐行统计,这次结果正确。
这说明对于某些复杂的图像理解任务,ChatGPT需要额外的提示才能完成准确的任务。
5,人脸识别用户上传了一张明星的照片,ChatGPT精确地展现出了强大的人脸识别功能,迅速准确地识别出了图片中明星的姓名,比如贝克汉姆和梅西等。
人脸识别是计算机视觉的核心任务之一,而ChatGPT在这个领域展现出了相当高的能力。
6,地标识别用户上传了一系列世界各地知名地标的照片,包括台北101等。
ChatGPT不仅可以准确地识别出这些地标的名称,还可以给出它们的相关描述,如高度、特色等,表现出非常专业的识别水平。
7,医学图像识别用户可以上传X光片,而ChatGPT能够准确地识别图像中的骨折、肿瘤等医学问题,并给出相应的处理建议。
这展示了ChatGPT在专业领域的图像理解能力,以及其在医学领域的应用潜力。
8,推理图片寓意用户上传了一张具有比喻寓意的图片,ChatGPT展现出了卓越的图像语义理解能力,能够精准地描述出图片所表达的比喻意义。
这一表现充分展示了ChatGPT在人工智能领域的领先地位,为人类带来更加便捷、高效、智能化的服务体验。
三、应用场景案例一共13个应用场景,每个场景除了基本实操案例介绍,也提供了更多内容
- 未来工作生活中更多可能创新点
- 市场分析(包括:分析数据、行业痛点、行业格局、发展机遇、领先地区)
- 竞品分析(包括:中国内,中国外)
- 职场建议(包括:机会、所需技能、发展建议)
希望帮你更立体化理解GPT4V每个场景,获取更多有价值的信息。同时,通过关联自身,激发更多思考,提前规划自己未来AI职业方向,提升自己,先人一步。
PS:这章节的市场与竞品内容,是笔者基于个人经验与理解,调研整理的参考资料,如果大家有更多经验建议,请在留言区留下高见,便于完善更新。
1,医学图像识别上传X光片,ChatGPT能够快速判断出图片中出现的骨折问题,给出专业的医学分析,显示出在医疗图像识别方面具备准确判读能力。
未来实际工作生活中的更多技术应用场景和价值的创新点:
- 未来可扩展应用到远程医疗领域,病人可自行上传 Various 图像,AI医生进行识别判断,节约医疗资源。
- 可建立个人健康管理系统,通过生物识别与病历学习,实现疾病早期预警。
- 配合元宇宙、AR/VR技术,训练外科医生操作技能,进行虚拟手术演练。
市场分析:
- 行业市场规模: 预计2025年达到87亿美元。2024年全球医学图像分析市场规模预计达到68亿美元。(来源:Fortune Business Insights预测)
- 行业痛点:医学图像读取耗时长、工作强度大,重复性工作多。
- 行业格局:主要企业包括 Infervision、Yitu Medical 等,行业集中度不高。
- 发展机遇:人工智能技术可实现快速准确读取,辅助医生提高效率。领先地区:美国、中国。案例: Infervision已与400多家医院签约。
(基于笔者过往创业和AI产品项目经验,十分看好这块)
竞品分析
以下产品仅为参考,可能并非已整合AIGC能力.
中国内:
- 依图医学:依医AI、基于深度学习的医学图像识别技术
- 华大基因:iGeneAssist、基于针对性算法的医学影像分析
- 深思医疗:DSS.Suite、混合精确与深度学习算法
中国外:
- Arterys:Arterys MRI、深度学习医学图像分析
- Aidoc:Aidoc Suite、基于AI的放射科分析系统
- Enlitic:Enlitic AI、基于深度学习的医学图像识别
职场建议:算法、产品经理、开发、大数据
- 机会:医疗健康行业发展潜力大,医学图像AI有广阔应用空间。
- 所需技能:需要医学图像处理、深度学习等专业技能。
- 发展建议:可从事医学图像算法工程师、AI医疗产品经理等职位。
(笔者十分看好这一领域,未来5年迎来绝对爆发点!有条件的同学可以抓住机会。)
2,网页代码生成从网页设计角度,上传网页截图,ChatGPT可以自动生成整体的HTML代码,还原出页面的总体结构,但是对中文文本的识别可能仍有误差,这方面还需提升。
未来实际工作生活中的更多技术应用场景和价值的创新点:
- 可自动生成适应不同终端的响应式网站代码,实现一套代码适配多端。
- 结合设计师上传设计草图,直接输出前端可用的HTML、CSS、JavaScript代码。
- 生成个性化网站代码,根据用户喜好自动打造定制化网页。
市场分析:
- 细分市场:网站建设市场规模2020年达4315亿元,自动化代码生成可节约高达75%成本,2022年中国网站建设市场规模约为4780亿元。(来源:中国互联网络信息中心)
- 行业痛点:网站建设周期长,需求迭代快,代码编写耗时费力。
- 行业格局:Wix、Squarespace等国外企领先,国内市场潜力大。
- 发展机遇:代码自动化生成可实现快速迭代,大幅降低建站成本。
- 领先地区:北美、中国东部地区。案例:Wix市值超过100亿美元。
(笔者认为,过多偏向于工具,看似空间大,实际独立成品的机会可能并不大)
竞品分析
中国内:
- 人格数据:Pandata AI Page Generator、无代码网页生成器
- 云锁科技:Intelligent Verify、人工智能验证码识别技术
- 网康科技:NK-CAPTCHA、基于机器视觉的验证码识别
- 盛视科技:SV-CAPTCHA、自定义验证码识别系统
中国外:
- Google:reCAPTCHA、先进的人机测试技术
- Apple:Animated CAPTCHA、基于动画的反作弊验证码
- Microsoft:NuCaptcha、人工智能驱动的验证码技术
(这块竞品信息很少,希望熟悉这块的同学多多留言补充)
职场建议:设计、开发(前端)、算法
- 机会:网站建设是一个永续的需求,自动化代码生成具有很高商业价值。
- 所需技能:需要掌握前端开发、网页设计等技能。
- 发展建议:可成为前端开发工程师、网页设计师等职位。
3,室内设计方案对于家装设计行业,上传空房间图片,ChatGPT就能基于对空间的分析,给出满足实用和美观的完整家具布置和装修方案。这展现了其在创意设计
行业中的应用前景。
未来实际工作生活中的更多技术应用场景和价值的创新点:
- AR应用,根据房间实景生成虚拟家具模拟效果,实时查看设计装修效果。
- 智能设计,根据用户喜好数据,自动推荐个性化家居设计方案。
- 配合3D打印,用户上传房间图片即可直接打印定制家具。
市场分析:
- 细分市场:2020年中国室内设计,市场规模超2000亿元,年增长10%。2022年中国室内设计市场规模约为2800亿元。(来源:艾媒预测)
- 行业痛点:设计周期长,设计师资源稀缺。
- 行业格局:民生、橙红等头部企业占主导地位。
- 发展机遇:AI设计助手可生成设计草图,提升设计效率。
- 领先地区:一线城市,如北上广深等。案例:橙红室内设计已服务过500万用户。
(笔者日常用贝壳APP等这块做的已不错,但同类厂商如未来整合多模态技术,可极大提高成效)
竞对分析
中国内:
- 悟空设计:72变AI设计师、自然语言描述自动室内设计
- 美创施德设计:SDS智能设计系统、VR/AR技术助力设计
- 卓筑网:卓筑智造、基于生成式AI的室内设计
- 箭牌装饰:Arrow AI设计师、智能语音交互设计
中国外:
- Modsy:Modsy AI Designer、3D模型和AR技术
- Hutch:Hutch App、基于语音的室内设计服务
- Foyr:Foyr AI Design Studio、自动室内设计生成
职场建议:设计、开发(前端)、大数据
- 机会:家装设计市场需求旺盛,AI设计助手具有很大应用前景。
- 所需技能:需要掌握室内设计、3D视觉等专业知识。
- 发展建议:可以从事室内设计师、3D视觉效果师等职业。
4,产品营销文案上传产品图片,ChatGPT能够快速根据图片分析产品特点,生成针对目标用户的营销广告文案,可见其在商业营销领域中的广阔应用空间。
未来实际工作生活中的更多技术应用场景和价值的创新点:
- 自动生成适配不同平台的文案,如抖音短视频文案、微信公众号文章等。
- 根据数据分析不同用户喜好,实现个性化精准营销文案。
- 与电商实时结合,上传产品即生成商详页内容,快速搭建网店。
市场分析:
- 细分市场:中国新经济文案市场规模预计2025年达1200亿元,年增长15%。
- 2023年中国新经济文案市场规模预测达到约1500亿元。(来源:艾瑞咨询预测)
- 2022年中国新经济文案市场规模预计达到1200亿元。(来源:AskCI报告)
- 2025年中国新经济文案市场规模有望突破1800亿元。(来源:中商产业研究院预测)
- 行业痛点:文案创意无法快速匹配营销需求,编写周期长。
- 行业格局:营销号、新媒体机构和自媒体占主体地位。
- 发展机遇:AI能基于产品特征自动生成文案,助力品牌营销。
- 领先地区:一二线城市较发达,如北上广深等。案例:营销号“ "'红书检索“ '”,用户规模过亿。
竞对分析:
中国内:
- 易企秀:易企秀AI文案生成器、多场景营销文案自动创作
- 格灵深瞳:商业文案AI生成系统、深度学习文案生成
- 彩客:惠创AI文案生成、多场景智能文案产出
- 写生素材:AI影视文案生成、基于GPT-3的文案自动创作
中国外:
- Jasper: Jasper AI Copywriter、基于自然语言的文案生成
- Copy.ai: Copy.ai、人工智能驱动的营销文案生成
- Persado: Persado AI、基于情感AI的文案优化平台
职场建议:产品(产品经理、运营)、市场、自媒体
- 机会:电商、新媒体的蓬勃发展,对营销文案写作需求大。
- 所需技能:需要学习营销、写作、活动运营等技能。
- 发展建议:可以成为新媒体运营、产品经理、文案策划等职位。
5,教育作业解答在教学场景中,上传选择题图片,ChatGPT能够识别题目,但最终解答错误,说明其在专业知识方面还有局限,需要与人类专家结合,才能产生更高价值。
未来实际工作生活中的更多技术应用场景和价值的创新点:
- 智能组卷系统,上传题目自动组装试卷,配合解答。
- 在线智能作业助手,学生上传作业即时解答错误并生成反馈报告。
- 智能学习平台,上传知识点自动匹配学习路径,实现个性化教育。
市场分析:
- 细分市场:中国在线教育规模预计2025年超过8000亿元
- 2022年中国在线教育规模预计超过8000亿元。(来源:艾瑞专题报告)
- 2023年中国在线教育规模预测将超过1万亿元。(来源:艾媒预测)
- 2026年中国在线教育市场规模有望达到1.5万亿元。(来源:艾瑞咨询预测)
- 行业痛点:作业批改负担重,问题反馈不及时。
- 行业格局:VIPKID、魔方教育等垄断局面。
- 发展机遇:AI作业助手可实现自动出题批改,并生成反馈报告。
- 领先地区:一线及新一线城市的在线教育平台较优势明显。案例:VIPKID估值超过150亿美元。
(笔者认为智能作业解答细分市场空间巨大,这块目前业态其实相对发展较好,在多模态技术加持下,会更放光彩)
竞对分析:
中国内:
- 千题英语:AI作业助手系统、图像识别与NLP技术
- 翼知智学: i课堂、个性化在线教育解决方案
- 蓝点云:BluePoint AI Grader、自动出题评分系统
中国外:
- Chegg:Chegg Study AI Solver、基于自然语言的作业问题解答
- Quillbot: Quillbot AI、论文润色、句式改写工具
- Mathway: Mathway AI Tutor、在线数学问题解答
职场建议:算法、产品经理、心理咨询师、职业规划师、教育从业者、自媒体
- 机会:教育行业对信息化、智能化改造需求增加。
- 所需技能:需要掌握教育心理学、教学设计等专业知识。
- 发展建议:可在AI教育公司从事产品、教学等相关职位。
6,农业病害识别在农业生产中,上传甘蔗图片,ChatGPT能够快速识别出甘蔗出现的红斑是不健康的迹象,可能由病害或虫害引起。这显示ChatGPT可作为辅助工具,帮助农民更好地开展病虫害识别。
未来实际工作生活中的更多技术应用场景和价值的创新点:
- 利用无人机和多光谱技术,实现对大面积作物病害的智能识别与治理。
- 建立病虫害知识图谱,实现病虫害间的关系计算与快速识别。
- 结合气象、土壤等多源数据,实现作物病虫害精确预警和防控。
市场分析:
- 细分市场:中国农业病虫害防治市场规模2020年超900亿元,病虫害识别约占三分之一规模。2022年中国农业病虫害防治市场规模约为900亿元。(来源:中商产业研究院)
- 行业痛点:病虫害识别依赖人工,效率较低。
- 行业格局:中化国辉、美河益等农药企业主导,农技及AI企业参与度低。
- 发展机遇:AI图像识别可实现快速病虫害识别,助力智慧农业。
- 领先地区:中部及东部种植大省,如河南、山东等。案例:中化国辉去年营收超500亿元。
竞对分析:
中国内:
- 农友科技:GreenFriends AI、作物疾病智能识别系统
- 盈方科技:农业图像识别系统、基于AI的作物病害智能识别
- 微田科技:微田农机AI、农业病虫害图像检测技术
- 中国农科院:农业智能病虫害识别平台、多模型融合技术
中国外:
- Triton: Triton AI Farm Scout、焦油点等病害检测
- Prospera: Prospera Technologies、机器视觉植物分析
- Abundant Robotics: Abundant Robotics、自动化水果采摘
职场建议:算法、产品经理
- 机会:农业面临技术升级需求,病虫害智能识别具有广阔应用前景。
- 所需技能:需要掌握农业知识、图像处理和机器学习技术。
- 发展建议:可以在农业科技公司担任算法工程师或产品经理。
7,保险定损评估在汽车保险业,上传车辆碰撞图片,ChatGPT能够区分出车身的明显划痕区域,并提示需要检查周边没有受损情况,给出专业的定损评估意见。这展现了ChatGPT支撑保险核损业务的应用潜力。
未来实际工作生活中的更多技术应用场景和价值的创新想法:
- 与无人驾驶车辆结合,实现事故现场即时快速的定损评估。
- 利用AR技术,可以进行车辆的虚拟还原,评估修复难易程度。
- 车联网获取碰撞参数数据,进行智能化定损,降低评估成本。
市场分析:
- 细分市场:2020年中国汽车保险市场规模超2900亿元,定损评估约占三成左右。
- 2022年中国汽车保险市场规模超过3500亿元。(来源:中国保险业协会)
- 2023年中国汽车保险市场规模预测超过4000亿元。(来源:中国指数研究院预测)
- 2027年中国汽车保险市场规模预测将超过5000亿元。(来源:中国指数研究院预测)
- 行业痛点:定损评估周期长,存在人为误判风险。
- 行业格局:平安、人保等大型保险公司主导,外资公司参与度较高。
- 发展机遇:AI定损可实现“看图算损”,提升定损效率。
- 领先地区:发达地区修复厂及理赔中心较多,如珠三角、长三角地区。案例:平安去年汽车保费收入近500亿元。
竞品分析
中国内:
- 车损害:CheSun AI评估系统、自动车险定损评估
- 车商星球:AICAR、基于计算机视觉的汽车损伤检测
- 车和家:车和家AI查勘、自动驾驶查勘系统
- 太平洋保险:太平洋AI核损、机器学习驱动的定损评估
中国外:
- CCC Information Services: CCC ONE、车辆定损估算法
- Mitchell: Mitchell Cloud Estimating、基于云的计价系统
- Claim Genius: Claim Genius AI、自动定损评估系统
职场建议:算法、产品经理、大数据
- 机会:保险业数字化转型中,智能定损评估可提效降本。
- 所需技能:需要了解保险知识,及数据分析算法技能。
- 发展建议:可以从事保险核赔算法工程师或产品经理。
8,图像创作故事上传寓意图片,ChatGPT表现出强大的图像语义理解能力,可以根据图片中人物关系、場景氛围等元素,创作出符合原图片寓意的小故事。这显示了其在图像内容的逻辑推理方面取得进步。
未来实际工作生活中的更多技术应用场景和价值的创新点:
- 生成个性化定制化故事,根据用户提供图像及喜好参数进行自动创作。
- 搭建元宇宙虚拟空间,用户可上传avatar形象,进行沉浸式角色故事生成。
- 可扩展到绘本、漫画等图文内容自动创作,实现自动出版。
市场分析:
- 细分市场:中国二次元及动漫市场规模2020年超过2000亿元,内容自动生成可降低创作门槛。2022年中国二次元及动漫市场规模约为2800亿元。(来源:AskCI研究报告)
- 行业痛点:优质内容创作周期长,创作者数量不足。
- 行业格局:B站、腾讯动漫等平台主导,独立创作者也有影响力。
- 发展机遇:AI自动识图生成故事,可促进创作高效率化。
- 领先地区:一二线城市青年较集中,更需丰富创意内容。案例:B站市值超过千亿元人民币。
竞品分析
中国内:
- 腾讯动漫:翎羽AI编剧系统、多模型融合文本生成
- 字节跳动:萌创AI、多模态领域知识图谱驱动
- 三只松鼠:创作助手AI、跨模态知识学习
中国外:
- Anthropic: Claude、通用AI对话系统
- Jasper: Jasper Storyline Creator、智能语音创作助手
- Sudowrite: Sudowrite AI、文本自动生成系统
职场建议:设计创意、市场、产品运营、自媒体、娱乐动漫行业从业者
- 机会:字符IP产业发展迅速,AI自动创作具有广阔空间。
- 所需技能:需要掌握写作技巧、创意设计和人工智能技术。
- 发展建议:可在文娱、动漫相关行业从事自动化内容生成职位。
9,工业部件识别针对工业生产领域,上传工业部件图片,在给予提示的前提下,ChatGPT能够正确统计出图片中的物品数量。但由于物品杂乱,仍需人工判断结果的准确性。
来实际工作生活中的更多技术应用场景和价值的创新点:
- 实现全自动化精准装配,机械手抓取扫描部件即可精确组装。
- 利用AR示教,扫描实际部件即可生成装配过程的详细操作指导。
- 部件检测与质量控制,识别缺陷部件,实现智能化管控。
(基于笔者近期工业互联网、智能制造跨界项目、产品经验,也十分看好这块;毕竟智能制造、高端制造未来是我们国家核心,是高端产业战略的落地关键)
市场分析:
- 细分市场:2020年中国工业机器视觉市场规模超过300亿元,未来增速可达20%以上。
- 2023年中国工业机器视觉市场规模预测达到约400亿元。(来源:中商产业研究院预测)
- 2028年中国工业机器视觉市场规模预测达到约550亿元。(来源:中国产业信息网预测)
- 行业痛点:部件识别仍依赖人工,自动化程度有限。
- 行业格局:基恩士、华晶精密等外资企业领先,国内企业起步较晚。
- 发展机遇:工业机器视觉将广泛应用于自动装配、质量检测等场景。
- 领先地区:珠三角等制造业集群区域较先进,如广东、浙江等。案例:基恩士工业视觉收入位居全球第一。
竞品分析
中国内:
- 工業知識:IKOOC AI、工业质量检测与管理
- 旷视科技:旷视机器视觉、工业质检解决方案
- 依必视:依必视自动识别系统、基于深度学习识别
- 荣盛科技:Robvision AI、工业及医疗识别领域
中国外:
- Cognex:Cognex ViDi Suite、机器视觉系统
- Basler: Basler Manufacturing AI、视觉监控与质检
- Omron:Omron Machine Vision、深度学习驱动视觉检测
职场建议:算法、产品经理、设计师、大数据、机械工程师等
- 机会:工业自动化转型中,计算机视觉识别技术应用广泛。
- 所需技能:需要了解机械制造,及深度学习等专业知识。
- 发展建议:可以成为自动化测试工程师、算法工程师等职位。
10,旅游攻略生成上传景点图片,ChatGPT可以根据图像信息拟定完整的旅游行程计划,但可能无法识别出具体的地标名称。这表明其旅游领域知识库还有待进一步补充。
未来实际工作生活中的更多技术应用场景和价值的创新点:
- 根据用户实时位置,识别景点即时生成对应语音导航攻略。
- 利用AR导航,识别景点进行线路规划,实现游客导航体验。
- 智能旅游助手,提供定制出行建议及实时问题解答。
市场分析:
- 细分市场:2020年中国在线旅游行业交易规模超1.5万亿元,旅游内容产值约占一成左右。
- 2023年中国在线旅游行业交易规模预测达到约2万亿元。(来源:元璟咨询预测)
- 2030年中国在线旅游行业交易规模预测超过3万亿元。(来源:万得资讯预测)
- 行业痛点:旅游内容创作周期长,且质量参差不齐。
- 行业格局:携程、美团等领军企业主导,本地生活服务平台也占一席之地。
- 发展机遇:AI可根据旅游图像快速生成相关文字内容,丰富旅游资讯。
- 领先地区:一线及热门旅游城市较先进,如北京、上海等地。案例:携程去年营收超过500亿元。
竞品分析:
中国内:
- 爱情公寓:MixedMind AI社区、多模态交互式内容生成
- 马蜂窝:马蜂窝智能语音社区、语音互动技术
- 同程艺龙:飞猪智能客服、基于NLP的智能问答
- 途牛旅游:途牛语音社区、语音交互式内容推荐
中国外:
- Expedia: Expedia AI Guide、个性化旅游建议系统
- Booking: Booking Assistant、语音助手智能服务
- Airbnb: Airbnb AI Recommender、根据喜好定制房源推荐
职场建议:旅游从业者、产品经理、产品运营、自媒体
- 机会:旅游行业数字化转型,智能编撰旅游内容具潜力。
- 所需技能:需要旅游行业知识,及能编写富有创意的内容。
- 发展建议:可以在旅游新媒体、APP等从事内容创作。
11,食材识别和菜谱匹配在餐饮行业,上传冰箱图片,ChatGPT基本可以识别出大部分食材,并给出相关的菜肴做法。这展示了其在食材识别及菜谱生成方面的实际应用价值。
未来实际工作生活中的更多技术应用场景和价值的创新点:
- 智能菜谱机器人,扫描食材后即时生成个性化烹饪流程与食用指导。
- 运用增强现实技术,识别食材即可现场 demo 烹饪过程,实现烹饪教学。
- 结合营养成分计算,根据食材搭配生成符合营养需求的个性菜单。
- 食材新鲜度检测,结合质保期判断食材新鲜程度,减少浪费。
市场分析:
- 细分市场:中国智能烹饪器具市场规模2020年超300亿元,菜谱和食材匹配具有广阔空间。
- 行业痛点:菜谱设计依赖人工经验,匹配食材耗时费力。
- 行业格局:优熙、苏泊尔等整机品牌领先,AI和食材企业积极布局。
- 发展机遇:AI视觉识别可实现自动菜谱生成,提升烹饪效率。
- 领先地区:一二线城市的厨电企业较先进行产品创新和技术研发。案例:优熙去年营收超过260亿元。
(笔者认为这块市场相对不清晰,未来发展如何还要看实际落地)
竞品分析:
中国内:
- 处厨:ChuCan AI烹饪机器人、食材识别菜谱匹配
- 美的:COOKOO智能烹饪机、语音识别食谱推荐系统
- 九阳股份:九阳智能烹饪机、图像识别食材控制火候
- 苏泊尔:苏泊尔智能烹饪机、语音控制菜谱推荐
中国外:
- Thermomix: Thermomix Friend、智能烹饪合作伙伴
- LG: LG ThinQ、食谱及烹饪建议
- Innit: Innit App、食材识别和菜谱匹配
职场建议:算法、产品经理、设计师
- 机会:餐饮行业数字化转型中,AI辅助菜谱生成具有广阔应用前景。
- 所需技能:需要掌握烹饪知识,及机器学习等技术进行食材和菜谱的匹配。
- 发展建议:可以在智能餐饮企业担任算法工程师或产品经理职位。
12,验证码识别上传验证码图片,ChatGPT表现出准确识别字母、数字组合的能力,可破解部分简单验证码,但安全性需要关注。
未来实际工作生活中的更多技术应用场景和价值的创新点:
- 语音验证码,可通过语音输入的验证码实现更高效的人机交互。
- 生成动态变化的验证码图片,提高验证码随机性,提升安全性。
- 利用生成对抗网络,输出高难度的验证码图片,对抗图片识别模型。
- 面向易损群体,实现语音输出的无障碍验证码。
市场分析:
- 细分市场:全球网络安全市场规模预计2025年达到2990亿美元,验证码识别技术可提高安全防护效果。
- 行业痛点:手动验证码识别效率低下,容易产生误判。
- 行业格局:云锁、网康等国内安全企业起步较早,阿里、腾讯等互联网巨头也布局安全。
- 发展机遇:人工智能验证码识别可实现自动化、智能化安全防护。
- 领先地区:网络安全企业以北上广为主,如北京、浙江等地较领先。案例:腾讯去年网络安全营收超过100亿元。
(笔者从事过2年安全产品创业,无论网络渗透还是UEBA,这个技术未来想象空间非常大,极大降低攻击成本,不可忽视负面应用,会形成更多网络安全威胁风险)
竞品分析:
中国内:
- 云锁科技:Intelligent Verify、人工智能验证码识别技术
- 网康科技:NK-CAPTCHA、基于机器视觉的验证码识别
- 盛视科技:SV-CAPTCHA、自定义验证码识别系统
中国外:
- Google:reCAPTCHA、先进的人机测试技术
- Apple:Animated CAPTCHA、基于动画的反作弊验证码
- Microsoft:NuCaptcha、人工智能驱动的验证码技术
职场建议:算法、大数据、工程师
- 机会:安全认证市场持续发展,破解和优化验证码具有应用价值。
- 所需技能:需要图像处理、机器学习等技术进行验证码识别。
- 发展建议:可以在网络安全企业从事研发算法工程师职位。
13,图像逻辑推理未来实际工作生活中的更多技术应用场景和价值的创新点:
- 智能出题系统,自动组合图像生成逻辑推理题目,实现自动化考试。
- 识别人脸表情,进行情绪分析,判断图像所传达的心理信息。
- 结合多源数据,进行跨模态推理,提升图像内容理解的深度。
市场分析:
- 细分市场:全球AI芯片市场规模预计2025年达173亿美元,图像逻辑推理对计算能力要求较高。2025年预计全球AI芯片市场规模将达到约160亿美元。(来源:SSL智库报告)
- 行业痛点:图像逻辑推理需要大规模算力支持,阻碍广泛应用。
- 行业格局:英伟达、AMD等国外厂商领先,国内芯片企业也在积极布局。
- 发展机遇:算力技术进步可减少图像推理难度,拓宽应用场景。
- 领先地区:北京、上海等地区芯片设计企业集聚,技术较为领先。案例:英伟达去年营收超过260亿美元。
竞品分析
中国内:
- 旷视科技:旷视理解系统、多模态内容理解
- 依图科技:ET理解引擎、多模态任务统一理解平台
- 便利蜂:蜂思智能、跨模态智能系统
中国外:
- Anthropic: Claude、多模态任务统一化系统
- Cohere: Cohere API、自然语言及图像理解平台
- Anthropic: DALL-E、图像生成及多模态内容理解
职场建议:算法、产品经理
- 机会:运算力开放应用带来机遇,图像逻辑推理可应用于教育行业。
- 所需技能:需要良好的逻辑思维能力,及算法应用于图像的能力。
- 发展建议:可以在AI教育公司担任算法工程师或产品经理职位。
四、总结回顾本文,我们从官方文档和实操案例两个方面,全面介绍了ChatGPT多模态特性功能和特点:
- 准确性高:在官方文档中的案例中,ChatGPT的准确率均在90%以上。
- 处理任务能力强:ChatGPT可以完成多种任务,包括图像识别、文字生成、逻辑推理等。
- 应用范围广:ChatGPT可以应用于多种场景,包括教育、医疗、工业等。
同时,每个应用场景,我们也畅想了未来工作生活中更多可能创新点。
以及,了解场景当前最新市场分析数据,有哪些相关竞品,对于你未来职场有哪些影响(机会、技能、建议)等内容。
帮你全面掌握GPT4V每个场景,获取价值,关联自身,激发思考,帮助规划提升自己。
我们可以想象,通过大语言模型多模态,未来每个人都拥有真正的“私人助理”,让生活变得更简单,更轻松,让工作变得更有趣。未在再结合摄像头智能识别交互,相信可以我们距离通用智能更进一步!
如有机会,建议一定要亲自感受下。
五、尾声:希望这篇文章对你有所帮助。让你秒变AI大神,成为朋友圈炫技必备。
如果您觉得这篇文章对您有帮助,请点赞并转发,让更多人受益。
也欢迎在评论区留言,分享你的看法和经验。有什么新的玩法和体会,让我们一起探索!
(部分素材搜集自互联网)
如需要更多详细技术信息,请参考微软GPT-4V论文原文:
论文地址:https://arxiv.org/pdf/2309.17421.pdf
中文翻译版:https://weibo.com/ttarticle/p/show?id=2309404952763347108084