百度ai研究系列：开放能力——图像技术

百度ai研究系列：开放能力——图像技术

2024-11-10 23:01

每周一篇原创，关注5G、物联网、人工智能，跟着我的【头号观点】坚持利用碎片时间学习

百度ai研究系列：开放能力——图像技术

上一篇我们详细介绍了百度ai能力其中的一项开放能力——语音技术，今天我们继续研究百度的开放能力——图像技术。

一共五项通用能力：图像审核、车辆分析、图像识别、图像搜索、图像效果增强。

一、图像审核

基于深度学习的智能内容审核方案，准确识别图片和视频中的涉黄、涉暴涉恐、政治敏感、微商广告、恶心等内容，也能从美观和清晰等维度对图像进行筛选，快速精准，解放审核人力.

1、色情识别

人工智能鉴黄技术，智能识别图片和视频中的色情和性感内容，让您的应用轻松过审，远离违规风险

2、政治敏感识别

识别政治人物与敏感政治事件场景，帮助UGC、IM、BBS类产品在敏感时期规避相关风险

3、广告检测

智能检测图像中的文字、水印、二维码、条形码，检测各种微商广告，净化您的应用

4、恶心图像识别

准确识别恶心，令人不适类的图像，包含尸体、解剖、昆虫类、生理病变、会引起密集恐惧症等图像

5、暴恐识别

识别暴力，血腥场景及恐怖组织头目，旗帜等涉嫌违禁的图片和视频内容，降低应用涉暴涉恐风险

6、公众人物识别

支持国内外16万个公众人物人脸识别，包括歌星、演员、运动员、政要等

7、图文审核

文字识别和文本审核对图像中的文字内容进行多维度审核

8、图像质量检测

图像美观度与清晰度识别，检测图像色彩、构图及是否存在模糊、失焦、噪点、锯齿、马赛克等情况

以上内容，百度均已经封装好接口，用户只要上传图片即可返回结果，图片支持PNG、JPG、JPEG、BMP等类型

应用场景：视频内容直播审核——直播等场景中采用百度色情识别、暴恐识别、政治敏感识别技术，实现对图片、视频、直播等内容的实时自动审核，标准统一，简单快速，成本低廉；社交、电商内容监管——在社交，电商类应用中大量的色情，暴力，政治敏感图片让应用面临监管风险。接入百度图像审核服务，实现自动甄别图片内容中的相关违规信息，有效减少人力成本并降低业务违规风险。

二、车辆分析

准确识别图像中的车辆相关信息，提供车型识别、车辆检测、车流统计、车辆属性识别、车辆外观损伤识别、车辆背景分割等能力

1、车型识别

识别车辆的具体车型，以小汽车为主，输出图片中主体车辆的品牌、型号、年份、颜色、百科词条信息；可识别三千款常见车型，准确率90%以上

2、车辆检测

识别图像中所有车辆的类型和位置，并对小汽车、卡车、巴士、摩托车、三轮车5类车辆分别计数，同时可定位小汽车、卡车、巴士的车牌位置

（1）中低空，低于30米拍摄：面向中低空拍摄场景，检测图像中的所有车辆，返回每辆车的类型和坐标位置，可识别小汽车、卡车、巴士、摩托车、三轮车5大类车辆

（2）面向高空，高于30米拍摄：面向高空拍摄视角（30米以上），检测图片中的所有车辆，返回每辆车的坐标位置（不区分车辆类型），并进行车辆计数

3、车流统计

根据视频抓拍图片序列，进行车辆检测和追踪，识别各类车辆（包括小汽车、卡车、巴士、摩托车、三轮车）在指定区域内的驶入、驶出数量，实现动态车流统计

4、车辆属性识别

检测图像中的各类车辆，并针对小汽车识别11种外观属性，包括：是否有车窗雨眉、是否有车顶架、副驾驶是否有人等，可用于交通安防场景的特定车辆检测追踪

5、车辆外观损坏识别

针对常见小汽车车型，识别车辆外观受损部件及损伤类型，可识别数十种车辆部件、五大类外观损伤（刮擦、凹陷、开裂、褶皱、穿孔）

应用场景：智能定损、智能车审

6、车辆分割

检测图像中的车辆，以小汽车为主，识别车辆的轮廓范围，与背景进行分离，返回分割后的二值图、灰度图、前景抠图，适应多个车辆、车门开启、各种角度

三、图像识别

精准识别超过十万种物体和场景，包含多项高精度的识图能力并提供相应的API服务，充分满足各类个人开发者和企业用户的业务需求

1、通用物体和场景识别

支持超过10万类常见物体和场景识别，接口返回图片内1个或多个物体的名称，并可获取百科信息。适用于图像或视频内容分析、拍照识图等业务场景。可用于智能推荐场景，根据用户的浏览图片进行推荐

2、图像主体检测

检测图片中的主体，支持单主体检测、多主体检测。

可识别出图片中主体的位置和标签，方便裁剪出对应主体的区域，用于后续图像处理、海量图片分类打标等场景

3、动物识别

识别近八千种动物，接口返回动物名称，并获取百科信息，适用于拍照识图类APP中

4、植物识别

支持识别超过2万种通用植物和近8千种花卉，接口返回植物的名称，并获取百科信息，适用于拍照识图类APP中

5、品牌logo识别

识别超过2万类商品logo，支持用户创建属于自己的品牌logo图库，可准确识别图片中品牌logo的名称，适用于需要快速获取品牌信息的业务场景中

6、果蔬识别

识别近千种水果和蔬菜的名称，适用于识别只含有一种果蔬的图片，可自定义返回识别结果数，适用于果蔬介绍相关的美食类APP中

7、菜品识别

识别超过9千种菜品，支持客户创建属于自己的菜品图库，可准确识别图片中的菜品名称、位置，并获取百科信息，适用于多种客户识别菜品的业务场景中

8、红酒识别

识别图像中的红酒标签，返回红酒名称、国家、产区、酒庄、类型、糖分、葡萄品种、酒品描述等信息，可识别数十万中外红酒

9、货币识别

识别图像中的货币类型，返回货币名称、代码、面值、年份信息，可识别百余种国内外常见货币

10、地标识别

支持识别约12万中外著名地标、景点，广泛应用于拍照识图、图片分类等场景

11、翻拍识别

针对快消行业访销场景，精准识别对屏幕进行翻拍的造假照片，可有效降低人工审核人力，减少品牌商因图片造假产生的费用流失。

可配合EasyDL零售版商品检测API一起使用，保障排面数、分销率等商品识别结果真实有效

12、快销品检测

无需训练即可直接使用的商品检测API，支持识别常见饮品和日化用品，接口返回商品名称、规格、品类及在图片中的位置。AI模型针对商品陈列场景专项调优，适应大型商超、便利店、街边店等多种复杂货架场景

13、门脸识别

识别20万类预置商店门脸，支持自建门脸库，入库后即可识别，可准确识别门脸名称及在图片中的位置

14、EasyDL经典版

零算法基础定制高精度AI模型

（1）零算法训练模型：无需机器学习专业知识，只需上传并标注需要识别的示例数据即可一键训练模型

（2）检验模型效果：查看详细的效果评估报告，并在可视化界面校验模型效果，进而有针对性地补充训练数据

（3）模型应用部署：对模型效果满意后，将模型部署在云端、设备端、私有服务器，或直接购买软硬一体方案

可视化操作：

无需机器学习专业知识，模型创建-数据上传-模型训练-模型发布全流程可视化便捷操作，最快15分钟即可获得一个高精度模型

高精度效果：

EasyDL底层结合百度AutoDL/AutoML技术，针对用户数据自动获得最优网络和超参组合，基于少量数据就能获得出色效果和性能的模型

灵活部署：

训练完成的模型可通过公有云API、设备端SDK、私有服务器进行部署，同时提供软硬一体方案，灵活适配各种使用场景及运行环境

数据支持：

全方位支持训练数据的高质量采集与高效标注，支持在模型迭代过程中不断扩充数据，助力提升模型效果

四、图像搜索

以图搜图，在指定图库中搜索出相同或相似的图片，适用于图片精确查找、相似素材搜索、拍照搜同款商品、相似商品推荐等场景

1、相同图片搜索：适用于图片精确查找、重复图片过滤

2、相似图片搜索：语义相似的图片集搜索，支持亿级图库

3、商品图片搜索：以图搜商品，拍照搜同款，相似商品推荐

4、绘本图片搜索：拍照搜儿童书本，精准检索自建库中对应绘本教材

五、图像效果增强

1、图像去雾：对浓雾天气下拍摄的图像进行去雾处理

2、图像无损放大：将图像在长宽方向各放大两倍，保持质量无损

3、拉伸图像恢复比例：识别过度拉伸图像内容，并恢复成正常比例

4、图像恢复：去掉图片中不需要的遮挡物；修复图片缺损内容

5、人像动漫化：为用户量身定制千人千面的二次元动漫形象

6、图像色彩增强：智能调节图片的色彩饱和度、亮度、对比度

7、图像对比度增强：调整过暗或者过亮图像的对比度

8、黑白图像上色：智能识别黑白图像内容并填充色彩

9、图像风格转换：将图像转换成卡通画或素描等风格

10、图像清晰度增强：智能去噪、强化图像纹理细节，输出更清晰的图片

11、天空分割：识别图像中的天空轮廓，与背景进行分离

总结：

至此百度图像技术基础介绍完，百度之所以能在图像处理中做得如此精细，源于百度搜索中的数据。图像处理能力是一种通用模型能力，特点数据要求大、精度要求高、算力要求高，所以只有大厂才能完成此类通用模型的开发并开源为中小企业或者个人开发者服务。最早突破的场景是工业、交通等。百度现在与中小企业抢单导致生态做得不好，如果依托于各垂直领域的中小企业来拓展场景，将会大有可为。

下一篇详细介绍百度的ai能力——文字识别，欢迎交流。

免责声明：

以上就是本篇文章【百度ai研究系列：开放能力——图像技术】的全部内容了，欢迎阅览！文章地址：http://sjzytwl.xhstdz.com/quote/70824.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页物流园资讯移动站 http://mip.xhstdz.com/ , 查看更多