计算机视觉是 AI 的一个领域,它负责处理视觉对象。
大多数计算机视觉解决方案都基于机器学习模型,这些模型可应用于来自相机、视频或图像的视觉输入。
图像分类:涉及训练机器学习模型,使其根据图像内容对图像进行分类。 例如,你可以在交通监控解决方案中使用图像分类模型,根据图像所包含的车辆类型(例如出租车、公共汽车、骑自行车的人等)对图像进行分类。
对象检测:机器学习模型经过训练,可以对图像中的单个对象进行分类,并使用边界框确定其位置。 例如,交通监控解决方案可使用对象检测来识别不同类别车辆的位置。
语义分割:一种高级机器学习技术,其中图像中的各个像素根据其所属的对象进行分类。 例如,交通监控解决方案可能会在交通图像上覆盖“蒙版”图层,以使用特定颜色突出显示不同的车辆。
图像分析:你可以创建结合使用机器学习模型和高级图像分析技术从图像中提取信息的解决方案,包括可以帮助对图像进行归类的「标签」,甚至可以归纳总结图像中所示场景的描述性标题。
人脸检测、分析和识别:人脸检测是对象检测的一种特殊形式,可以在图像中找出人脸。 这可以与分类和面部几何分析技术相结合,用于根据他们的面部特征来识别个人。
光学字符识别:OCR 是一种用于检测和读取图像中文本的技术。 你可以使用 OCR 读取照片中的文字(例如:路标或店面),或从扫描的文档中提取信息,例如字母、发票或表格。