国科网

2025-02-07 04:26:06  星期五
立足国科融媒,服务先进科技
详解面向 Java 开发人员的机器学习案例

点赞

0
发布时间:2024年02月21日 浏览量:95次 所属栏目:人工智能 发布者:田佳恬

译者 | 陈峻

审校 | 重楼

自去年以来,诸如ChatGPT Bard之类的大语言模型已将机器学习提升到了一种现象级的地位。开发人员使用它们在辅助编程方面不断探索了从图像生成到疾病检测等领域的应用案例。

鉴于全球各大科技公司都在加大针对机器学习的投入,作为Java开发人员有必要了解如何训练和使用机器学习模型。下面,您将初步了解到机器学习的基本工作原理,有关如何实现和训练机器学习算法的简短指南,以及开发智能应用的最常用监督机器学习方法。

机器学习和人工智能

总的说来,机器学习是从试图模仿人类智慧的AI领域发展而来,使得应用程序能够在无需人工参与的情况下,执行流程改进,并按需更新代码和扩展其功能。

目前,监督学习和无监督学习是两种最流行的机器学习方法。这两种方法都需要向机器输入大量的数据记录,以便其进行关联和学习。而这些被收集到的数据记录通常被称为特征向量。例如,对于某个房屋类数据而言,特征向量可能包括了房屋的总体面积、房间数量、以及房龄等特征。

监督学习

在监督学习中,为了训练算法,机器需要输入一组特征向量和相关标签。其中,标签通常是由人类注释者提供的,代表了对于某个给定问题的正确回答。学习算法会分析特征向量、及其正确标签,以找出它们之间的内部结构和关系。据此,机器就能够学会如何正确地回答问题。

举例来说,一个智能房地产应用为了接受特征向量的训练,人工标注者会根据房屋面积、房间数和房龄等因素,为每套房屋标注出正确的房价。通过对数据进行分析,该房地产应用将会被训练成能够回答“这套房子能卖多少钱?”的问题。

而且在完成训练后,该应用即使碰到未见过的、未标记的特征向量,机器也能够正确地回答新的查询。

无监督学习

在无监督学习中,算法通过编程来预测答案,而无需人工标注,甚至无需提问。无监督学习并非预先确定标签或结果,而是利用海量数据集和处理能力,来发现以前未知的相关性。例如,在消费品的营销过程中,无监督学习可以被用于识别隐藏的关系或消费者分组,以最终形成新的或改进的营销策略。

监督机器学习项目

鉴于所有的机器学习都以数据为基础,因此从本质上讲,算法需要根据源于现实世界的各种数据实例的输入,建立一套数学模型,以最终学会使用新的数据来预测未知的结果。

本文将重点介绍监督学习,这一目前最常见的机器学习方法。让我们延用上文提到的房地产应用案例,用一种有意义的方式为数据贴上标签。在下表 1 中,房屋记录的每一行都包含了一个“房价”标签。通过将行数据与房价标签相关联,算法最终将能够预测不在其数据集中的房屋市场价(注意,房屋面积以平方米为单位,而房价以欧元为单位)。

1.房屋记录

特征

特征

特征

标签

房屋尺寸


房间数量

房屋年龄

估计费用

90平方米/295 英尺

2

23 年

249,000 欧元

101平方米/331 英尺

3

338,000 欧元

1330 平方米/4363 英尺

11

12 年

6,500,000 欧元

在早期阶段,您可能需要手工标注数据记录,但最终您将训练应用自动完成该过程。也就是说,标记数据集仅用于训练和测试目的。这一阶段结束后,机器学习模型将能够在无标签数据的实例上工作。例如,您可以向预测算法输入一条新的、无标签的房屋记录,它会根据曾经的训练数据自动预测房价。

训练机器学习模型

监督机器学习的挑战在于,为特定问题找到合适的预测函数。从数学角度讲,我们的挑战就是要找到接收输入变量x,并能够返回预测值的目标预测函数。

图 1.目标预测函数示例图 1.目标预测函数示例

在大多数情况下,x代表了一个多数据点。而在该案例中,它是由房屋尺寸值和房间数量值定义的单个房屋的二维数据点。这些值的数组被称为特征向量。为了预测单个房屋的价格,我们可以使用包含了房屋尺寸和房间数量的特征向量{ 101.0, 3.0 } 去调用目标预测函数:

清单 1.使用特征向量调用目标预测函数

// 目标预测函数 h(学习过程的输出)
Function<Double[], Double> h = ...;
// 设置房屋尺寸=101 和房间数=3 的特征向量
 Double[] x = new Double[] { 101.0, 3.0 };
// 并预测房价(标签)
double y = h.apply(x);

分享说明:转发分享请注明出处。

    热点图讯
    最新图讯
    相关图讯
    网站简介  |   联系我们  |   广告服务  |   监督电话
    本网站由国科网运营维护 国科网讯(北京)技术有限公司版权所有  咨询电话:010-88516927
    地址:北京市海淀区阜石路甲69号院1号楼1层一单元114
    ICP备案号:京ICP备15066964号-8   违法和不良信息举报电话:010-67196565
    12300电信用户申诉受理中心   网络违法犯罪举报网站   中国互联网举报中心   12321网络不良与垃圾信息举报中心   12318全国文化市场举报网站
    代理域名注册服务机构:阿里巴巴云计算(北京)有限公司