纸聊

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 96|回复: 0

自动元数据生成的危险和政治

[复制链接]

1

主题

0

回帖

5

积分

新手上路

Rank: 1

积分
5
rafiyaruhi123 发表于 2023-10-4 17:21:32
最近几个不同的人引起我注意的一篇文章是“ 图像内容识别:死产?” 作者:Paul Melcher,在kaptur.co上撰写 。这篇文章讨论了围绕 Flickr 最近推出的自动标记功能(他们在未经许可的情况下推出,然后不得不撤回)的一些争议。与许多这些自动化方法一样,他们坚持使用更安全的方法来选择他们的算法认为相关的关键字(而不是风险更高且不太可靠的标题生成方法)。即便如此,他们还是设法激怒了部分用户,这进一步凸显了所采用方法的缺点: “ Flickr 自动标记工具来自于非常自私和无私的动机。它希望帮助那些没有时间/不愿意标记图像的用户与那些花费无数时间添加关键字的用户处于同一水平。它还希望对其存储的 110 亿张图像进行完全索引和搜索,为其宣布的许可工具做好准备。然而,它没想到的是,许多用户并不需要帮助。事实上,他们觉得这是对他们未声明的控制标签权利的不尊重。

雪上加霜的是,自动标记功能不小心不准确,或者至少看起来是这样。关于自动标记的最大误解之一今天,它能够 100% 完美地 电话号码数据  识别内容。它不是。顺便说一句,人类也不是。虽然准确率为 90% 到 95%,但人们注意到的唯一结果是 5% 的错误(或误报)。给人的印象是,即使系统每 1,000 张图像犯 1 个错误,它也不起作用,因为人们会注意到错误而不是成功。截至今天,Flickr 正在考虑将该功能仅作为选择加入的选项。” [阅读更多] 我不确定这是一种“无私”的动机。Flickr 由雅虎所有,雅虎需要对股东负责,因此我怀疑任何会产生重大费用的事情都会被完成,除非它能产生利润或提高其各种子公司的价值。即使相关人员不喜欢这个想法,他们也必须提供回报,否则就会被解雇(并被准备采取更权宜方法的其他人取代)。 数据(通过代理,包括  元数据)的特征之一是,与传统商品不同,边际效用随着拥有的数据越多而增加。



雅虎、谷歌、亚马逊、Facebook 等科技集团都清楚地意识到这一点,他们的商业模式的基础现在几乎完全是数据获取,以产生竞争优势(即廉价购买数据,复合价值并出售) 。 到目前为止,如果您负责在上述企业中制定战略决策,那么重点将是通过提供一些免费应用程序(例如搜索引擎、讨论板、相册、电子邮件客户端或补贴书店等)来利用用户的时间和精力实施和支持这些数据收集设施的成本远远低于它们产生的价值,但市场是一个竞争激烈的市场,只有数据丰富的人才能产生所需的回报以保持其卓越地位。下一个潜在的杠杆来源是人工智能,它利用人类的努力并以自动化和大规模的方式对其进行回收。这就是 Flickr 提供自动标记图像的动机。 根据这篇文章,Flickr 和其他尝试类似策略的人都遇到了同样的问题,结果的准确性受到质疑。我注意到保罗的观察,即人类也不准确。当然,他的观点是正确的,我的期望是这个因素导致了不准确(加上软件有缺陷,这在人类负责编写它的时候几乎是不可避免的)。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|小黑屋|纸聊

GMT+8, 2025-5-10 13:35 , Processed in 0.051658 second(s), 24 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表