如何保证众包数据的正确性?
我有一个网站,用户可以在其中输入他们购买的某些产品的数据。
如何确保通过众包输入的数据的正确性(使用户能够投票/编辑产品),从而最大限度地减少管理员需要完成的工作量? 我正在寻找一些操作方法、最佳实践等。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
我有一个网站,用户可以在其中输入他们购买的某些产品的数据。
如何确保通过众包输入的数据的正确性(使用户能够投票/编辑产品),从而最大限度地减少管理员需要完成的工作量? 我正在寻找一些操作方法、最佳实践等。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(3)
您正在收集什么类型的数据?
您谈论的是众包,因此(我认为)是在人群中聚合数据。 当他们谈论他们购买的产品时,我怀疑你会收集产品属性和价格。
一些可能的方法。 如果用户输入非数字数据(例如颜色),只需记录最常见的条目或模式(最常输入的)。
如果他们输入数字数据,请丢弃异常值。 即对最低和最高结果进行分类,并对其余结果进行平均(例如,您可以对价格执行此操作。这是电子交易所用于解决许多交易的收盘价的方法)。
根据您的应用程序,您可能希望对最新条目有历史偏见。
但这一切都取决于您的应用程序,以及您准备进行多少存储和处理数据。
What sort of data are you collecting ?
You're talking about crowd-sourcing, and thus (I assume) aggregating of data across this crowd. As they're talking about products they buy, I suspect you're going to be athering product attributes and prices.
Some possible approaches. If you users are entering non-numerical data (e.g. colours), just record the most common entries, or the mode (the most commonly entered).
If they're entering numeric data, discard outliers. i.e. bin the lowest and highest results, and average the rest (you could do this for prices, say. This is the approach that electronic exchanges use for resolving closing prices out of many trades).
Depending on your application, you may want to have a historical bias towards the most recent entries.
But this all depends on your application, and how much storage and crunching of data you're prepared to do.
确保您对所做的每项操作都保留 IP 地址日志,恶意用户或机器人会破坏会话数据或 cookie。 这样做可以确保单个实体不会因看似多个用户而扭曲任何结果或做出任何剧烈的事情。
Make sure you keep a log of IP addresses with every action made, malicious users or bots would trample on session data or cookies. Doing this ensures that a single entity cannot skew any results or do anything drastic by appearing to be multiple users.
作为高级数据,可以从“人群”中收集具有相关正确性值的数据。 看看 SO,来自拥有 1000+ 代表的人的答案或回应,比普通用户更有威望。 寻找验证和三角测量,如果你也在听人群中的一个声音,那么它可能不值得那么多。 如果有其他声音加入,那么你就知道你正在做某事,同样,我们都有机会对问题进行投票。
我最近看到一些非常好的 iPhone 应用程序,它们依靠众包来获取数据,然后通过询问其他用户是否正确来验证它。
As a high level data can be gathered from the 'crowd' with an associated correctness value. Looking at SO, an answer or response from someone with 1000+ rep, has more wieght that a casual user. Look for validations and triangulation, if it's a single voice in the crowd that you're listening too, then it's probably not worth that much. If other voices join then you know you're onto something, again in SO terms we all get a chance to upvote questions.
I've recently seen some really good iPhone apps which rely in crowd sourcing for their data, and then validate it by asking other users if it's correct.