How and where do we solve Duplicates / Dubletten - Check
Duplicates will be the biggest issue in this system and how to detect them so that users do not get annoyed and confused by unnessesary content.
Prototype
Kartevonmorgen does already us a small duplicate checker: Dubletten - Check: https://github.com/kartevonmorgen/openfairdb/issues/254 You can use it via API while importing entries: https://github.com/kartevonmorgen/openfairdb/issues/257#issuecomment-759371088
Next steps?
- Is it sufficient to check duplicates in the ofDB or does it need an own instance?
- Implement the list of possible duplicates and definitly no duplicates
- Or just implement one List: Wenn Dupletten nicht unbedingt eindeutig sind brauchen wir auch nicht zwei Liste für Possible duplicates und definitly no duplicate. Sondern stattdessen reicht eine Liste der IDs zweier Einträge und eine Spalte von 0% bis 100% duplette. Denn was würde ein algorythmus machen, wenn in der einen Liste eine ID als Duplette steht und in der anderen list auch als keine Duplette? In einer Liste lässt sich zumindest einfacher ein Durchschnittswert berechnen. Und als konvention könnte man sagen dass 100% Duplette oder 0% (keine Dupletten) nur von Menschen vergeben werden können und Algorythmen immer nur von 1-99% auswerten können...